天眼查爬取企业信息-企业信用信息查询系统-天眼查爬虫
运行main_all.py即可爬取90%的天眼查公司
运行main_top100.py只爬取96个行业的前100家公司
运行main_search.py根据你的公司名搜索进行爬取指定公司
注意:
1,代理IP请自费或自力更生建免费IP池
2,本项目自带云数据库,可直接使用,用你的电脑直接加入爬虫计划,我愿称之为 “分布式”爬虫
3,如果想用自己的数据库,配置信息在 config.py里 修改为你的数据库和蘑菇代理appkey即可
4,此程序随时可停,随时可继续从上次停止的地方开始,不会重复爬取
5, 如果有其他问题,或者想要数据,加Q群: 231436610
步骤1: 查看data文件夹,看数据是否满足你的数据分析要求。
- 公司信息.xlsx 超过2万条的企业信息
- 行业TOP100.sql 各个行业Top100的企业信息 大概9000条记录。
步骤2: 如果数据不满足你的要求,你想操练一下,花点钱爽爽。
-
安装好mysql,建好表,sql文件夹下有建表脚本。
-
买好蘑菇代理或者其他代理池的代理
-
修改config.py 里面的配置,与数据库配置以及蘑菇代理API 的appkey,还有爬虫容错重试次数
-
根据你的要求运行main_all.py和main_top100.py
-
跑test.main 之前需要跑一次 find_industry.py这个脚本:把96个行业*5页的行业记录初始化好。
-
如果有错误,请一步步调试,get_html.py 和find_info.py底下有注释掉的调试代码,按需修改运行
-
能正常跑的话,请你动手点个star哈,祝你爬虫监狱之旅快乐 (๑•̀ㅂ•́)و✧