Skip to content

基于radium爬虫编写的批量任务处理脚本,使用进程池

Notifications You must be signed in to change notification settings

fumengze/rad_xray

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

基于长亭科技的radium爬虫造了个新轮子

实现功能:

批量爬取链接,可以在cmd中添加radium支持的功能,比如登录后爬取,把流量转发到xray的监听地址中 详细查看radium爬虫的使用方法:

https://github.com/chaitin/rad

使用Pool进程池管理进程,可以设置同时运行几个进程。

使用方法:

1、把需要爬取的域名放入rad.txt中

2、在代码的po = Pool(3)设置进程池的最大数,脚本里写的是最大3个,也就是同时开启3个chrom浏览器进行爬取。

3、爬取完成后会生成crawl.txt,格式为GET http:https://www.xxx.com/index.php?id=1 POST http:https://www.xxx.com/index.php

4、--disable-headless参数为前台显示chrom浏览器的操作,不需要可以删除该参数。

5、-http-proxy参数为转发流量到代理地址中,可以无缝对接xray,或考虑做个接口用于处理接收到的流量。

还存在的问题:

1、目前不清楚单个标签页最长的爬取时间是多久,因为没有timeout的参数(这应该是在爬虫内设定的,如果未来也没有会考虑对进程的执行时间做个限制)

2、测试时发现会爬取大量类似的页面,而且对无意义的页面还会爬取,比如遇到伪静态的页面会一直爬取,看到可以在配置文件中通过正则来判断做限制(还要再考虑下怎么写正则的匹配规则)

About

基于radium爬虫编写的批量任务处理脚本,使用进程池

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages