-
Notifications
You must be signed in to change notification settings - Fork 466
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
简介及安装 - feapder-document #5
Comments
scrapy学了一星期没整明白,feapder学了一天项目已经跑起来了! |
牛皮 |
这个框架太好用啦,批次爬虫太方便 |
加入星球或关注公众号可获得作者的微信哦~ |
不愧是轻量级的,轻巧但功能十分强大,比scray更容易上手,有基础的真的可以10分钟学会并应用起来。 |
feader的批次爬虫中start_monitor_task会从mysql的任务表拉取字段拼接后会将这个请求封装到redis(包括请求头和cookie)存放到redis以实现分布式,那么当这个请求中请求头的某个字段或cookie过期了,是不是redis中已经存在的和后续的请求都是不合格会被检测的?或者我该如何通知start_monitor_task开启的进程去更改后续存放到redis的请求中的haaders 或 cookie? |
在下载中间件里拼header和cookie |
pip3 install feapder[all] |
可能是pip版本问题,试试加个转译 |
爬虫是否支持针对域名限制并发数量,比如一个把1000个类似的网站放到同一个爬虫里面,支持同时并发16个线程,限制每个网站域名只能并发一个线程以避免访问过于频繁。这里面的问题在于,如果把1000个网站做成1000个爬虫同时执行,一是劳动量太大,二是这1000个爬虫干的事情都一模一样,完全是重复劳动。如果1000个网站做成一个爬虫的话,无法控制并发量。如果并发太多,会导致单个网站频繁请求,如果并发太少,效率又不高。最优的方式是能设置最大并发量和单个域名的并发量。请问是否支持,以及如何设置?谢谢大佬。 |
不支持,1000多个网站通常用可视化配置的爬虫系统,不是feapder干的事儿 |
https://boris.org.cn/feapder/#/README
Description
The text was updated successfully, but these errors were encountered: