Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

简介及安装 - feapder-document #5

Open
Boris-code opened this issue Feb 20, 2021 · 12 comments
Open

简介及安装 - feapder-document #5

Boris-code opened this issue Feb 20, 2021 · 12 comments

Comments

@Boris-code
Copy link
Owner

https://boris.org.cn/feapder/#/README

Description

@gk18965
Copy link

gk18965 commented Mar 12, 2021

scrapy学了一星期没整明白,feapder学了一天项目已经跑起来了!

@Boris-code
Copy link
Owner Author

@gk18965
scrapy学了一星期没整明白,feapder学了一天项目已经跑起来了!

牛皮

@MountanXiu
Copy link

这个框架太好用啦,批次爬虫太方便

@Boris-code
Copy link
Owner Author

加入星球或关注公众号可获得作者的微信哦~
帮忙分享本框架,如转发到爬虫技术群或朋友圈,可获得星球38元优惠券(加作者微信,和作者索要)

@yyooovooo
Copy link

不愧是轻量级的,轻巧但功能十分强大,比scray更容易上手,有基础的真的可以10分钟学会并应用起来。

@luojunjunjun
Copy link

feader的批次爬虫中start_monitor_task会从mysql的任务表拉取字段拼接后会将这个请求封装到redis(包括请求头和cookie)存放到redis以实现分布式,那么当这个请求中请求头的某个字段或cookie过期了,是不是redis中已经存在的和后续的请求都是不合格会被检测的?或者我该如何通知start_monitor_task开启的进程去更改后续存放到redis的请求中的haaders 或 cookie?

@Boris-code
Copy link
Owner Author

feader的批次爬虫中start_monitor_task会从mysql的任务表拉取字段拼接后会将这个请求封装到redis(包括请求头和cookie)存放到redis以实现分布式,那么当这个请求中请求头的某个字段或cookie过期了,是不是redis中已经存在的和后续的请求都是不合格会被检测的?或者我该如何通知start_monitor_task开启的进程去更改后续存放到redis的请求中的haaders 或 cookie?

在下载中间件里拼header和cookie

Repository owner deleted a comment from ydf0509 Jul 2, 2021
@adaaaaaa
Copy link

pip3 install feapder[all]
zsh: no matches found: feapder[all]

@Boris-code
Copy link
Owner Author

@adaaaaaa
pip3 install feapder[all]
zsh: no matches found: feapder[all]

可能是pip版本问题,试试加个转译 pip3 install feapder\[all\]

@xiaoyueinfo
Copy link

爬虫是否支持针对域名限制并发数量,比如一个把1000个类似的网站放到同一个爬虫里面,支持同时并发16个线程,限制每个网站域名只能并发一个线程以避免访问过于频繁。这里面的问题在于,如果把1000个网站做成1000个爬虫同时执行,一是劳动量太大,二是这1000个爬虫干的事情都一模一样,完全是重复劳动。如果1000个网站做成一个爬虫的话,无法控制并发量。如果并发太多,会导致单个网站频繁请求,如果并发太少,效率又不高。最优的方式是能设置最大并发量和单个域名的并发量。请问是否支持,以及如何设置?谢谢大佬。

@Boris-code
Copy link
Owner Author

@xiaoyueinfo
爬虫是否支持针对域名限制并发数量,比如一个把1000个类似的网站放到同一个爬虫里面,支持同时并发16个线程,限制每个网站域名只能并发一个线程以避免访问过于频繁。这里面的问题在于,如果把1000个网站做成1000个爬虫同时执行,一是劳动量太大,二是这1000个爬虫干的事情都一模一样,完全是重复劳动。如果1000个网站做成一个爬虫的话,无法控制并发量。如果并发太多,会导致单个网站频繁请求,如果并发太少,效率又不高。最优的方式是能设置最大并发量和单个域名的并发量。请问是否支持,以及如何设置?谢谢大佬。

不支持,1000多个网站通常用可视化配置的爬虫系统,不是feapder干的事儿

@baozaodetudou
Copy link

@adaaaaaa
pip3 install feapder[all]
zsh: no matches found: feapder[all]

@adaaaaaa
pip3 install feapder[all]
zsh: no matches found: feapder[all]

pip3 install 'feapder[all]'

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

8 participants