爬了3000多个subject 后面就不行了，是怎么回事啊，代码没看懂 #10

lxl315 · 2019-03-20T21:03:24Z

如题是因为页面上已经匹配到的url 都爬过的原因么？

baabaaox · 2019-03-21T06:50:33Z

@lxl315 如果不是 IP 被 ban，可以在这里添加一些初始的 url，原理就是无法枚举豆瓣 subject_id，可以通过它的推荐来获取尽可能多的 subject_id

lxl315 · 2019-03-21T08:55:00Z

嗯，这个我看到了。试过。
另外我想改造下您的项目从一个ip接口，获取代理ip，然后爬取信息，如果ip被ban 了，就从接口里在获取一个ip，如果没有被ban，就一直用这个代理ip爬

baabaaox · 2019-03-21T13:54:38Z

@lxl315 既然你有 IP 接口那么随机取一个IP出来应该更好，长时间用一个 IP 很容易被让 IP ban掉，如果你维护一个可用的 IP 列表，随机取一个，放慢抓取的频率，这样才不容易被 ban

lxl315 · 2019-03-22T23:04:02Z

好的。我去继续优化

baabaaox added the question label May 9, 2019

baabaaox closed this as completed May 9, 2019

Provide feedback