Skip to content

基于webmagic框架的Java爬虫项目, 爬取知乎用户信息,采用免费代理池,使用Mybatis持久化,ELK可视化数据

Notifications You must be signed in to change notification settings

phantommmm/webmagic-spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

webmagic-spider

基于webmagic框架的Java爬虫项目, 爬取知乎用户信息,采用免费代理池,使用Mybatis持久化,ELK可视化数据

运行环境

  • webmagic
  • maven
  • mybatis
  • mysql
  • ELK(可以忽略)

反爬虫措施

  • 使用代理池,运行主程序前,先运行爬虫代理,将爬取到的代理保存到代理池,每次从代理池中随机抽取
  • 使用多个UserAgent模拟不同浏览器
  • 线程休眠随机时间,被封后随机时间重启,模拟人工访问

配置

初次运行请配置 jdbc.propertiesuseragent.txt

运行

先运行代理爬虫,再运行主程序

代理爬虫入口: Pool.java

主程序入口: SpiderStart.java

程序分析

从一个知乎用户开始,获取其关注列表,再分别爬取关注列表的用户,不断循环下去 主要逻辑类: MyProcessor.java

效果展示

爬取过程 爬取过程

知乎职业分布 知乎职业分布

知乎地域分布 知乎地域分布

About

基于webmagic框架的Java爬虫项目, 爬取知乎用户信息,采用免费代理池,使用Mybatis持久化,ELK可视化数据

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages