这个项目是为写爬虫系列博客建立的,之前的爬虫项目太过混乱,写了博客整理并复习了一下,而且之前的是在windows7中运行的,现在改用ubuntu,移植的过程中出现了一些不一致的地方,改为在ubuntu上可以顺利运行的版本。
博客地址在这里。
-
hanhanblog.py: 爬取韩寒博客--保存为html文件
-
tiebapic.py: 爬取百度贴吧图片区图片--一次爬取一个图册
-
qiu.py: 爬取糗事百科段子--命令行交互式
-
Airplane: 用scrapy爬取艺龙网机票信息--保存为json文件
-
qiushibaike: 用scrapy爬取糗事百科段子--保存为json文件
-
mzitu: 用scrapy爬取妹子图网站图片--保存为本地图片
-
tieba_pic: 用scrapy爬取百度贴吧图片--一次爬取一个贴吧