NewsSpider

该项目是基于Scrapy框架的Python新闻爬虫，能够爬取网易，搜狐，凤凰和澎湃网站上的新闻，将标题，内容，评论，时间等内容整理并保存到本地

项目需求
1：爬取网易，搜狐，凤凰和澎湃新闻网站的文章及评论
2：新闻网页数目不少于10万页
3：每个新闻网页及其评论能在1天内更新

项目技术
1:设计一个网络爬虫，能够爬取指定网站的全部页面，并提取其中的文章及评论内容
2:定时运行网络爬虫，实现每日更新数据

首先从初始URL 开始，Scheduler 会将其交给 Downloader 进行下载，下载之后会交给 Spider 进行分析，这里的spider就是爬虫的核心功能代码,Spider分析出来的结果有两种：一种是需要进一步抓取的链接，它们会通过middleware传回 Scheduler ；另一种是需要保存的数据，送入Item Pipeline ，进行处理和存储,最后将所有数据输出并保存为文件

项目结构
scrapyspier为scrapy框架文件
spiders是核心文件，对新闻网站信息爬取
debug_xxx.py是运行文件

Name		Name	Last commit message	Last commit date
Latest commit History 41 Commits
.idea		.idea
scrapyspider		scrapyspider
README.md		README.md
__init__.py		__init__.py
debug_163.py		debug_163.py
debug_ifeng.py		debug_ifeng.py
debug_pengpai.py		debug_pengpai.py
debug_qq.py		debug_qq.py
debug_sohu.py		debug_sohu.py
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

NewsSpider

About

Releases

Packages

Languages

F-debug/NewsSpider

Folders and files

Latest commit

History

Repository files navigation

NewsSpider

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages