Skip to content

Python实现豆瓣电影TOP250抓取,然后对爬取的数据进行分析。

License

Notifications You must be signed in to change notification settings

MrZhouZh/douban-top250

 
 

Repository files navigation

douban-top250

Python实现豆瓣电影TOP250抓取,然后对爬取的数据进行分析。

准备工作

安装 conda + jupyter + notebook, 可以查看这篇教程

安装完后, 我本地出现了新建文件访问后 500 错误, 用以下命令解决即可

pip install --upgrade --user nbconvert

豆瓣电影TOP250抓取

本部分包括:
豆瓣电影TOP250抓取思路分析---top250-spider.md
豆瓣电影TOP250抓取思路分析---top250-spider.ipynb
豆瓣电影TOP250抓取全部代码---top250-spider.py
抓取结果---top250_movie.csv
Excel打开不乱码的抓取结果---top250_movie_ANSI.csv

豆瓣电影TOP250数据分析

本部分详细分析见:豆瓣电影TOP250数据分析---top250-analyse.ipynb

分析结果

电影制作国家统计
电影制作国家统计

电影类型统计
电影类型统计

导演统计
导演统计

电影评分统计
电影评分统计

电影评分和排名关系的散点图
电影评分和排名关系的散点图

About

Python实现豆瓣电影TOP250抓取,然后对爬取的数据进行分析。

Resources

License

Stars

Watchers

Forks

Languages

  • Jupyter Notebook 98.5%
  • Python 1.5%