中国省市地区爬虫

爬取中国城乡数据的爬虫，有请求重试机制，只要执行一行命令即可获取所有省市区，另有采集好的mysql版本数据传送门。

如果命令行卡住的话不要着急退出，稍等2分钟程序会继续运行。

Requirements

Python3
Mysql
requests
lxml
pymysql
time
os

Quick Start

执行建表语句
修改database.py中的数据库连接配置
命令行执行python3 spider.py

Feature

数据来源于国家统计局，网址：https://www.stats.gov.cn/ ，总共846462条数据，记录了全中国的省、市、县、镇、村委会的所有地区数据。
网络请求异常重试，尝试5次，避免网络异常时爬取中断
反爬虫机制

表结构

字段	备注
id	主键
p_code	上一级编码
code	编码
name	名称
url	当前的城市链接，供下一次采集
level	级别

建表语句

CREATE TABLE `china_regions` (
  `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
  `p_code` varchar(50) NOT NULL DEFAULT '' COMMENT '上一级编码',
  `code` varchar(50) NOT NULL DEFAULT '' COMMENT '编码',
  `name` varchar(100) NOT NULL DEFAULT '' COMMENT '名称',
  `url` varchar(200) NOT NULL DEFAULT '' COMMENT '链接',
  `level` tinyint(4) NOT NULL COMMENT '级别:1-省，2-市，3-县，4-镇，5-村委会',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

Screenshots

日志

数据库

To Do List

性能优化
去重处理

CHANGELOG

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
images		images
LICENSE		LICENSE
README.md		README.md
database.py		database.py
header.py		header.py
local_mysql.py		local_mysql.py
spider.py		spider.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

中国省市地区爬虫

Requirements

Quick Start

Feature

表结构

建表语句

Screenshots

To Do List

CHANGELOG

License

About

Releases 1

Packages

Languages

License

wjhtime/china_region_spider

Folders and files

Latest commit

History

Repository files navigation

中国省市地区爬虫

Requirements

Quick Start

Feature

表结构

建表语句

Screenshots

To Do List

CHANGELOG

License

About

Resources

License

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages