an weixin crawler via mobile and squid3 agent. can crawler the gongzhonghao artical and read/like number.
三个文件运行顺序和作用:
- ap.py 获取url
- get_date_git_num.py: 获得author,date
- patch_read_like.py 获得read和like数目
更换抓取账号修改步骤:
- 添加要抓取的公众号到wx__gzh;
- 修改三个文件的select语句中的table:
- 修改ap 中的over_date 决定获取到的日期。
ps: sentiment和data在get_date_git_num中修改 ap.py中count固定为10,变更frommsgid来更改历史消息的内容