本项目实为实验室微博数据分析中的数据采集模块(针对新浪微博), 可以采集指定用户的微博, 关注, 粉丝, 也可以采集指定消息的转发和评论. 网络上已经出现了很多的微博crawler, 如中国爬盟, Cola:一个分布式爬虫框架. 再次发明了轮子, 囧, 记得帮主说过一句话:还是自家的好,我就心宽了, 哈哈.
注: 其中的登录和cookie管理均来自中国爬盟, 非常感谢. 爬盟备份神器开源啦,强力顶起.
新增了对(新浪微博(移动版))的关注, 粉丝的采集.
-
python2.7
-
wxPython
$yum install wxPython
- rsa
$easy_install rsa
- lxml
$easy_install lxml
if any error occur
$yum install python-lxml
- pyquery
$easy_install pyquery
using Pyinstaller converts this project into stand-alone executables
for example:
$python pyinstall.py --onefile --icon=$icon_logo_path $crawler_dir/unix_local_login.py
>python pyinstall.py -Fw --icon=$icon_logo_path $crawler_dir/win_local_login.py
key | meaning | example |
---|---|---|
uid | 用户ID(数字) | 1000000253 |
nickname | 用户昵称 | 茶歇时间 |
msg | 消息内容 | 一公司网管:老板知道装了360上不了QQ,高兴坏了... |
msgurl | 消息URL | https://weibo.com/1000000253/zF0sMQjYKS |
msg_id | 消息ID(数字) | 3471354253 |
msgtime | 消息发布时间(linux时间戳) | 1289012596 |
msgfrom | 消息来自(设备) | iPhone客户端 |
media | 是否含有图片/音频/视频(True/False) | True |
map_data | 地图信息 | |
n_likes | 赞 | 1 |
n_forwards | 转发 | 1 |
n_favorites | 收藏 | 1 |
n_comments | 评论 | 1 |
is_forward | 本消息是否转发(True/) | True |
forward_uid | 原消息发布用者的ID(数字) | 1644572034 |
forward_nickname | 原消息发布用者的昵称 | 精彩语录 |
forward_daren | 原消息发布用者的认证信息-达人 | 微博达人 |
forward_verified | 原消息发布用者的认证信息-新浪认证 | 新浪认证 |
forward_vip | 原消息发布用者的认证信息-新浪会员 | 微博会员 |
forward_msg | 原消息 | |
forward_msgurl | 原消息地址 | |
forward_msg_id | 原消息ID(数字) | |
forward_msgtime | 原消息发布时间(linux时间戳) | |
forward_msgfrom | 原消息来自(设备) | |
forward_media | 原消息是否含有图片/音频/视频(True/False) | |
forward_map_data | 原消息地图信息 | |
forward_n_likes | 原消息赞 | |
forward_n_forwards | 原消息转发 | |
forward_n_favorites | 原消息收藏 | |
forward_n_comments | 原消息评论 |
key | meaning | example |
---|---|---|
uid | 用户ID(数字) | |
nickname | 昵称 | |
sex | 性别 | |
addr | 地址 | |
daren | 达人 | |
verified | 新浪认证 | |
vip | 新浪会员 | |
n_follows | 关注数 | |
n_fans | 粉丝数 | |
n_weibos | 微博数 | |
intro | 简介 | |
follow_from | 关注来自(设备) |
key | meaning | example |
---|---|---|
uid | 用户ID | |
nickname | 昵称 | |
location | 地址 | |
sex | 性别 | |
birth | 生日 | |
blog | 博客 | |
domain | 个性域名 | |
intro | 简介 | |
MSN | MSN | |
university | 教育 | |
company | 工作 | |
tag | 标签 | |
n_follows | 关注数 | |
n_fans | 粉丝数 | |
n_weibos | 微博数 | |
daren_level | 达人信息(等级) | 高级达人 |
daren_score | 达人信息(积分) | |
daren_interests | 达人信息(爱好) | |
medal | 勋章信息 | |
cur_level | 当前等级 | |
active_days | 活跃天数 | |
next_level_days | 距离下一级别 | |
trust_level | 信用等级 | |
trust_score | 当前信用积分 |
key | meaning | example |
---|---|---|
uid | 转发/评论消息用户的ID | |
nickname | 转发/评论消息用户的昵称 | |
daren | 转发/评论消息用户的认证信息-达人 | |
verified | 转发/评论消息用户的认证信息-新浪认证 | |
vip | 转发/评论消息用户的认证信息-新浪会员 | |
msg | 转发/评论消息 | |
msg_url | 转发/评论消息URL | |
msg_id | 转发/评论消息ID | |
msg_time | 转发/评论时间(linuxlinux时间戳) | |
forward_uid | 原消息用户ID | |
forward_nickname | 原消息用户昵称 | |
forward_msg_url | 原消息URL | https://weibo.com/1000000253/zF0sMQjYKS |
forward_msg_id | 原消息ID(数字) | 3471354253 |