我是一名教师,原华图公基、申论、面试讲师。
做我们这行的,经常引入人民日报评论员文章作为学生练习的训练素材。
为了快速抓取文章,做成文集,我就写了这个小脚本。
我本硕都是学哲学的,自学只为解决生活中的问题,所以代码写的不好,请大神们不要喷。
联系我:liulizhucn#qq.com
微信:zhuzicn
抓取人民日报时评文章,生成带文章标题和正文的docx文件。
其中docx文件中,文章标题为H1样式。
因为人民日报只显示最新的200篇,所以本程序只能抓取最多200篇。。。。。
请安装Python3环境,并安装bs4、python-docx这两个库
然后在本文件所在目录中打开终端,输入命令python3 rmrb.py ,等待一段时间,它会自动下载并拼接为docx文件。
生成的docx文件没有目录,部分文章字体不一定正常,可能需要重设字体。我在Mac下写的代码,不清楚win下会怎么样,估计应该能用。