抓取博客园文章并保存为 Markdown 格式文档

本项目目标1：抓取自己的博客园文章，转换为 Hexo 所用的Mardown格式，并且持久化保存。方便大家将博客迁移到 Hexo 搭建的站点上。

本项目目标2: 制作个人博客园的年度报告

功能介绍

本项目具有以下功能：

支持将博客园的文章保存为html文件
支持将文章中的图片也保存下来
支持将html文件批量转换为mardown格式的文档
保存博客的图片到同名的文件夹下，能够在typora中实现图片预览。typora中如何实现图片预览可以参考Hexo博客写作与图片处理的经验

用法

from blog2markdown import html2markdown
from blog2markdown import blog2html

# 将博客文章和博客用到的图片保存到本地，文章保存为html格式，图片保存到markdown文件夹下
# 输入博客的入口，则自动将所有博客文章下载到本地的 cnblogs-{blog-name}/html 文件夹下
b2h = blog2html()
b2h.get_cnblogs('https://www.cnblogs.com/ityouknow/')

# 将文件夹下的html文件批量转换为markdown文件
h2m = html2markdown()
h2m.convertFolder('html-path', 'markdown-path')

几个现有框架对比

在做这个项目之前，试着查找了一些现有的文档，但是都没有办法成功的实现我的目标

html2markdown：无法对整段的HTML进行解析，不支持table的解析和转换
h2md：能够解析整段的HTML，不支持table

修改记录

[2020-07-09] 根据网友 marklove5102 创建的issure，增加了str的支持
[2020-04-13] 完善了支持的元素，完善了生成md的格式
[2020-04-09] 最近几天调整了下递归方法，支持了 table\a\ul\li 等元素
[2020-03-30] 创建 blog2markdown 的包，将相关操作都封装到包中
[2020-03-16] 将Scrapy方式改为requests方式

Name		Name	Last commit message	Last commit date
Latest commit History 119 Commits
blog2markdown		blog2markdown
blogreporter		blogreporter
.gitignore		.gitignore
README.md		README.md
config.json		config.json
report.py		report.py
sample.py		sample.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

抓取博客园文章并保存为 Markdown 格式文档

功能介绍

用法

几个现有框架对比

修改记录

参考资料

About

Releases

Packages

Languages

cocowool/py-cnblogs

Folders and files

Latest commit

History

Repository files navigation

抓取博客园文章并保存为 Markdown 格式文档

功能介绍

用法

几个现有框架对比

修改记录

参考资料

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages