开源web知识图谱项目

Tips

如果是项目问题，请提issue。
如果涉及到不方便公开的，请发邮件。
ChatBot请访问链接

update 0907

1.修改网页保存路径为相对路径
2.删除多余的文件，只保留代码文件

开源web知识图谱项目

爬取百度百科中文页面
抽取100W+个三元组
构建中文知识图谱

环境

python 3.6
requests:网络请求
re:url正则匹配
bs4:网页解析
pickle:进度保存
threading:多线程
neo4j:知识图谱图数据库,安装可以参考链接
pip install neo4j-driver：neo4j python驱动

代码目錄

spider/ 抓取原始网页
ie/ 从网页中解析正文，从正文中抽取结构化信息
kg/ 抽取三元組，存入neo4j数据库

代码执行顺序：

1.spider目录下执行：python spider_main.py
2.ie目录下执行：python extract-para.py
3.ie目录下执行：python extract-table.py
4.kg目录下执行：python build-triple-from-table.py
5.kg目录下执行：python insert_to_neo4j.py

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
ie		ie
kg		kg
spider		spider
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Tips

update 0907

开源web知识图谱项目

环境

代码目錄

代码执行顺序：

知识图谱效果图

About

Releases

Packages

Languages

stanpcf/WEB_KG

Folders and files

Latest commit

History

Repository files navigation

Tips

update 0907

开源web知识图谱项目

环境

代码目錄

代码执行顺序：

知识图谱效果图

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages