Skip to content

howl-anderson/chinese-wikipedia-corpus-creator

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

33 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

中文 Wikipedia 维基百科语料库构建工具

本项目提供了工作流和脚本工具,从零开始创建中文维基百科语料库。

开始使用

克隆或者下载本 repo 至本地文件系统

系统要求&软件依赖

支持 python 3.4+, 不支持 python2

Ubuntu/Debian 用户

脚本 install_dependencies_on_ubunut.bash 会帮你自动安装好所有的依赖

其他操作系统用户

python 软件包

使用如下命令安装所需的 python 依赖:

pip install -r ./requirements.txt
非 python 软件包

需要安装 OpenCCC,用户按照官方的指示,安装即可。

Ubuntu / Debian 用户,使用 apt 命令即可:

sudo apt-get install opencc

使用

全自动脚本

allinone_process.bash

手动运行

workflow

TODO

Jieba 分词模型性能不佳,考虑替换成 LTP 或者 THULAC, 优先考虑使用 THULAC, 因为它是开源软件