Skip to content

ETZhangSX/construct_thesaurus

Repository files navigation

construct_thesaurus

软件工程课设分词分类部分,语料爬取部分详见words_spider

目前完成分词部分,分词器使用jieba库进行分词

环境部署

Dump20190531.sql为数据库迁移文件,在语料爬取部分数据库的基础上,新建表thesaurus,并导入了清华大学中文语料库作为基础词库

mysql -uroot -p < Dump20190531.sql

如不需要次基础词库,可修改迁移文件只导入数据库结构,再自行导入其他基础词库,导入方式可以参考我写的脚本word.py

安装相应python包

pip install -r requirements.txt

安装本项目并运行(目前仅分词、训练词向量模型)

python setup.py install
python main.py

About

软工课设分词分类部分

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages