Skip to content

DennisLiu94/CSBHMM

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

For English readme content, please roll down.

####这是一个建立在HMM模型上的中文分词程序

######程序说明:

  • 本程序基于python2.7.10 windows环境 目前有些编码问题[注1]

  • HMM目录下有两个脚本 hmm.py 用来训练模型,会生成../model/hmmmodel 文件。viterbi.py用来进行解码,会生成../res/hmmres文件

  • 语料格式全部采用CRF++中的格式

  • 使用方法 python hmm.py $trainingFilePath $modelPath python viterbi.py $modelPath $testFilePath $dictPath $outputPath

  • 在formatScript下是语料格式处理脚本。用来在不同的语料格式之间做转换。

  • eval目录下是一个分词评价脚本,可以计算P,R和F三个指标。同样只支持CRF++的语料格式。

  • 在根目录下附送了一个用来给CRF++调参的脚本。在windows下将CRF++加入path就可以正常使用了。

  • corpus目录下面是语料。这里为了方便要复现实验的同学,一并将语料上传。

######效果: +基于HMM和字典,目前F值在0.9左右。

注1:目前支持的文本编码是ANSI编码(因为是在windows下面使用)。但问题是python直接输出的文件好像不是这个标准编码的,需要先转UTF8再转ANSI才能正常使用。 下一个版本准备同一成UTF8编码。

About

A Chinese Segmenter based on HMM model

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages