Skip to content
/ - Public

用多层BLSTM模型同时进行中文分词和标点符号预测

Notifications You must be signed in to change notification settings

camel2000/-

Repository files navigation

-本项目用多层BLSTM模型搭建的联合框架进行了中文分词和标点预测

中文分词和标点符号预测都可以被当做序列标注问题进行处理,这是实现联合标注,进而搭建联合框架同时进行中文分词和标点预测的关键。本项目包含2个要点: 1 中文分词和标点预测的联合标注(中文分词使用四词位) 2 多层BLATM模型

项目用Python语言所写,神经网络的实现用到了Google的tensorflow-1.0.1

1)my_biLSTM_multilayer_CWS.py 此文件定义搭建的多层BLSTM模型和执行迭代训练,首先要运行此文件,训练联合框架。

2) my_biLSTM_multilayer_CWS_testing.py 此文件为测试程序

3)my_reader.py 此文件为预处理程序,把预料送入神经网络之前,要建立词典,为每个字符打标签。

About

用多层BLSTM模型同时进行中文分词和标点符号预测

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages