说明：

一个BiLSTM-CRF词性标注器。

模型结构

输入

随机初始化的词向量。可选：随机初始化的词向量加上预训练的词向量。
char-lstm得到的字符级表示，避免了首字母、前后缀等特征工程，并且有助于解决OOV词。
然后拼接两个向量输入。

特征提取

两层的BiLSTM。

解码

MLP得到每个词对应的标签得分，即发射矩阵。
一个转移矩阵记录标签转移的得分。

有了上方两类得分，可以使用vitebi算法解码出得分最大的结果。

训练

损失函数

可以基于发射矩阵用交叉熵直接得到局部的损失。
也可以用crf让句子的概率最大化。

其它注意项

词汇表

额外添加<PAD>, <UNK>, <BOS>, <EOS>四个标签。
训练集中只出现一次的词被认为是OOV词，打上<UNK>标签。

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
learner		learner
mytagger		mytagger
utils		utils
.gitignore		.gitignore
config.py		config.py
readme.md		readme.md
run.py		run.py
test.py		test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

说明：

模型结构

输入

特征提取

解码

训练

损失函数

其它注意项

词汇表

标签集

About

Releases

Packages

Languages

ironsword666/POSTagger

Folders and files

Latest commit

History

Repository files navigation

说明：

模型结构

输入

特征提取

解码

训练

损失函数

其它注意项

词汇表

标签集

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages