一个BiLSTM-CRF词性标注器。
- 随机初始化的词向量。可选:随机初始化的词向量加上预训练的词向量。
- char-lstm得到的字符级表示,避免了首字母、前后缀等特征工程,并且有助于解决OOV词。
- 然后拼接两个向量输入。
两层的BiLSTM。
- MLP得到每个词对应的标签得分,即发射矩阵。
- 一个转移矩阵记录标签转移的得分。
有了上方两类得分,可以使用vitebi算法解码出得分最大的结果。
- 可以基于发射矩阵用交叉熵直接得到局部的损失。
- 也可以用crf让句子的概率最大化。
- 额外添加<PAD>, <UNK>, <BOS>, <EOS>四个标签。
- 训练集中只出现一次的词被认为是OOV词,打上<UNK>标签。