8.7 更多细节（Further Details）

在这一节中，我们将总结数据和模型的其余几个细节，首先是数据。由于我们提出的算法是有监督的，所以标注数据对于训练和测试是至关重要的。现在我们有各种各样的数据集用于词性标注和 NER。在撰写本文时，Universal Dependencies（UD）数据集 (Nivre et al., 2016b)¹ 有 92 种语言的 POS 标注语料，Penn Treebanks 也有英文、中文和阿拉伯文版本。OntoNotes NER 语料库也有英文、中文和阿拉伯文版本 (Hovy et al, 2006)²。同时也有在特定领域的 NER 语料库，例如生物医学领域 (Bada et al., 2012)³ 和文学文本 (Bamman et al., 2019)⁴。

8.7.1 双向性（Bidirectionality）

上述 CRF 和 HMM 架构的一个问题是，这些模型是完全从左到右运行的。虽然维特比算法允许当前决策间接地受到未来决策的影响，但如果预测单词 $w_i$ 的标签时能够直接使用未来标签 $t_{i+1}$ 和 $t_{i+2}$ 的信息，那将会有更大的帮助。

另外，任何序列模型都可以通过使用多个通道变成一个双向模型。例如，第一个通道只使用左边词的词性特征。在第二个通道中，可以使用所有单词的标签，包括右边的单词。另外，标注器也可以运行两次，一次从左到右，一次从右到左。在维特比解码中，标注器会选择两个序列中得分较高的序列（从左到右或从右到左）。双向模型对于神经模型来说是很常用的，正如我们将在第九章介绍的 biLSTM 模型中看到的那样。

8.7.2 基于规则的方法（Rule-based Methods）

虽然机器学习（神经网络或 CRF）序列模型是学术研究中的常态，但是商业化的 NER 方法通常是基于列表和规则的组合，以及少量的监督机器学习 (Chiticariu et al., 2013)⁵。例如，在 IBM 的 SystemT 架构中，用户使用一种查询语言指定标注任务的声明式约束，这种查询语言包括正则表达式、字典、语义约束和其他运算符，系统将其编译成一个高效的提取器 (Chiticariu et al., 2018)⁶。

一种常见的方法是对文本进行反复的规则处理，从精度很高但召回率很低的规则开始。在随后的阶段，使用机器学习方法，再把第一次的输出考虑进去。

首先，使用高精度的规则来标记明确的无争议的实体提及。
然后，匹配搜索上述步骤得到的实体子串。
使用特定应用的名称列表来寻找可能的特定领域实体提及。
最后，使用上述抽取到的实体作为额外的特征，应用监督序列标注技术。

基于规则的方法也是最早的词性标注方法。基于规则的标注器，如 English Constraint Grammar 系统 (Karlsson et al. 1995⁷, Voutilainen 1999⁸)，使用 20 世纪 50 年代和 60 年代发明的两段式方法：一个具有数以万计的词干条目的形态分析器返回一个词的所有词性。然后，对输入的句子应用一大套成千上万的约束条件，以排除与上下文不一致的词性。

8.7.3 形态丰富语言的词性标注（POS Tagging for Morphologically Rich Languages）

在处理像捷克语、匈牙利语和土耳其语这样具有丰富形态的语言时，有必要对标注算法进行增强。

这些富有成效的构词过程导致这些语言的词汇量很大：一个 25 万字的匈牙利语语料库的词型（word type）量是同等规模的英语语料库的两倍多 (Oravecz and Dienes, 2002)⁹，而一个有 1000 万字的土耳其语语料库的词型量是同等规模的英语语料库的四倍 (Hakkani-Tür et al., 2002)¹⁰。大词汇量意味着有许多未登录词，而这些未登录词在各种语言（包括捷克语、斯洛文尼亚语、爱沙尼亚语和罗马尼亚语）中都会造成明显的性能下降 (Hajič, 2000)¹¹。

高度屈折（Inflection）的语言也比用词形态（word morphology）编码的英语有更多的信息，如大小写（名词、指代词、属词）或性别（阳性、阴性）。因为这些信息对于像 parsing 和指代消歧这样的任务是很重要的。形态丰富语言的词性标注器，需要用大小写和性别信息来预测单词词性。因此，形态丰富语言的标签集是形态学标签的序列，而不是单一的原始标签。下面是一个土耳其语的例子，在这个例子中，izin 这个词有三种可能的形态/词性标签和含义 (Hakkani-Tür et al., 2002)¹⁰：

Yerdeki izin temizlenmesi gerek. / iz + Noun+A3sg+Pnon+Gen
The trace on the floor should be cleaned.
Ü zerinde parmak izin kalmiş / iz + Noun+A3sg+P2sg+Nom
Your finger print is left on (it).
Içeri girmek için izin alman gerekiyor. / izin + Noun+A3sg+Pnon+Nom
You need permission to enter.

使用像 Noun+A3sg+Pnon+Gen 这样的形态学解析序列作为词性标签，大大增加了词性数量，因此其标签集会比仅包含 50-100 个标签的英语标签集大 4 到 10 倍。有了这么大的标签集，每个词都需要进行形态学分析，以生成该词可能的形态学标签序列（词性标签）的列表。然后，标注器的作用就是区分这些标签。这种方法对未知的词也有帮助，因为形态分析器可以接受未知的词干，并且仍然可以对词缀进行正确地分割。

Footnotes

Nivre, J., de Marneffe, M.-C., Ginter, F., Goldberg, Y., Hajiˇc, J., Manning, C. D., McDonald, R., Petrov, S., Pyysalo, S., Silveira, N., Tsarfaty, R., and Zeman, D. (2016b). Universal Dependencies v1: A multilingual treebank collection. LREC. ↩
Hovy, E. H., Marcus, M. P., Palmer, M., Ramshaw, L. A., and Weischedel, R. (2006). Ontonotes: The 90% solution. HLT-NAACL. ↩
Bada, M., Eckert, M., Evans, D., Garcia, K., Shipley, K., Sitnikov, D., Baumgartner, W. A., Cohen, K. B., Verspoor, K., Blake, J. A., and Hunter, L. E. (2012). Concept annotation in the craft corpus. BMC bioinformatics 13(1), 161. ↩
Bamman, D., Popat, S., and Shen, S. (2019). An annotated dataset of literary entities. NAACL HLT. ↩
Chiticariu, L., Li, Y., and Reiss, F. R. (2013). Rule-Based Information Extraction is Dead! Long Live Rule-Based Information Extraction Systems!. EMNLP. ↩
Chiticariu, L., Danilevsky, M., Li, Y., Reiss, F., and Zhu, H. (2018). SystemT: Declarative text understanding for enterprise. NAACL HLT, Vol. 3. ↩
Karlsson, F., Voutilainen, A., Heikkil¨a, J., and Anttila, A. (Eds.). (1995). Constraint Grammar: A Language-Independent System for Parsing Unrestricted Text. Mouton de Gruyter. ↩
Voutilainen, A. (1999). Handcrafted rules. van Halteren, H. (Ed.), Syntactic Wordclass Tagging, 217–246. Kluwer. ↩
Oravecz, C. and Dienes, P. (2002). Efficient stochastic part-of-speech tagging for Hungarian. LREC. ↩
Hakkani-Tür, D., Oflazer, K., and T¨ur, G. (2002). Statistical morphological disambiguation for agglutinative languages. Journal of Computers and Humanities 36(4), 381–410. ↩ ↩²
Hajič, J. (2000). Morphological tagging: Data vs. dictionaries. NAACL. Seattle. ↩

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

8.7_Further-Details.md

8.7_Further-Details.md

8.7 更多细节（Further Details）

8.7.1 双向性（Bidirectionality）

8.7.2 基于规则的方法（Rule-based Methods）

8.7.3 形态丰富语言的词性标注（POS Tagging for Morphologically Rich Languages）

Files

8.7_Further-Details.md

Latest commit

History

8.7_Further-Details.md

File metadata and controls

8.7 更多细节（Further Details）

8.7.1 双向性（Bidirectionality）

8.7.2 基于规则的方法（Rule-based Methods）

8.7.3 形态丰富语言的词性标注（POS Tagging for Morphologically Rich Languages）

Footnotes