亚历山大的 Dionysius Thrax(约公元前 100 年),或者也许是其他人(这是一个漫长的过程),写了一篇希腊语语法草稿(一个“technē”),总结出了他当时的语言学知识。这部作品是许多现代语言学词汇的来源,包括 syntax、diphthong(译者注:双元音)、clitic(译者注:附着语素)和 analogy(译者注:类比)。还包括对 8 个词性(parts of speech)的说明:名词(noun)、动词(verb)、代词(pronoun)、介词(preposition)、副词(adverb)、连词(conjunction)、分词(participle)和冠词(article)。虽然早期的学者(包括亚里士多德以及斯多葛派)都有自己的词性列表,但在接下来的 2000 年里,正是 Thrax 的这一套八种词性成为了欧洲语言描述的基础。(甚至我们儿时的 Schoolhouse Rock 教育电视节目,其中都有关于这 8 个词性的歌曲,比如已故的伟大的 Bob Dorough 的 Conjunction Junction。)词性在两千年中持续发展,足以说明它们在人类语言模型中的核心地位。
专有名词(Proper names)是另一个重要且古老的语言学类别。虽然词性通常是分配给单个单词或语素,但专有名词通常是整个多词短语,例如人名“Marie Curie”、地点“New York City”或组织“Stanford University”。粗略地说,我们将使用命名实体(named entity)一词来表示任何可以用专有名词指代的事物:一个人,一个地点,一个组织,尽管我们将看到这个术语通常被扩展到那些本身不是实体的事物。
词性(又称 POS)和命名实体是了解句子结构和意义的有用线索。知道一个词是名词还是动词,就可以知道其可能的相邻词(英语中的名词前面是限定词(determiners)和形容词,动词后跟着名词)和句法结构(动词与名词有依存关系),这使得词性标注称为解析的一个关键方面。知道一个命名实体是一个人名、一个地名还是一所大学,这对许多自然语言理解任务(如问题回答、立场检测(stance detection)或信息提取)都非常重要。
在本章中,我们将介绍词性标注(part-of-speech tagging)的任务,即给定一个词的序列,给每个词分配一个词性,如 NOUN或 VERB,以及命名实体识别(named entity recognition)(NER)的任务,给词或短语分配标签,如 PERSON、LOCATION 或 ORGANIZATION。
在这些任务中,我们为输入词序列中的每个词