CN113255294A - 命名实体识别模型训练方法、识别方法及装置 - Google Patents
命名实体识别模型训练方法、识别方法及装置 Download PDFInfo
- Publication number
- CN113255294A CN113255294A CN202110797174.5A CN202110797174A CN113255294A CN 113255294 A CN113255294 A CN 113255294A CN 202110797174 A CN202110797174 A CN 202110797174A CN 113255294 A CN113255294 A CN 113255294A
- Authority
- CN
- China
- Prior art keywords
- character
- named entity
- scientific
- entity recognition
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 121
- 230000015654 memory Effects 0.000 claims abstract description 33
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 30
- 230000007246 mechanism Effects 0.000 claims abstract description 28
- 238000003062 neural network model Methods 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000007787 long-term memory Effects 0.000 claims description 11
- 230000006403 short-term memory Effects 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 abstract description 11
- 238000005065 mining Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000011160 research Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010380 label transfer Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种命名实体识别模型训练方法、识别方法及装置,所述模型训练方法的初始神经网络模型由通过结合关键字符级别编码和词级别编码对科技论文数据进行向量表示,将字符级别向量和词级别向量引入双向长短期记忆网络能够挖掘上下文关系,同时挖掘关键词的语义特征,提升了分词边界的准确性;通过将字符级别向量引入自注意力机制模型,能够更高效地捕捉数据内部相关性,提升命名实体识别的准确率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种命名实体识别模型训练方法、识别方法及装置。
背景技术
科技大数据可以定义为与科研相关的活动产生的海量数据,其以论文数据为主体,具有数据规模大,内容专业化,特征属性繁多的特点。科技学术会议数据包含某个领域内的论文集合。以学术会议为单位进行画像的构建,可以帮助科研人员快速获得有价值的科研信息,而构建画像的核心工作即为命名实体识别。
命名实体识别(Named Entity Recognition, NER)是自然语言处理领域中的一个重要研究方向,其目的是将给定文本中的实体按照预定义好的类别进行分类,是一种序列标注问题。学术会议论文数据的命名实体识别与通用领域的识别有一定区别,主要原因在于通用领域的数据集有较为严格的句子组成规范。但由于科研领域技术更新迭代快,导致论文数据集中有大量的专业术语。同时实体之间可能相互嵌套,增加了实体识别的难度。中文命名实体识别的效果和分词结果直接相关,如果在分词阶段发生错误,会严重影响识别效果。因此,亟需一种新的命名实体识别方法。
发明内容
本发明实施例提供了一种命名实体识别模型训练方法、识别方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决中文科技论文分词效果较差,导致识别结果准确率低的问题。
本发明的技术方案如下:
一方面,本发明提供一种命名实体识别模型训练方法,包括:
获取多个科技论文数据,各科技论文数据包含一个或多个关键词,对各科技论文数据进行序列标注,以得到训练样本集;
获取初始神经网络模型,所述初始神经网络模型对所述科技论文数据的各单个中文字符进行字符级别编码得到相应的字符级别向量、对所述科技论文数据的各关键词进行词级别编码得到相应的词级别向量;将各字符级别向量和各词级别向量进行连接后输入至双向长短期记忆网络,由所述双向长短期记忆网络输出第一特征向量;将各字符级别向量输入自注意力机制模块,将所述自注意力机制模块输出与原始的各字符级别向量连接得到第二特征向量;将所述第一特征向量与所述第二特征向量进行融合,并输入条件随机场后输出命名实体识别结果;
采用所述训练样本集对所述初始神经网络模型进行训练,对所述双向长短期记忆网络、所述自注意力机制模块以及所述条件随机场的参数进行调整迭代,得到目标命名实体识别模型。
在一些实施例中,所述初始神经网络模型采用word2vec模型获取各单个中文字符对应的字符级别向量以及各关键词对应的词级别向量。
在一些实施例中,将各字符级别向量和各词级别向量进行连接后输入至双向长短期记忆网络,包括:
将单个字符对应的字符级别向量和词级别向量进行归一化求和得到该字符对应的第一输入序列,并输入至所述双向长短期记忆网络,计算式为:
在一些实施例中,将所述第一特征向量与所述第二特征向量进行融合,包括:
将所述第一特征向量与所述第二特征向量进行归一化求和,计算式为:
其中,为所述科技论文数据第i个字符的特征值,为所述科技论文数据第i个字符经所述双向长短期记忆网络输出的特征值,为所述科技论文数据第i个字符经所述自注意力机制模块输出的特征值,为的归一化系数,为的归一化系数;e为自然底数。
在一些实施例中,采用所述训练样本集对所述初始神经网络模型进行训练,包括:采用交叉熵函数作为损失函数,对所述双向长短期记忆网络、所述自注意力机制模块以及所述条件随机场的参数进行调整迭代。
在一些实施例中,对各科技论文数据进行序列标注采用BIO标注。
在一些实施例中,所述word2vec模型采用科技论文数据进行预训练。
另一方面,本发明提供一种命名实体识别方法,包括:
获取待处理的科技论文数据,将所述科技论文数据输入上述命名实体识别模型训练方法的目标命名实体识别模型中,输出命名实体识别结果。
另一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
另一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述方法的步骤。
本发明的有益效果至少是:
所述命名实体识别模型训练方法、识别方法及装置中,所述模型训练方法的初始神经网络模型由通过结合关键字符级别编码和词级别编码对科技论文数据进行向量表示,将字符级别向量和词级别向量引入双向长短期记忆网络能够挖掘上下文关系,同时挖掘关键词的语义特征,提升了分词边界的准确性;通过将字符级别向量引入自注意力机制模型,能够更高效地捕捉数据内部相关性,提升命名实体识别的准确率。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所述命名实体识别模型训练方法中初始神经网络模型工作逻辑示意图;
图2为本发明一实施例所述命名实体识别模型训练方法中字符级别向量和词级别向量连接结构结构示意图;
图3为本发明一实施例所述命名实体识别模型训练方法中初始神经网络模型结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
命名实体识别可以使用基于统计机器学习的方法,这首先需要用人工标注的语料进行有监督训练,然后利用训练好的机器学习模型实现预测。基于统计机器学习的模型有隐马尔可夫模型、最大熵模型、决策树、支持向量机等。但是,在基于统计机器学习的识别方法中,用于监督训练的数据需求巨大,需要人为的进行特征标注,代价太过昂贵,并且基于统计机器学习的方法对于不同形式或者领域的数据不能通用,泛化能力较差,相比于基于深度学习的识别方法,有较为明显的不足。
基于深度学习的命名实体识别方式,主要包括卷积神经网络(CNN)和长短期记忆网络(LSTM)作为主体框架的识别方法。CNN主要用于处理英文,英文单词是由更细粒度的字母组成,这些字母潜藏着一些特征,但是在中文文本中,CNN的识别效果会受到一定的影响,同时对于序列标注任务来说,普通CNN卷积之后,为了覆盖上下文的序列信息,可能会导致卷积层数非常深,这样参数就会越来越多,模型庞大,难以训练。LSTM按照文本序列的输入处理上文的信息,而下文的信息对于科技学术会议论文数据的处理也有重要意义,也无法考虑到文本中的全局信息。与此同时,中文文本输入到长短期记忆网络中是按照字符为单位进行输入,但对于中文的命名实体识别来说,词语中同样蕴含着大量的语义信息,因此现有的技术并不能很好的充分挖掘语义中的文本信息,对于科技学术会议数据来说,分词阶段有可能产生错误,如将专有的技术词汇拆分成其他领域中的词汇,影响命名实体识别的准确率。
所以,在中文命名实体识别过程中,大部分方法是基于字符级别编码,这种方式在通用领域的命名识别中取得了较好的效果,然而在学术论文数据中,由于专业词汇较多,采用这种方式很有可能产生错误的词语边界。仅采用字符级别编码无法挖掘到一串字符信息中的词级别的信息。
为了解决这个问题,本发明引入论文关键词特征,提出关键词-字符编码方式,在编码阶段同时考虑到关键词级别和字符级别的语义信息,把字符级模型和词级别的模型相结合,降低歧义发生的概率。此外在LSTM+CRF(长短期记忆神经网络+条件随机场)为主体框架的基础上,在LSTM层引入自注意力机制,弥补长短期记忆网络无法考虑到全局信息的缺陷,最后将LSTM和注意力机制输出的结果进行融合再通过CRF进行标注,兼顾了字符之间的依赖关系,在论文数据集中取得了更好的识别效果。
需要预先说明的是,字符级别编码是指将句子文本中的中文字符逐一单个进行向量化话,而词级别编码是将关键词进行整体的向量化。因此,对于一个句子中关键词内的字符就存在字符级别向量及其所属关键词的词级别向量。示例性的,对于句子“神经网络的文本分类”,按照字符级别可以拆分为“神、经、网、络、的、文、本、分、类”,同时也可以提取关键词“神经网络”和“文本分类”。
一方面,本发明提供一种命名实体识别模型训练方法,包括步骤S101~S103:
步骤S101:获取多个科技论文数据,各科技论文数据包含一个或多个关键词,对各科技论文数据进行序列标注,以得到训练样本集。
步骤S102:获取初始神经网络模型,初始神经网络模型对科技论文数据的各单个中文字符进行字符级别编码得到相应的字符级别向量、对科技论文数据的各关键词进行词级别编码得到相应的词级别向量;将各字符级别向量和各词级别向量进行连接后输入至双向长短期记忆网络,由双向长短期记忆网络输出第一特征向量;将各字符级别向量输入自注意力机制模块,将自注意力机制模块输出与原始的各字符级别向量连接得到第二特征向量;将第一特征向量与第二特征向量进行融合,并输入条件随机场后输出命名实体识别结果。
步骤S103:采用训练样本集对初始神经网络模型进行训练,对双向长短期记忆网络、自注意力机制模块以及条件随机场的参数进行调整迭代,得到目标命名实体识别模型。
在本实施例中,步骤S101首先配置训练样本集,以科技论文数据为样本主体,科技论文数据可以是具有特定技术领域范围的科技学术会议数据,科技学术会议是一种以促进科学发展、学术交流、课题研究等学术性话题为主题的会议。学术会议一般都具有国际性、权威性、高知识性、高互动性等特点,学术会议会包含论文集,科技学术会议数据即指代其中的论文数据。每一个技学术会议的相关数据一般都是针对特定科技领域的,其以论文数据为主体,具有数据规模大,内容专业化,特征属性繁多的特点。在一些实施例中,构建训练样本可以以单个科技学术会议的数据为样本。为了提高通用性,也可以用多个不同科技学术会议的数据作为样本。具体的,样本可以为中文论文文本,其中,摘要部分记载有关键词,对中文论文文本进行序列标注,具体可以采用BIO标注法进行标注。
在步骤S102中,构建了结合字符级别向量和词级别向量,并且联合应用双向长短期记忆神经网络和自注意力机制进行特征挖掘。具体的,参照图1和图3,将样本中的科技学术会议论文数据分别输入关键词级别嵌入层和字符级别嵌入层,分别进行词级别编码和字符级别编码。在一些实施例中,初始神经网络模型采用word2vec模型获取各单个中文字符对应的字符级别向量以及各关键词对应的词级别向量。在一些实施例中,word2vec模型可以采用科技论文数据进行预训练,以适应科技论文数据使用场景的需求。进一步地,对于一个句子文本,其中每个字符都经字符级别编码得到相应的字符级别向量,而论文摘要中的关键词经词级别编码得到词级别向量。
其中,ec代表字符级别向量表示。
其中,ew代表词级别向量表示。
如图2所示,对于文本“神经网络的文本分类”,可以按序标记为至,相应的,9个中文字符对应的字符级别向量分别为c1~c9,句中包括“神经网络”和“文本分类”两个关键词分别记录为和,两个关键词的词级别向量和,计算式可表示为:
进一步地,将字符级别向量和词级别向量融合输入至双向长短期记忆神经网络,在考虑上下文信息的前提下,挖掘语义特征。示例性的,参照图2,字符级别向量c1~c9分别与相应的词向量进行连接融合得到得到特征序列h1~h9。
具体的,步骤S102中,将各字符级别向量和各词级别向量进行连接后输入至双向长短期记忆网络,包括:将单个字符对应的字符级别向量和词级别向量进行归一化求和得到该字符对应的第一输入序列,并输入至双向长短期记忆网络,计算式为:
同时,将各字符级别向量输入至自注意力机制模块,以挖掘全局特征。
由双向长短期记忆网络输出第一特征向量,将自注意力机制模块输出与原始的各字符级别向量连接得到第二特征向量,将第一特征向量与第二特征向量进行融合并输入条件随机场,以输出命名实体识别结果。
在一些实施例的步骤102中,将第一特征向量与第二特征向量进行融合,包括:
将第一特征向量与第二特征向量进行归一化求和,计算式为:
其中,为科技论文数据第i个字符的特征值,为科技论文数据第i个字符经双向长短期记忆网络输出的特征值,为科技论文数据第i个字符经自注意力机制模块输出的特征值,为的归一化系数,为的归一化系数;e为自然底数。
在步骤S103中,基于步骤S101中的训练样本集对步骤S102构件的初始神经网络模型进行训练和迭代。
在一些实施例中,采用训练样本集对初始神经网络模型进行训练,包括:采用交叉熵函数作为损失函数,对双向长短期记忆网络、自注意力机制模块以及条件随机场的参数进行调整迭代。
另一方面,本发明提供一种命名实体识别方法,包括步骤S201:
步骤S201:获取待处理的科技论文数据,将科技论文数据输入上述步骤S101~S103所述命名实体识别模型训练方法的目标命名实体识别模型中,输出命名实体识别结果。
另一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
另一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述方法的步骤。
下面结合以具体实施例对本发明进行说明:
本实施例中提供一种初始神经网络模型,如图3所示,包括嵌入层、BiLSTM-SA网络层(双向长短期记忆网络和自注意力机制模块联合的网络层)以及CRF层(条件随机场)。该初始神经网路模型经训练样本集进行训练得到目标命名实体识别模型,训练样本集的每个样本包括一个科技论文,并以BIO标注作为标签。
第一部分,在嵌入层冲,基于关键词-字符级别编码模型,对科技论文数据进行向量化:
基于字符级别编码模型对每一个中文字符逐一进行编码,可以采用word2vec模型,给定一个论文标题文本序列的示例为“基于神经网络的文本分类”,可以将其表示为,其中,表示句子中的第个字符,每个字符经过公式(1)的变换,获得对应的输入字符级别向量。
基于词级别编码模型对中文词汇的关键词进行编码,可以采用word2vec模型,同样给定文本序列的示例为“基于神经网络的文本分类”,按照常规的中文分词方式对其进行切分,然后按照词级别进行编码,句中包括“神经网络”和“文本分类”两个关键词分别记录为和,两个关键词的词级别向量和,计算式可表示为:
关键词-字符编码模型主要考虑到了科技学术会议中论文数据本身的特点。由于论文数据专业性强,因此常规的分词方式并不适用于论文数据集,如果采用基本的字词融合,可能会产生很多错误的边界,影响识别准确率。考虑到论文数据集中有关键词这一特征,例如对于文本序列:基于神经网络的文本分类模型,在关键词字段中包含了:神经网络,文本分类等词汇,如果不考虑关键词信息,该句会被切分为:
对于本文想要识别的实体,显然产生了错误的词汇边界,因此要引入关键词特征,构建词典,对于例子中的文本序列,需要将其正确切分为:
第二部分,BiLSTM-SA网络层,融合双向长短期记忆网络和自注意力机制:
第t层的更新计算公式为计算式8~13:
LSTM模型按照文本序列的输入处理上文的信息,而下文的信息对于科技学术会议论文数据的处理也有重要意义,因此,本实施例中采用BiLSTM,它由两层LSTM组成,向量表示层得到的向量按照正序作为正向LSTM的输入,即可以得到输出序列:
再通过反向输入的方式,得到逆向LSTM输出序列:
具体的,将本实施例第一部分中的单个字符对应的字符级别向量和词级别向量进行归一化求和得到该字符对应的第一输入序列,并输入至双向长短期记忆网络,并最终得到序列h1~hn。
第一输入序列的计算式为:
BiLSTM在可以考虑到上下文的信息,但对于全局信息无法充分的表达,因此本模型将Self Attention机制作为BiLSTM模块的补充,提高命名实体识别的准确率。
Attention的计算如公式(14)所示。Q、K和V三个矩阵均来自同一输入,首先计算Q与K之间的点乘,然后除以一个尺度标度,然后将其结果归一化,再乘以矩阵V就得到权重求和的表示。由于Attention本身就考虑到了全局的输入,因此直接利用字符级别编码进行输入。
其中,为科技论文数据第i个字符的特征值,为科技论文数据第i个字符经双向长短期记忆网络输出的特征值,为科技论文数据第i个字符经自注意力机制模块输出的特征值,为的归一化系数,为的归一化系数;e为自然底数。
第三部分,CRF层(条件随机场层),进行序列标注,获得命名实体识别最大概率的分类。
在预测当前标签时,CRF通常可以产生更高的标记精度。由于论文数据相邻字符之间有较强的依赖关系,因此,在模型的最后一层,利用CRF来对前序层中得到的融合特征信息进行解码。
标记序列的似然公式为如下公式(16):
本实施例针对科技学术会议数据,提出了结合关键词-字符、BiLSTM和自注意力机制的命名实体识别算法,整体模型由向量表示层、双向长短期记忆网络-自注意力层和条件随机场层构成。该算法可以挖掘到文本中潜在的语义信息,减少了中文分词的边界问题带来的识别错误,同时考虑到了全局的文本信息,可以对科技学术会议中论文数据的命名实体进行有效的识别,提高命名实体识别的准确率和召回率。基于识别出的命名实体,结合论文数据中结构化的数据获取到的关联关系可以对学术会议数据构建精准画像,为科研人员进行科研信息的获取以及进行科研决策提供良好的数据支撑。
综上所述,所述命名实体识别模型训练方法、识别方法及装置中,所述模型训练方法的初始神经网络模型由通过结合关键字符级别编码和词级别编码对科技论文数据进行向量表示,将字符级别向量和词级别向量引入双向长短期记忆网络能够挖掘上下文关系,同时挖掘关键词的语义特征,提升了分词边界的准确性;通过将字符级别向量引入自注意力机制模型,能够更高效地捕捉数据内部相关性,提升命名实体识别的准确率。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种命名实体识别模型训练方法,其特征在于,包括:
获取多个科技论文数据,各科技论文数据包含一个或多个关键词,对各科技论文数据进行序列标注,以得到训练样本集;
获取初始神经网络模型,所述初始神经网络模型对所述科技论文数据的各单个中文字符进行字符级别编码得到相应的字符级别向量、对所述科技论文数据的各关键词进行词级别编码得到相应的词级别向量;将各字符级别向量和各词级别向量进行连接后输入至双向长短期记忆网络,由所述双向长短期记忆网络输出第一特征向量;将各字符级别向量输入自注意力机制模块,将所述自注意力机制模块输出与原始的各字符级别向量连接得到第二特征向量;将所述第一特征向量与所述第二特征向量进行融合,并输入条件随机场后输出命名实体识别结果;
采用所述训练样本集对所述初始神经网络模型进行训练,对所述双向长短期记忆网络、所述自注意力机制模块以及所述条件随机场的参数进行调整迭代,得到目标命名实体识别模型。
2.根据权利要求1所述的命名实体识别模型训练方法,其特征在于,所述初始神经网络模型采用word2vec模型获取各单个中文字符对应的字符级别向量以及各关键词对应的词级别向量。
5.根据权利要求4所述的命名实体识别模型训练方法,其特征在于,采用所述训练样本集对所述初始神经网络模型进行训练,包括:采用交叉熵函数作为损失函数,对所述双向长短期记忆网络、所述自注意力机制模块以及所述条件随机场的参数进行调整迭代。
6.根据权利要求1所述的命名实体识别模型训练方法,其特征在于,对各科技论文数据进行序列标注采用BIO标注。
7.根据权利要求2所述的命名实体识别模型训练方法,其特征在于,所述word2vec模型采用科技论文数据进行预训练。
8.一种命名实体识别方法,其特征在于,包括:
获取待处理的科技论文数据,将所述科技论文数据输入如权利要求1至7任意一项所述命名实体识别模型训练方法的目标命名实体识别模型中,输出命名实体识别结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110797174.5A CN113255294B (zh) | 2021-07-14 | 2021-07-14 | 命名实体识别模型训练方法、识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110797174.5A CN113255294B (zh) | 2021-07-14 | 2021-07-14 | 命名实体识别模型训练方法、识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255294A true CN113255294A (zh) | 2021-08-13 |
CN113255294B CN113255294B (zh) | 2021-10-12 |
Family
ID=77191275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110797174.5A Active CN113255294B (zh) | 2021-07-14 | 2021-07-14 | 命名实体识别模型训练方法、识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255294B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673249A (zh) * | 2021-08-25 | 2021-11-19 | 北京三快在线科技有限公司 | 实体识别方法、装置、设备及存储介质 |
CN113792127A (zh) * | 2021-09-15 | 2021-12-14 | 平安国际智慧城市科技股份有限公司 | 基于大数据的法规识别方法、装置、电子设备及介质 |
CN114036950A (zh) * | 2021-11-10 | 2022-02-11 | 山东大学 | 一种医疗文本命名实体识别方法及系统 |
CN114154395A (zh) * | 2021-11-04 | 2022-03-08 | 北京搜狗科技发展有限公司 | 一种模型处理方法、装置和用于模型处理的装置 |
CN114238641A (zh) * | 2021-12-23 | 2022-03-25 | 建信金融科技有限责任公司 | 运维知识的挖掘方法、装置、设备、存储介质和程序产品 |
CN114298044A (zh) * | 2021-12-27 | 2022-04-08 | 山东师范大学 | 一种中文命名实体识别方法及系统 |
CN114359536A (zh) * | 2021-12-31 | 2022-04-15 | 中国电信股份有限公司 | 字符识别模型的训练方法及装置、存储介质及电子设备 |
CN114510946A (zh) * | 2022-04-21 | 2022-05-17 | 山东师范大学 | 基于深度神经网络的中文命名实体识别方法及系统 |
CN115314904A (zh) * | 2022-06-14 | 2022-11-08 | 北京邮电大学 | 基于多智能体最大熵强化学习的通信覆盖方法及相关设备 |
CN115510854A (zh) * | 2022-09-27 | 2022-12-23 | 北京白星花科技有限公司 | 基于强化学习的实体关系提取方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN111178074A (zh) * | 2019-12-12 | 2020-05-19 | 天津大学 | 一种基于深度学习的中文命名实体识别方法 |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
CN112699685A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 基于标签引导的字词融合的命名实体识别方法 |
CN112836046A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种四险一金领域政策法规文本实体识别方法 |
-
2021
- 2021-07-14 CN CN202110797174.5A patent/CN113255294B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN111178074A (zh) * | 2019-12-12 | 2020-05-19 | 天津大学 | 一种基于深度学习的中文命名实体识别方法 |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
CN112699685A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 基于标签引导的字词融合的命名实体识别方法 |
CN112836046A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种四险一金领域政策法规文本实体识别方法 |
Non-Patent Citations (5)
Title |
---|
QI WANG 等: "Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition", 《ARXIV:1804.05017V1》 * |
YUE ZHANG 等: "Chinese NER Using Lattice LSTM", 《ARXIV:1805.02023V4》 * |
张智雄 等: "构建基于科技文献知识的人工智能引擎", 《农业图书情报学报》 * |
梁文桐 等: "基于 BERT 的医疗电子病历命名实体识别", 《湖南工业大学学报》 * |
赵鹏飞 等: "基于注意力机制的农业文本命名实体识别", 《农业机械学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673249A (zh) * | 2021-08-25 | 2021-11-19 | 北京三快在线科技有限公司 | 实体识别方法、装置、设备及存储介质 |
CN113792127B (zh) * | 2021-09-15 | 2023-12-26 | 平安国际智慧城市科技股份有限公司 | 基于大数据的法规识别方法、装置、电子设备及介质 |
CN113792127A (zh) * | 2021-09-15 | 2021-12-14 | 平安国际智慧城市科技股份有限公司 | 基于大数据的法规识别方法、装置、电子设备及介质 |
CN114154395A (zh) * | 2021-11-04 | 2022-03-08 | 北京搜狗科技发展有限公司 | 一种模型处理方法、装置和用于模型处理的装置 |
CN114154395B (zh) * | 2021-11-04 | 2024-11-08 | 北京搜狗科技发展有限公司 | 一种模型处理方法、装置和用于模型处理的装置 |
CN114036950A (zh) * | 2021-11-10 | 2022-02-11 | 山东大学 | 一种医疗文本命名实体识别方法及系统 |
CN114036950B (zh) * | 2021-11-10 | 2024-05-10 | 山东大学 | 一种医疗文本命名实体识别方法及系统 |
CN114238641A (zh) * | 2021-12-23 | 2022-03-25 | 建信金融科技有限责任公司 | 运维知识的挖掘方法、装置、设备、存储介质和程序产品 |
CN114298044A (zh) * | 2021-12-27 | 2022-04-08 | 山东师范大学 | 一种中文命名实体识别方法及系统 |
CN114359536A (zh) * | 2021-12-31 | 2022-04-15 | 中国电信股份有限公司 | 字符识别模型的训练方法及装置、存储介质及电子设备 |
CN114510946A (zh) * | 2022-04-21 | 2022-05-17 | 山东师范大学 | 基于深度神经网络的中文命名实体识别方法及系统 |
CN115314904B (zh) * | 2022-06-14 | 2024-03-29 | 北京邮电大学 | 基于多智能体最大熵强化学习的通信覆盖方法及相关设备 |
CN115314904A (zh) * | 2022-06-14 | 2022-11-08 | 北京邮电大学 | 基于多智能体最大熵强化学习的通信覆盖方法及相关设备 |
CN115510854A (zh) * | 2022-09-27 | 2022-12-23 | 北京白星花科技有限公司 | 基于强化学习的实体关系提取方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113255294B (zh) | 2021-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113255294B (zh) | 命名实体识别模型训练方法、识别方法及装置 | |
CN109299273B (zh) | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 | |
CN112989834B (zh) | 一种基于平格增强线性转换器的命名实体识别方法和系统 | |
CN114861600B (zh) | 一种面向ner的中文临床文本数据增强方法及装置 | |
Xie et al. | Fully convolutional recurrent network for handwritten chinese text recognition | |
CN110377714A (zh) | 基于迁移学习的文本匹配方法、装置、介质及设备 | |
CN107004140B (zh) | 文本识别方法和计算机程序产品 | |
CN113268995A (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
CN116955699B (zh) | 一种视频跨模态搜索模型训练方法、搜索方法及装置 | |
CN113486178B (zh) | 文本识别模型训练方法、文本识别方法、装置以及介质 | |
CN111309918A (zh) | 一种基于标签关联性的多标签文本分类方法 | |
CN114861601B (zh) | 基于旋转式编码的事件联合抽取方法及存储介质 | |
CN115203406A (zh) | 一种基于RoBERTa模型的长文本信息立场检测方法 | |
Logeswaran et al. | Sentence ordering using recurrent neural networks | |
CN114154504A (zh) | 一种基于多信息增强的中文命名实体识别算法 | |
CN114398488A (zh) | 一种基于注意力机制的bilstm多标签文本分类方法 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN117933258A (zh) | 一种命名实体识别方法和系统 | |
CN113254602A (zh) | 面向科技政策领域的知识图谱构建方法及系统 | |
CN112417878A (zh) | 实体关系抽取方法、系统、电子设备及存储介质 | |
CN115587184A (zh) | 一种关键信息抽取模型的训练方法、装置及其存储介质 | |
Li et al. | Named entity recognition for Chinese based on global pointer and adversarial training | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN112989839A (zh) | 一种基于关键词特征嵌入语言模型的意图识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |