CN111444721B - 一种基于预训练语言模型的中文文本关键信息抽取方法 - Google Patents

一种基于预训练语言模型的中文文本关键信息抽取方法 Download PDF

Info

Publication number
CN111444721B
CN111444721B CN202010460134.7A CN202010460134A CN111444721B CN 111444721 B CN111444721 B CN 111444721B CN 202010460134 A CN202010460134 A CN 202010460134A CN 111444721 B CN111444721 B CN 111444721B
Authority
CN
China
Prior art keywords
language model
training
text
character
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010460134.7A
Other languages
English (en)
Other versions
CN111444721A (zh
Inventor
俞扬
詹德川
周志华
李龙宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010460134.7A priority Critical patent/CN111444721B/zh
Publication of CN111444721A publication Critical patent/CN111444721A/zh
Application granted granted Critical
Publication of CN111444721B publication Critical patent/CN111444721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于预训练语言模型的中文文本关键信息抽取方法,具体步骤如下:(1)将待抽取的关键信息进行分类,易于归纳组成规则的信息类别,使用正则匹配的方法抽取。(2)对命名实体使用序列标注模型抽取。(3)序列标注模型采用对预训练语言模型微调的方法进行构建,首先使用大规模无标记文本语料学习得到预训练语言模型,并在预训练阶段引入词边界特征。(4)将使用规则匹配的数据内容替换为其对应的规则模板标签,以完成规则匹配与深度网络的融合。(5)根据有标记的训练数据,在预训练语言模型上进行微调,将其迁移到命名实体的序列标注任务上。本发明可以有效提取文本上下文语义特征,并且在复杂信息类别的场景下有效地识别各个信息种类。

Description

一种基于预训练语言模型的中文文本关键信息抽取方法
技术领域
本发明涉及一种基于预训练语言模型的中文文本关键信息抽取方法,属于自然语言处理识别技术领域。
背景技术
文本关键信息抽取指根据具体业务的需求,对文本中指定的关键数据类型进行识别和抽取。主要包括对命名实体(Named Entity)的识别和一些特定类型的数字串、字符串的识别。命名实体的识别问题可以使用基于深度学习的序列标注模型较好的解决,但无法同时解决其它数字串、字符串的识别需求。因为,数字串无法携带有效的语义信息,且多种数字串之间会相互干扰。
现有效果较为出色的中文命名实体识别方法大都基于循环神经网络(RecurrentNeural Network,RNN)的字标注模型,这种方法首先需要利用自然语言语料无监督地训练得到汉字的分布式表示,得到每个汉字在语义空间中的向量表示。然后,使用循环神经网络(RNN)或其变种长短时记忆网络(LSTM、GRU)等,对文本序列进行建模,抽取字与字、词与词之间的语义及语法特征表示。最后,对循环神经网络得到的特征提取结果,使用条件随机场(CRF)对序列中隐状态之间的转移规则做进一步约束,强化特征转移。训练得到一个基于字符的命名实体识别深度学习模型。
但是,基于传统的word2vec方法学得的词表示,将每个单词的上下文信息限制在一个较小的固定大小的窗口内,无法学得全文单词之间的长距离依赖关系,只能将语义关系建模在一个小范围的上下文内。并且,传统的词嵌入(word embedding)方法,将每个词保存为一条静态向量,即每个词只能占用一个语义空间中的位置,此时不同上下文的信息都会被编码到同一个参数空间中,导致传统词嵌入无法解决多义词问题。因为多义词的现象在实际应用场景中十分常见,必须动态地根据上下文环境的变化,给出不同的语义表示。例如:一名叫做武汉市的男子给儿子取名为武昌。显然在这里的语境中,“武汉市”与“武昌”不再是地名实体,而变为了人名实体。
而且,基于字符的中文命名实体识别模型,完全摒弃了中文词边界特征,命名实体的边界一般也是词边界。完全基于字符的模型,丧失了中文词边界内蕴含的语义信息。不利于中文文本的语义表示,进而影响命名实体识别的准确率。
发明内容
发明目的:针对传统方法中无法解决一词多义以及词边界信息缺失等问题,本发明提出了一种基于预训练语言模型的关键信息抽取方法。基于现有序列标注方法进行的改进优化,更好地获得对中文文本的语义表示,以此强化深度学习模型的表达能力,进而更好地为中文命名实体识别任务服务。本发明深度融合规则匹配与深度模型,可以有效提取文本上下文语义特征,并且在复杂信息类别的场景下有效地识别各个信息种类,取得很好的识别效果。在内部数据集上的F1值超过传统基于BiLSTM-CRF的命名实体识别方法2个多百分点。
技术方案:一种基于预训练语言模型的中文文本关键信息抽取方法,包括如下步骤:
步骤(1):将待抽取的中文文本关键信息分类进行识别,对命名实体类别使用深度学习模型进行识别;对可以归纳组成规则的信息类别(如数字串和字符串),使用正则匹配的方法识别。对基于规则匹配方法进行识别的信息类别,归纳出其内部组成结构,编写相应的规则模板,并为每一个类别设置对应的标签名;
步骤(2):基于任务文本环境,收集大规模无标记的文本语料;
步骤(3):对步骤(2)中收集的无标记的文本语料使用规则模板进行抽取,将数字串和字符串等内容先使用规则模板抽取出来,之后并将文本语料中匹配的数字串、字符串在原文中的位置替换为其对应的类别标签;
步骤(4):基于步骤(3)处理后的无标记文本语料,基于Transformer网络结构构建预训练语言模型,使用遮掩语言模型任务在收集到的文本语料上进行预训练。并在预训练语言模型网络的输入阶段,通过将文本分词的嵌入表示结合到输入中,在预训练语言模型中引入分词特征;
步骤(5):基于任务文本环境收集文本语料数据集,构建命名实体识别数据集,采用BIO标注格式对该文本语料数据集中的命名实体类别进行标注,得到命名实体识别数据集;
步骤(6):类似于步骤(3)使用规则模板匹配,对步骤(5)中带标记的命名实体识别数据集使用规则模板匹配数字串、字符串,并将匹配的数字串在原文中的位置替换为其对应的类别标签;
步骤(7):针对步骤(4)中得到的预训练语言模型,使用步骤(5)标注的命名实体识别数据集对其进行微调。微调即意为:在已有的预训练语言模型参数上添加参数(如:添加一层全连接网络),然后基于命名实体识别数据集,使用小学习率对所有的参数(包括预训练语言模型参数)进行训练,从而将预训练语言模型迁移到命名实体识别任务上去;
进一步的,所述步骤(2)和步骤(5)中,都收集相关数据集,但功用完全不同。步骤(2)中收集的数据集规模较大,可以达到百万甚至千万条数据的规模,但这些数据无需标记,主要用于语言模型能够从大规模语言文本中抽取到深层次的文本语义特征,由此构建预训练语言模型;而步骤(5)中收集的数据集,无需太大规模几千至几万条即可,并需要对其中的命名实体进行标注,该数据集是用作命名实体识别的训练数据,预训练语言模型在该数据集上进行微调,即可迁移到命名实体识别任务上去。
有益效果:与现有技术相比,本发明提供的基于预训练语言模型的中文文本关键信息抽取方法,具有如下优点:
(1)规则匹配与深度网络两个模块进行深度融合,可以将规则模板的特征传递给预训练语言模型,使之产生语义更加丰富的上下文表示,辅助对于命名实体更好地识别。
(2)深度双向预训练语言模型,能够无监督地从文本语料中抽取出深层语义特征。且根据中文命名实体识别任务,对预训练过程加以改进,引入词边界特征作为输入的一个维度,丰富了上下文语义特征。
(3)使用基于Transformer的网络结构进行遮掩语言模型的训练,可以对全文进行注意力操作,不再仅仅依赖于固定大小窗口的上下文信息,而可以学习到文本关于全局上下文的表征。预训练语言模型得到的是基于上下文的动态词表征,即对于同一个词的不同上下文环境,模型会给出其在参数空间中的不同表示,很好地解决了一词多义的问题。
不同于循环神经网络,基于Transformer的网络结构完全基于张量的前向操作,可以完美地契合GPU的并行计算。
附图说明
图1是Transformer的网络结构图;
图2是本发明采用的预训练语言模型结构示意图;
图3是基于预训练语言模型的文本关键信息抽取关键步骤工作流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明主要针对复杂场景下的文本关键信息抽取,呈现了一种基于预训练语言模型的方法。该方法将待抽取的信息类别分为两个模块:一是使用规则匹配模块;二是基于深度学习模型的命名实体识别模块。该方法能够深度融合正则匹配特征与深度语言模型语义特征,由此带来识别准确性的提升。如图3所示,是整个基于预训练语言模型的关键步骤工作流程图,其中预训练语言模型的结构如图2所示,预训练语言模型所采用的特征抽取网络Transformer的网络结构如图1所示。预训练语言模型完成后,即可对带标记的序列标注训练数据进行处理。先使用规则去匹配待抽取的文本,然后将其类别标签作为特征引入到预训练语言模型中,并在预训练语言模型上引入中文分词特征,最后,通过序列标注任务对预训练语言模型进行微调,将模型迁移到序列标注任务上。
本发明的基于预训练语言模型的文本关键信息抽取方法,其具体步骤如下:
(1)针对基于规则匹配的类别,归纳其内部组成规则,编写相对应的正则表达式。并给每个信息类别一个特殊的标签,例如:给邮箱标记为<EMAIL>等。
(2)构建预训练语言模型。
(2.1)基于任务文本环境收集数百万条无标记的文本语料,用作预训练语言模型的训练数据。
(2.2)针对(2.1)收集的无标记的文本语料,使用(1)中编写的正则表达式去匹配该语料,对匹配正则表达式的文本部分使用其对应的类别标签替换(例如:使用标签<EMAIL>替换文本中匹配到的邮箱内容)。
(2.3)基于遮掩语言模型任务进行预训练,需要对(2.2)处理后的文本语料做遮掩处理。所谓遮掩语言模型即为:随机遮掩住句子中的一部分字,然后通过该部分字的上下文表征进行预测被遮掩位置上的字。预训练文本语料中的每条文本数据,会有15%的字会被随机选中。在被选中的字中,有80%会被遮掩,即将需遮掩字替换为一个特殊标记[MASK];有10%会被随机替换为一个任意字符;剩余10%不进行任何操作。完成文本语料的遮掩之后,得到处理完成的预训练语言模型的训练数据。
(2.4)对于(2.3)中处理好的预训练语言模型的训练数据,首先基于训练数据中的词频建立字符表,便于对训练数据进行处理,并按字符表的顺序对字符表里的字符编号。同时,字符表中也包含规则匹配类别的标签。
(2.5)构建基于Transformer网络结构(如图1)的双向深度语言模型,整个网络由12个连续相同的网络层组成,每一层中有2个子层,分别是:多头注意力层和前馈网络层,这两个子层之间都有残差连接与层归一化操作。模型结构如图2所示。
多头注意力是一种注意力机制,其计算形式如下:
MultiHead(Q,K,V)=Concat(head1,…headh)Wo
其中,headi=Attention(QWi Q,KWi K,VWi V)
其中,WQ,WK,WV是参数映射矩阵,h是注意力头数(h取值为8),将注意力分为h个注意力头,能够分别抽取不同子区域的特征;WO同样是参数映射矩阵,Concat函数在各个注意力头完成注意力计算后,将所有注意力头拼接到一起。
对于Attention的计算如下式:
Figure BDA0002510650230000051
其中,Q,K,V均是输入字向量矩阵,dk是输入向量的维度。通过上式注意力机制的计算,即可得到Q关于在V上的注意力机制,即应该重点关注的V中的区域。
(2.6)将(2.3)处理得到的训练数据中的每条训练语句,通过字符表将语句转化为对应字符编号的序列,并使用随机初始化的字嵌入对语句中的每个字符进行表示,对每个字符使用768维的嵌入向量进行表示;同时,还对(2.3)处理得到的训练数据中的每个语句添加位置嵌入,对语句中的每个字符计算位置嵌入;并且,针对(2.3)处理得到的训练数据中的每条中文语句进行分词,对文本中的每个字符构造分词嵌入。最终,将这三种嵌入相加,相加后作为预训练语言模型的输入。中文分词共有4种特征:BIES,分别表示词的起始字符B;词的中间字符I;词的结尾字符E;和独字词S。如图2所示,使用Transformer来训练得到输入语句的语义特征。
其中,位置嵌入是基于正弦函数计算得出:
Figure BDA0002510650230000052
Figure BDA0002510650230000053
其中,pos是输入的位置,i则表示输入向量的维度,dmodel是模型输入的维度。
(2.7)预训练完成后,保存预训练语言模型参数,以待后续微调。
(3)完成预训练语言模型之后,即可开始迁移到命名实体识别任务上,首先要获取带标记的命名实体数据集。
(3.1)收集标注命名实体标记数据集,对于命名实体类型,其中人名标记为PER、地名标记为LOC、机构名标记为ORG。对于实体边界,采用BIO标注格式,其中B表示实体的起始字符,I表示实体的非起始字符,O表示在实体外,意为非命名实体。两类标记进行组合,例如,句子“张三想去北京工作”:
B-PER I-PER O O B-LOC I-LOC O O
(3.2)使用(1)中编写的规则,将标记数据中规则(正则表达式)匹配到的内容替换为其对应的类别标签。
(3.3)在预训练语言模型的网络最上层再添加一层全连接网络,并使用小学习率在标记数据上对预训练语言模型进行微调;在已有的预训练语言模型参数上添加少量参数(添加一层全连接网络),然后基于命名实体的标记数据,对所有的参数(包括预训练语言模型参数)进行小学习率的训练,从而将模型迁移到命名实体识别任务上去。
(3.4)由全连接网络产生输入文本中每个字符对应的命名实体类别标签,输出每个实体的类别标记。
(4)至此完成了命名实体识别任务的训练,保存微调后的模型,即可对待预测文本数据进行识别抽取。
(4.1)执行预测时同样需要先使用规则模板(正则表达式)进行匹配,对命中规则(匹配正则表达式)的内容使用对应的类别标签进行替换,并保存规则匹配的结果。
(4.2)之后携同上下文文本,一起投入微调后的预训练语言模型中去,即可得出文本各个字符对应的BIO标记。将BIO标记进行格式转换,即可得到最终的命名实体名。

Claims (6)

1.一种基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,包括如下步骤:
步骤(1),对基于规则匹配方法进行识别的信息类别,编写相应的规则模板,并为每一个类别设置对应的标签名;
步骤(2),基于任务文本环境,收集无标记的文本语料;
步骤(3),对步骤(2)中收集的无标记的文本语料使用规则模板进行抽取,将数字串和字符串使用规则模板抽取出来,之后将文本语料中匹配的数字串、字符串在原文中的位置替换为其对应的类别标签;
步骤(4),基于步骤(3)处理后的无标记文本语料,基于Transformer网络结构构建预训练语言模型,使用遮掩语言模型任务在收集到的文本语料上进行预训练;并在预训练语言模型网络的输入阶段,通过将文本分词的嵌入表示结合到输入中,在预训练语言模型中引入分词特征;
步骤(5),基于任务文本环境收集文本语料数据集,构建命名实体识别数据集,采用BIO标注格式对该文本语料数据集中的命名实体类别进行标注,得到命名实体识别数据集;
步骤(6),使用规则模板匹配,对步骤(5)中带标记的命名实体识别数据集使用规则模板匹配数字串、字符串,并将匹配的数字串在原文中的位置替换为其对应的类别标签;
步骤(7),针对步骤(4)中得到的预训练语言模型,使用步骤(5)标注的命名实体识别数据集对其进行微调;
步骤(8),使用微调后的预训练语言模型对待预测文本数据进行识别抽取;
将训练数据中的每条训练语句,通过字符表将语句转化为对应字符编号的序列,并使用随机初始化的字嵌入对语句中的每个字符进行表示,对每个字符使用嵌入向量进行表示;同时,还对训练数据中的每个语句添加位置嵌入,对语句中的每个字符计算位置嵌入;并且,针对训练数据中的每条中文语句进行分词,对文本中的每个字符构造分词嵌入;最终,将这三种嵌入相加,相加后作为预训练语言模型的输入;中文分词共有4种特征:BIES,分别表示词的起始字符B;词的中间字符I;词的结尾字符E;和独字词S;使用Transformer来训练得到输入语句的语义特征;
遮掩语言模型为:随机遮掩住句子中的一部分字,然后通过该部分字的上下文表征进行预测被遮掩位置上的字;预训练文本语料中的每条文本数据,会有15%的字会被随机选中;在被选中的字中,有80%会被遮掩,即将需遮掩字替换为一个特殊标记[MASK];有10%会被随机替换为一个任意字符;剩余10%不进行任何操作;完成文本语料的遮掩之后,得到处理完成的预训练语言模型的训练数据;
对于处理好的预训练语言模型的训练数据,首先基于训练数据中的词频建立字符表,便于对训练数据进行处理,并按字符表的顺序对字符表里的字符编号;同时,字符表中也包含规则匹配类别的标签。
2.根据权利要求1所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,所述步骤(7)中的微调为:在已有的预训练语言模型参数上添加参数,然后基于命名实体识别数据集,使用小学习率对所有的参数进行训练,从而将预训练语言模型迁移到命名实体识别任务上去。
3.根据权利要求1所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,所述步骤(5)中收集的数据集,数据集规模为几千至几万条,并对其中的命名实体进行标注,该数据集是用作命名实体识别的训练数据。
4.根据权利要求1所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,所述基于Transformer网络结构构建预训练语言模型,即构建基于Transformer网络结构的双向深度语言模型,整个网络由12个连续相同的网络层组成,每一层中有2个子层,分别是:多头注意力层和前馈网络层,这两个子层之间都有残差连接与层归一化操作;
多头注意力是一种注意力机制,其计算形式如下:
MultiHead(Q,K,V)=Concat(head1,...headh)WO
其中,headi=Attention(QWi Q,KWi K,VWi V)
其中,WQ,WK,WV是参数映射矩阵,h是注意力头数,将注意力分为h个注意力头,能够分别抽取不同子区域的特征;WO同样是参数映射矩阵,Concat函数在各个注意力头完成注意力计算后,将所有注意力头拼接到一起;
对于Attention的计算如下式:
Figure FDA0003675054240000021
其中,Q,K,V均是输入字向量矩阵,dk是输入向量的维度; 通过上式注意力机制的计算,即可得到Q关于在V上的注意力机制,即应该重点关注的V中的区域。
5.根据权利要求1所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,
位置嵌入是基于正弦函数计算得出:
Figure FDA0003675054240000022
Figure FDA0003675054240000023
其中,pos是输入的位置,i则表示输入向量的维度,dmodel是模型输入的维度。
6.根据权利要求5所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,完成预训练语言模型之后,即可开始迁移到命名实体识别任务上:
(3.1)收集标注命名实体标记数据集,对于命名实体类型,其中人名标记为PER、地名标记为LOC、机构名标记为ORG;对于实体边界,采用BIO标注格式,其中B表示实体的起始字符,I表示实体的非起始字符,O表示在实体外,意为非命名实体;两类标记进行组合;
(3.2)使用规则模板,将标记数据中规则匹配到的内容替换为其对应的类别标签;
(3.3)在预训练语言模型的网络最上层再添加一层全连接网络,并使用小学习率在标记数据上对预训练语言模型进行微调;在已有的预训练语言模型参数上添加一层全连接网络,然后基于命名实体的标记数据,对所有的参数进行小学习率的训练,从而将模型迁移到命名实体识别任务上去;
(3.4)由全连接网络产生输入文本中每个字符对应的命名实体类别标签,输出每个实体的类别标记;
至此完成了命名实体识别任务的训练,保存微调后的模型,即可对待预测文本数据进行识别抽取:
(4.1)执行预测时同样需要先使用规则模板进行匹配,对命中规则的内容使用对应的类别标签进行替换,并保存规则匹配的结果;
(4.2)之后携同上下文文本,一起投入微调后的预训练语言模型中去,即可得出文本各个字符对应的BIO标记;将BIO标记进行格式转换,即可得到最终的命名实体名。
CN202010460134.7A 2020-05-27 2020-05-27 一种基于预训练语言模型的中文文本关键信息抽取方法 Active CN111444721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010460134.7A CN111444721B (zh) 2020-05-27 2020-05-27 一种基于预训练语言模型的中文文本关键信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010460134.7A CN111444721B (zh) 2020-05-27 2020-05-27 一种基于预训练语言模型的中文文本关键信息抽取方法

Publications (2)

Publication Number Publication Date
CN111444721A CN111444721A (zh) 2020-07-24
CN111444721B true CN111444721B (zh) 2022-09-23

Family

ID=71653739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010460134.7A Active CN111444721B (zh) 2020-05-27 2020-05-27 一种基于预训练语言模型的中文文本关键信息抽取方法

Country Status (1)

Country Link
CN (1) CN111444721B (zh)

Families Citing this family (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858942A (zh) * 2020-07-29 2020-10-30 阳光保险集团股份有限公司 一种文本抽取方法、装置、存储介质和电子设备
CN112131378B (zh) * 2020-08-20 2024-09-03 彭涛 用于识别民生问题类别的方法、装置及电子设备
CN113743111B (zh) * 2020-08-25 2024-06-04 国家计算机网络与信息安全管理中心 基于文本预训练和多任务学习的金融风险预测方法及装置
CN111984790B (zh) * 2020-08-26 2023-07-25 南京柯基数据科技有限公司 一种实体关系抽取方法
CN112015913B (zh) * 2020-08-28 2024-06-28 支付宝(杭州)信息技术有限公司 用于训练处罚实体分类模型的方法及装置
CN112036179B (zh) * 2020-08-28 2024-03-26 南京航空航天大学 基于文本分类与语义框架的电力预案信息抽取方法
CN112183083A (zh) * 2020-08-31 2021-01-05 杭州远传新业科技有限公司 文摘自动生成方法、装置、电子设备及存储介质
CN112001179A (zh) * 2020-09-03 2020-11-27 平安科技(深圳)有限公司 命名实体识别方法、装置、电子设备及可读存储介质
CN112016313B (zh) * 2020-09-08 2024-02-13 迪爱斯信息技术股份有限公司 口语化要素识别方法及装置、警情分析系统
CN111967266B (zh) * 2020-09-09 2024-01-26 中国人民解放军国防科技大学 中文命名实体识别系统、模型构建方法和应用及相关设备
CN112016300B (zh) * 2020-09-09 2022-10-14 平安科技(深圳)有限公司 预训练模型处理、下游任务处理方法、装置及存储介质
CN112100404B (zh) * 2020-09-16 2021-10-15 浙江大学 基于结构化上下文信息的知识图谱预训练方法
CN112101036A (zh) * 2020-09-22 2020-12-18 山东旗帜信息有限公司 一种基于预定义关系的知识联合抽取的方法及装置
CN111967267B (zh) * 2020-09-23 2022-06-21 中科(厦门)数据智能研究院 一种基于XLNet的新闻文本地域提取的方法及系统
CN112329767A (zh) * 2020-10-15 2021-02-05 方正株式(武汉)科技开发有限公司 基于联合预训练的合同文本图像关键信息提取系统和方法
CN112257445B (zh) * 2020-10-19 2024-01-26 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
CN112307914B (zh) * 2020-10-20 2024-05-14 西北工业大学 一种基于文本信息指导的开放域图像内容识别方法
CN112487812B (zh) * 2020-10-21 2021-07-06 上海旻浦科技有限公司 一种基于边界识别的嵌套实体识别方法及系统
CN112215007B (zh) * 2020-10-22 2022-09-23 上海交通大学 基于leam模型的机构命名实体归一化方法和系统
CN113807097B (zh) * 2020-10-30 2024-07-26 北京中科凡语科技有限公司 命名实体识别模型建立方法及命名实体识别方法
CN112417873B (zh) * 2020-11-05 2024-02-09 武汉大学 基于bbwc模型和mcmc的自动漫画生成方法和系统
CN112560484B (zh) * 2020-11-09 2024-03-01 武汉数博科技有限责任公司 用于命名实体识别的改进bert训练模型及命名实体识别方法
CN112329434B (zh) * 2020-11-26 2024-04-12 北京百度网讯科技有限公司 文本信息识别方法、装置、电子设备和存储介质
CN112329477A (zh) * 2020-11-27 2021-02-05 上海浦东发展银行股份有限公司 基于预训练模型的信息抽取方法、装置、设备及存储介质
CN112395394B (zh) * 2020-11-27 2024-04-26 安徽迪科数金科技有限公司 短文本语义理解模板检验方法、模板生成方法及装置
CN112487826A (zh) 2020-11-30 2021-03-12 北京百度网讯科技有限公司 信息抽取方法、抽取模型训练方法、装置以及电子设备
CN112632972B (zh) * 2020-12-25 2024-03-15 浙江国际海运职业技术学院 一种电网设备故障报告内故障信息的快速提取方法
CN112541347B (zh) * 2020-12-29 2024-01-30 浙大城市学院 一种基于预训练模型的机器阅读理解方法
CN112686044B (zh) * 2021-01-18 2024-10-15 华东理工大学 一种基于语言模型的医疗实体零样本分类方法
CN112926323B (zh) * 2021-01-26 2024-02-02 江南大学 基于多级残差卷积与注意力机制的中文命名实体识别方法
CN112801010B (zh) * 2021-02-07 2023-02-14 华南理工大学 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN112801085A (zh) * 2021-02-09 2021-05-14 沈阳麟龙科技股份有限公司 一种图像中文字的识别方法、装置、介质及电子设备
CN112764762B (zh) * 2021-02-09 2021-09-17 清华大学 一种将规范文本自动转为可计算逻辑规则的方法及系统
CN113326700B (zh) * 2021-02-26 2024-05-14 西安理工大学 一种基于ALBert的复杂重型装备实体抽取方法
CN112883737B (zh) * 2021-03-03 2022-06-14 山东大学 基于中文命名实体识别的机器人语言指令分析方法及系统
CN112989813A (zh) * 2021-03-08 2021-06-18 北京航空航天大学 一种基于预训练语言模型的科技资源关系抽取方法及装置
CN113051366B (zh) * 2021-03-10 2024-08-20 北京工业大学 专业领域论文的批量实体抽取方法及系统
CN112926313B (zh) * 2021-03-10 2023-08-15 新华智云科技有限公司 一种槽位信息的提取方法与系统
CN113032559B (zh) * 2021-03-15 2023-04-28 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN113032563B (zh) * 2021-03-22 2023-07-14 山西三友和智慧信息技术股份有限公司 一种基于人工遮掩关键词的正则化文本分类微调方法
CN113158671B (zh) * 2021-03-25 2023-08-11 胡明昊 一种结合命名实体识别的开放域信息抽取方法
CN113158674B (zh) * 2021-04-01 2023-07-25 华南理工大学 一种人工智能领域文档关键信息抽取方法
CN112989031B (zh) * 2021-04-28 2021-08-03 成都索贝视频云计算有限公司 基于深度学习的广播电视新闻事件要素抽取方法
CN113221577B (zh) * 2021-04-28 2024-10-29 西安交通大学 一种教育文本知识归纳方法、系统、设备及可读存储介质
CN113190656B (zh) * 2021-05-11 2023-07-14 南京大学 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN113128199B (zh) * 2021-05-11 2022-06-21 济南大学 基于预训练语言模型与多重词信息嵌入的字向量生成方法
CN113158677B (zh) * 2021-05-13 2023-04-07 竹间智能科技(上海)有限公司 一种命名实体识别方法和系统
CN113254613B (zh) * 2021-05-24 2024-07-19 深圳壹账通智能科技有限公司 对话问答方法、装置、设备及存储介质
CN113221569A (zh) * 2021-05-27 2021-08-06 中国人民解放军军事科学院国防工程研究院工程防护研究所 一种毁伤试验文本信息抽取方法
CN113515587B (zh) * 2021-06-02 2024-06-21 中国神华国际工程有限公司 一种标的物信息提取方法、装置、计算机设备及存储介质
CN113779993B (zh) * 2021-06-09 2023-02-28 北京理工大学 一种基于多粒度文本嵌入的医学实体识别方法
CN113468887A (zh) * 2021-06-21 2021-10-01 上海交通大学 基于边界与片段分类的学者信息关系抽取方法和系统
CN113468330B (zh) * 2021-07-06 2023-04-28 北京有竹居网络技术有限公司 信息获取方法、装置、设备及介质
CN113536768A (zh) * 2021-07-14 2021-10-22 福建亿榕信息技术有限公司 一种基于正则表达式建立文本抽取模型的方法及设备
CN113505598A (zh) * 2021-08-06 2021-10-15 贵州江南航天信息网络通信有限公司 一种基于混合神经网络的网络文本实体关系抽取算法
CN113722467B (zh) * 2021-08-31 2024-05-17 康键信息技术(深圳)有限公司 用户搜索意图的处理方法、系统、装置和存储介质
CN113836891A (zh) * 2021-08-31 2021-12-24 北京智谱华章科技有限公司 基于多元标注策略的结构化信息抽取方法和装置
CN113704477B (zh) * 2021-09-03 2022-10-18 华南理工大学 一种文本识别中识别网络与语言模型的联合优化方法
CN113836901B (zh) * 2021-09-14 2023-11-14 灵犀量子(北京)医疗科技有限公司 一种中英文医学同义词数据清洗方法及系统
CN113850322A (zh) * 2021-09-24 2021-12-28 北京大数医达科技有限公司 基于预训练模型的分布式文本模型训练方法、装置、终端设备
CN113962214B (zh) * 2021-10-25 2024-07-16 东南大学 基于eletric-bert的实体抽取方法
CN113961669A (zh) * 2021-10-26 2022-01-21 杭州中软安人网络通信股份有限公司 一种预训练语言模型的训练方法、存储介质及服务器
CN113987209B (zh) * 2021-11-04 2024-05-24 浙江大学 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质
CN114528368B (zh) * 2021-11-12 2023-08-25 南京师范大学 基于预训练语言模型与文本特征融合的空间关系抽取方法
CN113901825B (zh) * 2021-11-22 2024-05-03 东北大学 一种基于主动深度学习的实体关系联合抽取方法及系统
CN114218953B (zh) * 2021-12-20 2024-08-23 众阳健康科技集团有限公司 一种医学文本命名实体识别方法
CN114582448A (zh) * 2022-01-05 2022-06-03 大连理工大学 基于预训练语言模型的疫情病例信息抽取框架构建方法
CN114510911B (zh) * 2022-02-16 2024-07-12 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及存储介质
CN114647715A (zh) * 2022-04-07 2022-06-21 杭州电子科技大学 一种基于预训练语言模型的实体识别方法
CN114781381B (zh) * 2022-04-11 2024-01-09 中国航空综合技术研究所 基于规则和神经网络模型融合的标准指标抽取方法
CN115048511A (zh) * 2022-04-19 2022-09-13 南京烽火星空通信发展有限公司 一种基于Bert的护照版面分析方法
CN114528394B (zh) * 2022-04-22 2022-08-26 杭州费尔斯通科技有限公司 一种基于掩码语言模型的文本三元组提取方法及装置
CN114722159B (zh) * 2022-06-01 2022-08-23 中科航迈数控软件(深圳)有限公司 针对数控机床制造资源的多源异构数据处理方法及系统
CN114861600B (zh) 2022-07-07 2022-12-13 之江实验室 一种面向ner的中文临床文本数据增强方法及装置
CN115099224A (zh) * 2022-07-08 2022-09-23 江苏理工学院 融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法和装置
CN115270801B (zh) * 2022-09-28 2022-12-30 浙江太美医疗科技股份有限公司 文本信息抽取模型的训练方法、文本信息抽取方法和应用
CN115496076B (zh) * 2022-11-01 2023-03-24 之江实验室 一种价值需求特征驱动的文本情感识别、训练方法及装置
CN115906844B (zh) * 2022-11-02 2023-08-29 中国兵器工业计算机应用技术研究所 一种基于规则模板的信息抽取方法和系统
CN115879450B (zh) * 2023-01-06 2023-09-01 广东爱因智能科技有限公司 一种逐步文本生成方法、系统、计算机设备及存储介质
CN116227483A (zh) * 2023-02-10 2023-06-06 南京南瑞信息通信科技有限公司 一种基于词边界的中文实体抽取方法、装置及存储介质
CN116204642B (zh) * 2023-03-06 2023-10-27 上海阅文信息技术有限公司 数字阅读中角色隐式属性智能识别分析方法、系统和应用
CN116306657B (zh) * 2023-05-19 2023-08-22 之江实验室 基于方阵标注和双仿射层注意力的实体抽取方法及系统
CN116861885B (zh) * 2023-07-11 2024-05-07 贝壳找房(北京)科技有限公司 标签生成方法、装置、设备和介质
CN117076661B (zh) * 2023-08-17 2024-05-31 天津大学 面向预训练大语言模型调优的立法规划意图识别方法
CN116976351B (zh) * 2023-09-22 2024-01-23 之江实验室 基于学科实体的语言模型构建方法以及学科实体识别装置
CN117709969B (zh) * 2023-12-20 2024-08-27 华南理工大学 面向客服场景的生成匹配式大模型构建方法、介质及设备
CN117540009B (zh) * 2024-01-09 2024-03-26 江西省科学院能源研究所 一种基于增强预训练文本匹配模型的文本匹配方法
CN118012416A (zh) * 2024-03-15 2024-05-10 甄觉科技(上海)有限公司 基于大语言模型的工件三维模型设计生成方法及系统
CN118211748A (zh) * 2024-03-19 2024-06-18 青岛中信源食品科技有限公司 一种食品添加剂配方安全性判定方法、介质及系统
CN118536987A (zh) * 2024-07-25 2024-08-23 北京化工大学 基于生成式大语言模型的旋转机械智能运维诊断方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138575A (zh) * 2015-07-29 2015-12-09 百度在线网络技术(北京)有限公司 语音文本串的解析方法和装置
CN107862039A (zh) * 2017-11-06 2018-03-30 工业和信息化部电子第五研究所 网页数据获取方法、系统和数据匹配推送方法
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及系统
CN109918644A (zh) * 2019-01-26 2019-06-21 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110348008A (zh) * 2019-06-17 2019-10-18 五邑大学 基于预训练模型和微调技术的医疗文本命名实体识别方法
CN110427627A (zh) * 2019-08-02 2019-11-08 北京百度网讯科技有限公司 基于语义表示模型的任务处理方法和装置
CN110543639A (zh) * 2019-09-12 2019-12-06 扬州大学 一种基于预训练Transformer语言模型的英文句子简化算法
CN110674639A (zh) * 2019-09-24 2020-01-10 拾音智能科技有限公司 一种基于预训练模型的自然语言理解方法
CN111160026A (zh) * 2019-12-18 2020-05-15 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829678A (zh) * 2018-06-20 2018-11-16 广东外语外贸大学 一种汉语国际教育领域命名实体识别方法
US11615208B2 (en) * 2018-07-06 2023-03-28 Capital One Services, Llc Systems and methods for synthetic data generation
CN109657239B (zh) * 2018-12-12 2020-04-21 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法
CN109885673A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种基于预训练语言模型的自动文本摘要方法
CN111126068A (zh) * 2019-12-25 2020-05-08 中电云脑(天津)科技有限公司 一种中文命名实体识别方法和装置及电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138575A (zh) * 2015-07-29 2015-12-09 百度在线网络技术(北京)有限公司 语音文本串的解析方法和装置
CN107862039A (zh) * 2017-11-06 2018-03-30 工业和信息化部电子第五研究所 网页数据获取方法、系统和数据匹配推送方法
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及系统
CN109918644A (zh) * 2019-01-26 2019-06-21 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110348008A (zh) * 2019-06-17 2019-10-18 五邑大学 基于预训练模型和微调技术的医疗文本命名实体识别方法
CN110427627A (zh) * 2019-08-02 2019-11-08 北京百度网讯科技有限公司 基于语义表示模型的任务处理方法和装置
CN110543639A (zh) * 2019-09-12 2019-12-06 扬州大学 一种基于预训练Transformer语言模型的英文句子简化算法
CN110674639A (zh) * 2019-09-24 2020-01-10 拾音智能科技有限公司 一种基于预训练模型的自然语言理解方法
CN111160026A (zh) * 2019-12-18 2020-05-15 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BERT(Bidirectional Encoder Representations from Transformers)理解;光彩照人;《博客园》;20181219;第1-4页 *
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding;Jacob Devlin 等;《arXiv》;20190524;第1-16页 *
BERT:Bidirectional Encoder Representations from Transformers (基于转换器的双向编码表征);Frank Cao;《知乎》;20181123;第1-5页 *
彻底理解 Google BERT 模型;NLP学习笔记;《百度》;20191204;第1-6页 *

Also Published As

Publication number Publication date
CN111444721A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN111444721B (zh) 一种基于预训练语言模型的中文文本关键信息抽取方法
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN110083831B (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN109190131B (zh) 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN112989834B (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN111444343B (zh) 基于知识表示的跨境民族文化文本分类方法
CN109829159B (zh) 一种古汉语文本的一体化自动词法分析方法及系统
CN112836046A (zh) 一种四险一金领域政策法规文本实体识别方法
CN110826331A (zh) 基于交互式与迭代式学习的地名标注语料库智能构建方法
CN110909736B (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN109800437A (zh) 一种基于特征融合的命名实体识别方法
CN109271529A (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN113946685B (zh) 一种融合规则和深度学习的渔业标准知识图谱构建方法
CN112364623A (zh) 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
CN108829823A (zh) 一种文本分类方法
CN114417851B (zh) 一种基于关键词加权信息的情感分析方法
CN114386417A (zh) 一种融入词边界信息的中文嵌套命名实体识别方法
CN115587594A (zh) 网络安全的非结构化文本数据抽取模型训练方法及系统
CN112101014A (zh) 一种混合特征融合的中文化工文献分词方法
CN114443813A (zh) 一种智能化的在线教学资源知识点概念实体链接方法
CN113641809A (zh) 一种基于XLNet-BiGRU-CRF的智能问答方法
CN111222329B (zh) 句向量训练方法及模型、句向量预测方法及系统
CN107894976A (zh) 一种基于Bi‑LSTM的混合语料分词方法
CN107797986A (zh) 一种基于lstm‑cnn的混合语料分词方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant