CN107783960B - 用于抽取信息的方法、装置和设备 - Google Patents
用于抽取信息的方法、装置和设备 Download PDFInfo
- Publication number
- CN107783960B CN107783960B CN201710996056.0A CN201710996056A CN107783960B CN 107783960 B CN107783960 B CN 107783960B CN 201710996056 A CN201710996056 A CN 201710996056A CN 107783960 B CN107783960 B CN 107783960B
- Authority
- CN
- China
- Prior art keywords
- sequence
- state
- hidden state
- knowledge
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000000605 extraction Methods 0.000 claims abstract description 91
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000013135 deep learning Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 91
- 238000013528 artificial neural network Methods 0.000 claims description 46
- 230000009466 transformation Effects 0.000 claims description 31
- 238000013507 mapping Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 238000003058 natural language processing Methods 0.000 claims description 8
- 230000001131 transforming effect Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000002372 labelling Methods 0.000 description 8
- 230000035622 drinking Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 101150026173 ARG2 gene Proteins 0.000 description 2
- 235000003840 Amygdalus nana Nutrition 0.000 description 2
- 244000296825 Amygdalus nana Species 0.000 description 2
- 101100260702 Mus musculus Tinagl1 gene Proteins 0.000 description 2
- 235000011432 Prunus Nutrition 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 101150088826 arg1 gene Proteins 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 235000014774 prunus Nutrition 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了用于抽取信息的方法、装置和设备。用于抽取信息的方法的一具体实施方式包括:获取已标注的语料库,已标注的语料库包括多条样本语句以及与各样本语句对应的已标注信息集合;基于已标注的语料库中的样本语句和各样本语句对应的已标注信息集合构造输入序列和输出序列;利用深度学习方法训练得出由输入序列生成输出序列的信息抽取模型;将待处理语句输入信息抽取模型,以抽取出待处理语句所包含的知识信息集合;已标注信息集合包括将从对应的样本语句中抽取出的以下至少一种知识按照预设规则规范化后的信息:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识。该实施方式实现了信息的有效、准确抽取。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及自然语言数据处理领域,尤其涉及用于抽取信息的方法、装置和设备。
背景技术
自然语言处理,是对人们日常使用的语言进行处理,以实现与计算机之间的有效通信的技术,它是人工智能领域的一个重要研究方向。
自然语言处理中,往往需要借助知识库来对文本语言进行理解,知识库可以提供丰富的实体知识信息,包括实体的属性信息、实体间的关系信息等。因此,如何从自然语言中提取出有效的知识信息以构造知识库,成为学术界和工业界的研究探索的热点问题。
由于自然语言灵活多变,自动化的信息抽取具有一定的难度。尤其对于不限定领域、类别实体的开放信息抽取,需要从海量、冗余、含有噪声的不规范文本中抽取出开放类别的实体、实体关系等知识。目前学术界与工业界所采用的方案大都是基于规则的方法。其中一种基于规则的方法是对语句进行语法分析生成语法分析树,在语法分析树上施加规则来提取相关的信息。例如根据句子语法中主语、谓词和宾语的位置规则来提取对应的信息。另一种基于规则的方法是采用人工标定的规则来自动生成一些样本,利用生成的样本来训练提取器,从而实现信息提取。这些规则通常由专家来设定,针对不同类型的信息的抽取,规则的形式一般是不相同的。因此,在抽取多种类型的信息的开放信息抽取场景中,需要设定大量的规则。
发明内容
本申请实施例提供了用于抽取信息的方法、装置和设备。
第一方面,本申请实施例提供了一种用于抽取信息的方法,包括:获取已标注的语料库,已标注的语料库包括多条样本语句以及与各样本语句对应的已标注信息集合;分别基于已标注的语料库中的样本语句和各样本语句对应的已标注信息集合构造输入序列以及对应的输出序列;利用深度学习方法训练得出由输入序列生成输出序列的信息抽取模型;将待处理语句输入已生成的信息抽取模型,以抽取出待处理语句所包含的知识信息集合;其中,已标注信息集合包括将从对应的样本语句中抽取出的以下至少一种知识按照预设规则规范化后的信息:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识。
在一些实施例中,上述利用深度学习方法训练得出由输入序列生成输出序列的信息抽取模型,包括:对输入序列中的各对象和输出序列中的各已标注信息进行向量化处理;构建信息抽取模型的神经网络,信息抽取模型的神经网络包括编码器和解码器;利用编码器将向量化处理后的输入序列映射为输入隐状态序列,利用解码器将输出序列映射为输出隐状态序列;利用解码器对输入隐状态序列进行解码,得到预测状态序列;根据预测状态序列与输出隐状态序列的差异调整神经网络的参数。
在一些实施例中,上述利用解码器对输入隐状态序列进行解码,得到预测状态序列,包括:对于待生成的预测状态序列中的目标位置,获取解码器的隐藏层在解码得出目标位置的上一个位置的预测状态后的状态,作为解码器的当前隐状态;基于当前隐状态计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度;基于匹配度计算各输入隐状态对目标位置的预测状态的注意力权重;对各输入隐状态按照注意力权重进行加权求和得到上下文向量;基于上下文向量、输出隐状态序列中目标位置的上一个位置的输出隐状态、以及解码器的隐藏层在解码目标位置的预测状态时的状态,计算出目标位置的预测状态的概率分布;根据概率分布,确定出目标位置的预测状态。
在一些实施例中,上述基于当前隐状态计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度,包括:对当前隐状态和输入隐状态进行第一非线性变换,得到输入隐状态与目标位置的预测状态之间的匹配度。
在一些实施例中,上述基于当前隐状态计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度,包括:基于当前隐状态计算目标位置对应的覆盖向量,覆盖向量用于记录样本语句中已被提取的信息;对当前隐状态、输入隐状态以及目标位置的上一个位置对应的覆盖向量进行第二非线性变换,得到输入隐状态与目标位置的预测状态之间的匹配度。
在一些实施例中,在基于当前隐状态计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度之前,上述利用解码器对输入隐状态序列进行解码,得到预测状态序列,还包括:采用自然语言处理方法提取样本语句中的语义依存关系树;对语义依存关系树中的每一条边添加一条反向边,构成路径查找图;在路径查找图中查找输入序列中任意两个对象之间的语义路径,并将该语义路径编码为语义向量;对语义向量进行变换得到语义依存关系注意力向量;上述基于当前隐状态计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度,包括:基于当前隐状态、输入隐状态以及语义依存关系注意力向量进行第三非线性变换,得到输入隐状态与目标位置的预测状态之间的匹配度。
在一些实施例中,上述目标位置的预测状态的概率为:从对应的样本语句中拷贝一个词语作为输出序列中的一个对象的概率与从预设符号集合中选择出一个目标符号并将目标符号所表征的对象作为输出序列中的一个对象的概率之和;预设符号集合中的符号用于与样本语句中的词语联合,以完整表征样本语句中的以下知识中的一项:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识。
在一些实施例中,上述预设符号集合中的符号包括:用于表征语句中分离的谓词的符号;用于表征语句中以缩减表达式表达的知识中被缩减的信息的符号;用于表征语句中的隐含知识的符号;用于表征语句中的缺失信息的符号。
第二方面,本申请实施例提供了一种用于抽取信息的装置,包括:获取单元,用于获取已标注的语料库,已标注的语料库包括多条样本语句以及与各样本语句对应的已标注信息集合;构造单元,用于分别基于已标注的语料库中的样本语句和各样本语句对应的已标注信息集合构造输入序列以及对应的输出序列;训练单元,用于利用深度学习装置训练得出由输入序列生成输出序列的信息抽取模型;抽取单元,用于将待处理语句输入已生成的信息抽取模型,以抽取出待处理语句所包含的知识信息集合;其中,已标注信息集合包括将从对应的样本语句中抽取出的以下至少一种知识按照预设规则规范化后的信息:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识。
在一些实施例中,上述训练单元进一步用于按照如下方式训练得出由输入序列生成输出序列的信息抽取模型:对输入序列中的各对象和输出序列中的各已标注信息进行向量化处理;构建信息抽取模型的神经网络,信息抽取模型的神经网络包括编码器和解码器;利用编码器将向量化处理后的输入序列映射为输入隐状态序列,利用解码器将输出序列映射为输出隐状态序列;利用解码器对输入隐状态序列进行解码,得到预测状态序列;根据预测状态序列与输出隐状态序列的差异调整神经网络的参数。
在一些实施例中,上述训练单元进一步用于按照如下方式得到预测状态序列:对于待生成的预测状态序列中的目标位置,获取解码器的隐藏层在解码得出目标位置的上一个位置的预测状态后的状态,作为解码器的当前隐状态;基于当前隐状态计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度;基于匹配度计算各输入隐状态对目标位置的预测状态的注意力权重;对各输入隐状态按照注意力权重进行加权求和得到上下文向量;基于上下文向量、输出隐状态序列中目标位置的上一个位置的输出隐状态、以及解码器的隐藏层在解码目标位置的预测状态时的状态,计算出目标位置的预测状态的概率分布;根据概率分布,确定出目标位置的预测状态。
在一些实施例中,上述训练单元进一步用于按照如下方式计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度:对当前隐状态和输入隐状态进行第一非线性变换,得到输入隐状态与目标位置的预测状态之间的匹配度。
在一些实施例中,上述训练单元进一步用于按照如下方式计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度:基于当前隐状态计算目标位置对应的覆盖向量,覆盖向量用于记录样本语句中已被提取的信息;对当前隐状态、输入隐状态以及目标位置的上一个位置对应的覆盖向量进行第二非线性变换,得到输入隐状态与目标位置的预测状态之间的匹配度。
在一些实施例中,上述训练单元还用于在基于当前隐状态计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度之前执行如下操作:采用自然语言处理装置提取样本语句中的语义依存关系树;对语义依存关系树中的每一条边添加一条反向边,构成路径查找图;在路径查找图中查找输入序列中任意两个对象之间的语义路径,并将该语义路径编码为语义向量;对语义向量进行变换得到语义依存关系注意力向量;上述训练单元用于按照如下方式计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度:基于当前隐状态、输入隐状态以及语义依存关系注意力向量进行第三非线性变换,得到输入隐状态与目标位置的预测状态之间的匹配度。
在一些实施例中,上述目标位置的预测状态的概率为:从对应的样本语句中拷贝一个词语作为输出序列中的一个对象的概率与从预设符号集合中选择出一个目标符号并将目标符号所表征的对象作为输出序列中的一个对象的概率之和;预设符号集合中的符号用于与样本语句中的词语联合,以完整表征样本语句中的以下知识中的一项:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识。
在一些实施例中,上述预设符号集合中的符号包括:用于表征语句中分离的谓词的符号;用于表征语句中以缩减表达式表达的知识中被缩减的信息的符号;用于表征语句中的隐含知识的符号;用于表征语句中的缺失信息的符号。
第三方面,本申请实施例提供了一种设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述用于抽取信息的方法。
本申请实施例提供的用于抽取信息的方法、装置和设备,通过获取已标注的语料库,已标注的语料库包括多条样本语句以及与各样本语句对应的已标注信息集合;随后分别基于已标注的语料库中的样本语句和各样本语句对应的已标注信息集合构造输入序列以及对应的输出序列;之后利用深度学习方法训练得出由输入序列生成输出序列的信息抽取模型;最后将待处理语句输入已生成的信息抽取模型,以抽取出待处理语句所包含的知识信息集合;其中,已标注信息集合包括将从对应的样本语句中抽取出的以下至少一种知识按照预设规则规范化后的信息:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识;实现了利用一个信息抽取模型提取多种不同类型的知识信息,提升了信息抽取效率,而且基于深度学习方法训练得出的模型能够适应自然语言的表达的多样性和灵活性,避免了规则的局限性所造成的偏差,可以提升信息抽取的准确率和召回率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的用于抽取信息的方法的一个实施例的流程示意图;
图3是根据本申请的用于抽取信息的方法中利用深度学习方法训练得出信息抽取模型的一个实施例的流程示意图;
图4是根据本申请实施例的计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度的方法的一个原理示意图;
图5是根据本申请的用于抽取信息的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的服务器或终端设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于抽取信息的方法或装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104、以及服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户110可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例如通讯客户端应用,语音交互类应用,文档处理类应用等,包括网页浏览器、购物类应用、搜索类应用、即时通信工具、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、智能手表、智能音箱、MP3播放器(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机、台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的搜索结果提供支持的搜索引擎服务器。搜索引擎服务器可以对接收到的搜索语句进行语义解析,分析搜索语句中所包含的需求信息,根据需求信息查询相关的数据,并将查询结果(例如网页链接或页面内容)反馈给终端设备。
需要说明的是,本申请实施例所提供的用于抽取信息的方法可以由终端设备101、102、103或服务器105执行,相应地,用于抽取信息的装置可以设置于终端设备101、102、103或服务器105中。
应该理解,图1中的终端设备、网络、服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、服务器。
继续参考图2,其示出了根据本申请的用于抽取信息的方法的一个实施例的流程200。该用于抽取信息的方法,包括以下步骤:
步骤201,获取已标注的语料库。
在这里,已标注的语料库可以包括多条样本语句以及与各样本语句对应的已标注信息集合。样本语句可以是不限定领域和实体类别的开放领域中的语句,语料库中的样本语句可以包含不同的领域、具有不同的结构化组织形式的语句。
在本实施例中,上述用于抽取信息的方法运行于其上的电子设备(例如图1所示的终端设备或服务器)可以获取已存储的上述语料库。具体来说,上述已标注语料库可以预先构建并存储于本地,则上述电子设备可以从本地存储器中获取到该语料库;或者,上述已标注语料库可以存储于其他电子设备(例如服务器),则上述电子设备可以通过与用于存储已标注的语料库的电子设备之间的通信连接来获取该语料库。
已标注的语料库可以包含人工标注的语料数据,这些语料数据可以是文本形式的语句以及对这些语句中所包含的知识信息的标注结果。在本实施例中,已标注的语料库可以作为样本数据集来训练信息抽取模型,其中的语句为样本语句,对样本语句中所包含的知识信息的标注结果即为样本语句的已标注信息集合。
已标注信息集合可以包括将从对应的样本语句中抽取出的以下至少一种知识按照预设规则规范化后的信息:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识。也就是说,已标注信息集合中的信息可以是按照如下方式形成的:从样本语句中抽取出以下类型的知识:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识;然后按照预设规则对这些知识进行规范化表示。在这里,预设规则可以是预先定义的对语句中的各类型知识的表达方式,例如各类型知识的模板。
上述基于动词或介词的知识可以是语句中表征动作或状态的信息的知识,基于名词属性的知识可以是语句中表征名词的属性信息的知识,实体的描述知识可以是语句中表征实体的描述信息的知识,实体与概念的关系知识可以是用于表征实体与概念之间的所属关系信息的知识。
作为示例,语句“李白(701年-762年),深受庄子思想影响,爽朗大方,爱饮酒作诗,喜交友,代表作有《望庐山瀑布》等著名诗歌”中包含动词“爱”、“喜”和介词“受…影响”,实体“李白”,名词“李白”,名词属性“(701年-762年)”、“代表作有《望庐山瀑布》”,描述信息“爽朗大方”,以及表征实体与概念的关系信息的“《望庐山瀑布》是著名诗歌”。
在该示例中,上述语句包含如下类型的知识:基于动词或介词的知识:李白深受庄子思想影响,爱饮酒作诗,喜交友;基于名词属性的知识:李白的出生日期为701年,李白的逝世日期为762年,李白的代表作为《望庐山瀑布》;实体的描述知识:李白的性格爽朗大方;以及实体与概念的关系知识:《望庐山瀑布》是著名诗歌。
上述知识中包含一些无法直接通过语义分析等方法直接从语句中提取出的知识,并且,不同语句中提取出的同一类型的知识的表达方式可能各不相同。为了表达这些无法直接提取出的知识,并统一同类型知识的表达方式,以便在后续基于深度学习的模型训练中更容易学习到信息抽取的逻辑,在标注时,可以按照预设规则对这些知识进行规范化。在这里,预设规则可以包括各类型知识的约定表达形式,还可以包括无法直接从语句中提取出的知识的约定表达形式。
可选地,可以采用符号协助的知识表达方式来对上述知识进行规范化,这里引入的符号可以预设规则中定义的符号,这些预先定义的符号可以用于辅助语句中的词语来完整表达各类型的知识。例如引入符号“BIRTH”和“DEATH”来辅助“(701年-762年)”表达生日和卒日。
上述预设规则可以作为标注人员对样本语句中的知识进行标注的规则。对于语句S,其中的知识可以用一个N元组来表示:(Subject,Predicate,Arg1,Arg2,…),其中Subject表示主语,一般是实体或名词,Predicate表示谓语,一般是动词或介词,Arg1,Arg2,…表示宾语,一般可以是实体或名词。
在一些具体的应用场景中,上述预设规则具体可以包括:尽可能用语句中原有的词语对知识进行表达;对于无法用语句中的原有词语完整地表达的知识,可以引入如下符号进行表达:
1)引入用于表征语句中分离的谓词的符号,这里分离的谓词可以为在语句中被其他词语分离开的谓语词语或介词词语,例如上述示例中,“李白深受庄子思想影响”可以表达为(李白,深受X影响,庄子);
2)引入用于表征语句中以缩减表达式表达的知识中被缩减的信息的符号,缩减表达式是指不完整的表达式,例如上述示例中“李白(701年-762年)”可以表达为(李白,BIRTH,701年)和(李白,DEATH,701年),另一个示例中“NBA(National BasketballAssociation)”可以表达为(NBA,=,National Basketball Association)。
3)引入用于表征语句中的隐含知识的符号,来协助表达语句中的隐含知识,例如“英国伦敦”可以表达为(伦敦,IN,英国);
4)用于表征语句中的缺失信息的符号来表达语句中的缺失信息,以将知识补充完整,例如上述示例中“喜交友”表达为(李白,喜,交友),“爽朗大方”表达为(李白,DESC,爽朗大方)。
此外,在标注时,保证句子中的各知识为独立的,且所有的知识已被标注出来。并且,对于源句子中同一个谓词连接的多个名词或实体,可以表达为一个知识,例如“李白爱饮酒作诗”可以规范化表达为(李白,爱,[饮酒][作诗])。
在对样本语句中提取出的知识进行规范化后,得到用于表征这些知识的信息,将用于表征同一样本语句中的知识的信息集合起来则可以生成对应于该样本语句的已标注信息集合。
通过对样本语句中的知识按照上述预设规则进行规范化处理,可以表达出更丰富的知识,并保证知识的准确性。从而使得利用包含该样本语句对应的已标注信息集合训练得出的信息抽取模型可以准确地提取自然语言语句中的各类型知识,进而完善开放领域的知识库,为文本摘要、文本理解、词汇相似度等任务提供更加完备的知识信息。
步骤202,分别基于已标注的语料库中的样本语句和各样本语句对应的已标注信息集合构造输入序列以及对应的输出序列。
可以对上述已标注的语料库中的样本语句进行序列化处理,得到输入序列,对样本语句对应的已标注信息集合进行序列化处理,得到对应的输出序列。
具体地,可以对样本语句进行切词,根据切词结果构造输入序列。例如样本语句“李白深受庄子思想影响,爱饮酒作诗,喜交友”的切词结果可以为“李白,深受,庄子思想,影响,爱,饮酒,作诗,喜,交友”,则输入序列S可以表示为:
输出序列可以是样本语句对应的已标注信息集合中的信息构成的序列,可以表示为:
步骤203,利用深度学习方法训练得出由输入序列生成输出序列的信息抽取模型。
在本实施例中,可以构建基于深度学习的模型,然后基于上述已标注的语料库对应的输入序列和输出序列对模型进行训练。具体地,可以构建多层神经网络作为模型的架构,将输入序列输入多层神经网络进行预测,然后根据预测结果修正多层神经网络的参数。在这里,多层神经网络可以选择RNN(Recurrent Neutral Network,递归神经网络)、CNN(Convolutional Neural Network,卷积神经网络)等。在训练过程中,上述多层神经网络可以学习由输入序列生成对应的输出序列的逻辑,也即学习到由样本语句提取其中所包含的知识的逻辑。
步骤204,将待处理语句输入已生成的信息抽取模型,以抽取出待处理语句所包含的知识信息集合。
在采用深度学习方法生成信息抽取模型之后,可以将待处理语句输入该信息抽取模型。信息抽取模型可以将待处理语句中所包含的知识信息抽取出来,形成知识信息集合。
在本实施例中,待处理语句可以是一段自然语言文本,从待处理语句中抽取出的知识信息可以为与样本语句的已标注信息集合具有相同的知识表达方式。由于上述信息抽取模型的训练样本中标注了基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识,因此该信息抽取模型可以从待处理语句中同时抽取出这四种类型的知识。
本申请上述实施例的用于抽取信息的方法,通过获取已标注的语料库,已标注的语料库包括多条样本语句以及与各样本语句对应的已标注信息集合;随后分别基于已标注的语料库中的样本语句和各样本语句对应的已标注信息集合构造输入序列以及对应的输出序列;之后利用深度学习方法训练得出由输入序列生成输出序列的信息抽取模型;最后将待处理语句输入已生成的信息抽取模型,以抽取出待处理语句所包含的知识信息集合;其中,已标注信息集合包括将从对应的样本语句中抽取出的以下至少一种知识按照预设规则规范化后的信息:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识;实现了利用一个信息抽取模型提取多种不同类型的信息,提升了信息抽取效率,而且基于深度学习方法训练得出的模型能够适应自然语言的表达的多样性和灵活性,避免了规则的局限性所造成的偏差,可以提升信息抽取的准确率和召回率。
并且,由于在训练时按照预设规则对样本语句进行了标注,形成规范化的知识信息集合,可以实现对不同领域、不同语言结构组织形式语句中的信息的抽取,并且可以有效滤除噪声的影响,从而使得该方法在开放信息抽取中能够达到良好的效果。
在一些实施例中,可以采用序列到序列的学习的方法构造生成信息抽取模型。具体地,请参考图3,其示出了根据本申请的用于抽取信息的方法中利用深度学习方法训练得出信息抽取模型的一个实施例的流程示意图。如图3所示,上述利用深度学习方法训练得出由输入序列生成输出序列的信息抽取模型的流程300可以包括以下步骤:
步骤301,对输入序列中的各对象和输出序列中的各已标注信息进行向量化处理。
在本实施例中,可以构造一个词表,将输入序列S中的每个词以及输出序列F中的每个词都表示为一个独热向量(One-Hot向量),即按照词表中的词语编号或顺序,假设词表中词语数量为n,构建一个二元向量,该向量长度为n,查找输入序列S中的每个词及输出序列F中每个词在比表中的词语编号或顺序,向量中对应词语编号或顺序的元素为1,其他元素为0。
之后,可以对输入序列S中的词语vS的向量表示和输出序列F中的词语vF的向量表示进行降维处理,其中分别表示输入序列中的词语vS的第i个元素和输出序列中的词语vF的第j个元素。降维之后,可以将词语vS表示为分布式向量xi,将词语vF表示为分布式向量yi。其中,E为词表矩阵。
可选地,输入序列和输出序列中的词语的NER(Named Entity Recognition,命名实体识别)标记以及词语的词性等信息都可以通过上述相同的方式表达为分布式向量,再将每个词的所有向量拼接起来,生成该词的表示向量。
步骤302,构建信息抽取模型的神经网络。
其中,信息抽取模型的神经网络包括编码器和解码器。
在本实施例中,可以构建多层神经网络作为信息抽取模型的架构。该多层神经网络可以是序列到序列的学习模型,包括编码器和解码器。
编码器用于对输入序列进行编码,生成中间向量,解码器用于对中间向量解码,得到输入序列的预测结果。具体地,编码器可以采用RNN或DNN,包括至少一个隐层,编码器在编码时,可以结合编码器的隐层状态对当前待编码数据进行非线性变换,得到中间向量。解码器可以采用RNN或DNN,也包括至少一个隐层,解码器解码时结合已经解码的数据以及解码器的隐层的当前状态,对中间向量进行解码得到预测结果。
步骤303,利用编码器将向量化处理后的输入序列映射为输入隐状态序列,利用解码器将输出序列映射为输出隐状态序列。
在根据输入序列和输出序列进行迭代以调整神经网络的参数之前,可以利用信息抽取模型的神经网络来构造输入序列和输出序列的隐状态序列。在这里,隐状态序列可以是利用神经网络的隐藏层对输向量处理后的输入序列和向量化处理后的输出序列进行变换后隐藏层的状态序列。例如,输入序列中xi的隐状态为其中W,b为非线性变化的参数矩阵。
在本实施例中,编码器可以包括递归神经网络,例如为2层双向递归神经网络,可以利用编码器进行非线性变换,将向量化处理后的输入序列(x1,x2,…,xNs)映射设为输入隐状态序列解码器可以包括多层递归神经网络,例如为三层递归神经网络,利用解码器对向量化后的输出序列(y1,y2,…,yNs)映射为输出隐状态序列
步骤304,利用解码器对输入隐状态序列进行解码,得到预测状态序列。
之后,可以利用解码器对输入隐状态序列进行解码。在解码时,可以根据编码器在生成输入隐状态序列中的各隐状态,生成用于辅助解码的中间语义向量,该中间语义向量可以为编码器在编码输入序列中最后一个词语时的隐状态,或者可以为编码器的各隐状态之和。
可以依次对输入隐状态序列中的各输入隐状态,基于中间语义向量进行非线性变化,得到当前输入隐状态的预测结果。该预测结果可以是与输出隐状态序列中是输出隐状态类似的、解码器的隐藏层的预测状态。之后对该预测状态进行非线性变化输出预测结果序列。
在对各输入隐状态进行解码之后,可以得到对应的预测状态序列。
在本实施例中一些可选的实现方式中,上述利用解码器对输入隐状态序列进行解码,得到预测状态序列的步骤304可以包括:
首先,对于待生成的预测状态序列中的目标位置t,获取解码器的隐藏层在解码得出目标位置t的上一个位置t-1的预测状态后的状态st-1,作为解码器的当前隐状态。
然后,基于当前隐状态st-1计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置t的预测状态之间的匹配度etj,在这里,匹配度计算方法也可以称为对齐模型,匹配度etj可以表示目标位置t与输入序列的位置j的对齐程度。
在一些可选的实现方式中,可以按照如下方式计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度:对当前隐状态和输入隐状态进行第一非线性变换,得到输入隐状态与目标位置的预测状态之间的匹配度。具体可以按照式(3)计算上述匹配度:
在另一些可选的实现方式中,可以引入覆盖机制(Coverage机制),来改善“欠提取”和“过提取”的问题,可以按照如下方式计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度:基于当前隐状态计算目标位置对应的覆盖向量,覆盖向量用于记录样本语句中已被提取的信息;对当前隐状态、输入隐状态以及目标位置的上一个位置对应的覆盖向量进行第二非线性变换,得到输入隐状态与目标位置的预测状态之间的匹配度。
其中,
在这里,覆盖向量可以记录在信息抽取过程中源句子(训练时为样本语句)中的词语被拷贝以形成知识信息的历史记录,从而可以帮助解码器进行当前的决策。这时,上述匹配度可以按照式(8)计算:
其中,Va为神经网络中的参数矩阵,tanh为第二非线性变换的变换函数。
从式(8)可以看出,匹配度etj是由当前隐状态st-1、输入隐状态以及目标位置的上一个位置对应的覆盖向量进行第二非线性变换后得到的,这样,可以结合已解码出的知识信息对当前待解码知识进行提取,可以避免知识信息的重复提取,同时可以保证不会遗漏知识信息。
在另一些可选的实现方式中,在基于当前隐状态计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度之前,上述利用解码器对输入隐状态序列进行解码,得到预测状态序列的步骤,还可以包括语义依存关系分析步骤,语义依存关系分析步骤可以包括:
首先采用自然语言处理方法提取样本语句中的语义依存关系树,具体可以利用语义分析方法分析句子各个语言单位之间的语义关联,并将语义关联以依存的树状结构呈现。其中,语义依存关系可以包括主要语义角色、事件关系以及语义依附标记,关系类型可以包括主谓关系、动宾关系、间宾关系、前置宾语、动补结构、介宾关系等。语义关系树中的每一条边具有一个标签,表示一种关系。
然后,可以对语义依存关系树中的每一条边添加一条反向边,构成路径查找图。具体地可以在原边的标签前添加一个负号形成反向边的标签。
而后,在路径查找图中查找输入序列中任意两个对象之间的语义路径,并将该语义路径编码为语义向量。具体可以在路径查找图中找出样本语句中两个词汇之间的最短路径作为语义路径,可以采用RNN等方法将该语义路径编码成为语义向量nij。
之后,对语义向量进行变换得到语义依存关系注意力向量。具体地,语义依存关系注意力向量其中,g是诸如GRU(Gated Recurrent Unit,门限递归单元)的门限操作,可以是由当前隐状态和输入隐状态定义的一个门函数,可以为:
这时,上述基于当前隐状态计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度的步骤,可以包括:基于当前隐状态、输入隐状态以及语义依存关系注意力向量进行第三非线性变换,得到输入隐状态与目标位置的预测状态之间的匹配度。具体来说,匹配度可以按照式(10)计算:
其中,Da也是神经网络中的参数矩阵,用于对语义依存关系注意力向量进行变换,tanh为第三非线性变换的变换函数。
通过引入语义依存关系注意力向量,神经网络可以自动根据源句子的语义确定在解码时所依赖的已解码词汇和待解码词汇,在训练过程中有效地融入各样本语句的语义依存关系,进一步提升信息抽取模型的准确性。
图4示出了根据本申请实施例的计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度的方法的一个原理示意图。如图4所示,信息抽取模型的神经网络通过对输入隐状态和当前隐状态进行诸如tanh函数的非线性变换,可以得出匹配度;在另一中场景中,可以通过对输入隐状态、当前隐状态以及覆盖向量进行诸如tanh函数的非线性变换,得到匹配度;还可以通过对输入隐状态、当前隐状态以及语义依存关系注意力向量进行诸如tanh函数的非线性变换,得到匹配度;或者通过对输入隐状态、当前隐状态、覆盖向量以及语义依存关系注意力向量进行诸如tanh函数的非线性变换,得到匹配度。
注意力权重αtj也可以称为注意力回应强度,可以是前面的预测状态或输出状态对当前输入隐状态解码的影响力强度。
接着,可以对各输入隐状态按照注意力权重进行加权求和得到上下文向量,具体地,上下文向量ct为:
在这里,上下文向量ct是一个动态向量,不同目标位置的上下文向量不相同。
其中,f是一个词汇生成模型,可以是一个非线性变换函数。
最后,根据概率分布,确定出目标位置的预测状态。可以在预设的词汇表中查找使得式(13)的概率p值最大的词汇作为目标位置t的预测状态。在这里,预设的词汇表可以为预先定义的、用于表示上各种知识的词汇。在查找使得概率p值最大的词汇时,可以运用贪心算法或集束搜索(Beam Search,一种启发式搜索算法)得到最优的选择。
从式(3)-(13)可以看出,预测状态与输入隐状态序列中的各隐状态根据解码器的隐藏层在解码得出目标位置的上一个位置的预测状态后的状态确定的注意力权重αtj以及输出隐状态序列中目标位置的上一个位置的隐状态相关,则本实施例的信息抽取模型的训练方法可以有效地结合上下文信息,并且考虑不同位置的上下文对当前位置的解码的影响力大小,能够提升模型的准确性。
在一些可选的实现方式中,可以采用受约束的copy(拷贝)机制对上述概率分布p的计算方法进行优化。该受约束的copy机制用于约束解码过程中遵循“尽量使用源句子中的词汇来表达知识”的规则,以避免解码器生成的知识信息与源句子语义差异过大。
具体地,可以首先定义上述按照预设规则表达的知识中引入的用于辅助表达知识的预设符号集合,也即,该预设符号集合中的符号用于与样本语句中的词语联合,以完整表征样本语句中的以下知识中的一项:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识。
可选地,上述预设符号集合中的符号可以包括但不限于:用于表征语句中分离的谓词的符号;用于表征语句中以缩减表达式表达的知识中被缩减的信息的符号;用于表征语句中的隐含知识的符号;以及用于表征语句中的缺失信息的符号。
这时,上述目标位置的预测状态的概率可以为:从对应的样本语句中拷贝一个词语作为输出序列中的一个对象的概率与从预设符号集合中选择出一个目标符号并将目标符号所表征的对象作为输出序列中的一个对象的概率之和。也就是说,
其中,pX为从从对应的样本语句中拷贝一个词语作为输出序列中的一个对象的概率,pK为从预设符号集合中选择出一个目标符号并将目标符号所表征的对象作为输出序列中的一个对象的概率,一种可选的计算方式如下:
其中,Wc、WO是参数矩阵,vi是参数向量。
步骤305,根据预测状态序列与输出隐状态序列的差异调整神经网络的参数。
在生成各目标位置的预测状态,进而得到预测状态序列之后,可以比对预测状态序列与输出隐状态序列,根据二者之间的差异对信息抽取模型的神经网络中的各参数进行调整。
具体地,上述预测状态序列与输出隐状态序列之间的差异可以由损失函数来表示,然后计算损失函数关于信息抽取模型的神经网络中各参数的梯度,采用梯度下降法来更新各参数。
进一步地,如图3所示(虚线箭头所示流程),可以将输入隐状态序列重新输入更新参数后的神经网络,得到新的预测状态序列,之后在重复上述比对预测状态序列和输出状态序列和更新参数的步骤,直到损失函数符合预设的收敛条件。
基于如图3所示的流程,本实施例的利用深度学习方法训练得出由输入序列生成输出序列的信息抽取模型的方法可以精准地提取上下文信息,并且输入隐状态序列、输出隐状态序列的长度可变,能够灵活地适应不同的语句。由此,采用基于图3所示方法生成的信息抽取模型可以精准地提取出待处理语句中的各类型知识。实验结果中,采用图3所示流程生成的信息抽取模型在准确率、召回率和F值方面均优于现有的基于规则的方法。
进一步参考图5,作为对上述图2所示方法的实现,本申请提供了一种用于抽取信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于抽取信息的装置500可以包括:获取单元501、构造单元502、训练单元503以及抽取单元504。其中,获取单元501可以用于获取已标注的语料库,已标注的语料库包括多条样本语句以及与各样本语句对应的已标注信息集合;构造单元502可以用于分别基于已标注的语料库中的样本语句和各样本语句对应的已标注信息集合构造输入序列以及对应的输出序列;训练单元503可以用于利用深度学习装置训练得出由输入序列生成输出序列的信息抽取模型;抽取单元504可以用于将待处理语句输入已生成的信息抽取模型,以抽取出待处理语句所包含的知识信息集合;其中,已标注信息集合包括将从对应的样本语句中抽取出的以下至少一种知识按照预设规则规范化后的信息:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识。
在本实施例中,已标注语料库可以预先构建并存储于本地,则获取单元501可以从本地存储器中获取到该语料库;或者,上述已标注语料库可以存储于其他电子设备(例如服务器),则获取单元501可以通过与用于存储已标注的语料库的电子设备之间的通信连接来获取该语料库。在这里,已标注的语料库可以包含人工标注的语料数据,这些语料数据可以是文本形式的语句以及对这些语句中所包含的知识信息的标注结果。并且,这些知识信息可以是按照预设规则对语句中包含的知识规范化后的信息,预设规则可以作为标注人员对样本语句中的知识行标注的规则。
构造单元502可以对样本语句进行切词,基于切词得到的词语构造输入序列,还可以将样本语句对应的已标注信息集合构造为输出序列。
训练单元503可以构建基于深度学习的模型,然后基于上述已标注的语料库对应的输入序列和输出序列对模型进行训练。例如可以构建多层神经网络,将输入序列作为多层神经网络的输入数据,多层神经网络可以根据输入数据进行预测,得到预测结果,将输出序列作为标注结果,计算预测结果与标注结果之间的差异,然后调整多层神经网络的参数使差异缩小到一定的范围,从而得出已训练好的信息抽取模型。
抽取单元504可以利用训练单元503得出的信息抽取模型对待处理语句进行信息抽取,具体可以将待处理语句输入信息抽取模型,得到待处理中的知识信息集合。
在一些实施例中,上述训练单元503可以进一步用于按照如下方式训练得出由输入序列生成输出序列的信息抽取模型:对输入序列中的各对象和输出序列中的各已标注信息进行向量化处理;构建信息抽取模型的神经网络,信息抽取模型的神经网络包括编码器和解码器;利用编码器将向量化处理后的输入序列映射为输入隐状态序列,利用解码器将输出序列映射为输出隐状态序列;利用解码器对输入隐状态序列进行解码,得到预测状态序列;根据预测状态序列与输出隐状态序列的差异调整神经网络的参数。
在进一步的实施例中,训练单元503可以进一步用于按照如下方式得到预测状态序列:对于待生成的预测状态序列中的目标位置,获取解码器的隐藏层在解码得出目标位置的上一个位置的预测状态后的状态,作为解码器的当前隐状态;基于当前隐状态计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度;基于匹配度计算各输入隐状态对目标位置的预测状态的注意力权重;对各输入隐状态按照注意力权重进行加权求和得到上下文向量;基于上下文向量、输出隐状态序列中目标位置的上一个位置的输出隐状态、以及解码器的隐藏层在解码目标位置的预测状态时的状态,计算出目标位置的预测状态的概率分布;根据概率分布,确定出目标位置的预测状态。
在进一步的实施例中,训练单元503可以进一步用于按照如下方式计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度:对当前隐状态和输入隐状态进行第一非线性变换,得到输入隐状态与目标位置的预测状态之间的匹配度。
在进一步的实施例中,训练单元503可以进一步用于按照如下方式计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度:基于当前隐状态计算目标位置对应的覆盖向量,覆盖向量用于记录样本语句中已被提取的信息;对当前隐状态、输入隐状态以及目标位置的上一个位置对应的覆盖向量进行第二非线性变换,得到输入隐状态与目标位置的预测状态之间的匹配度。
在进一步的实施例中,训练单元503还可以用于在基于当前隐状态计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度之前执行如下操作:采用自然语言处理装置提取样本语句中的语义依存关系树;对语义依存关系树中的每一条边添加一条反向边,构成路径查找图;在路径查找图中查找输入序列中任意两个对象之间的语义路径,并将该语义路径编码为语义向量;对语义向量进行变换得到语义依存关系注意力向量。并且,训练单元503可以用于按照如下方式计算输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度:基于当前隐状态、输入隐状态以及语义依存关系注意力向量进行第三非线性变换,得到输入隐状态与目标位置的预测状态之间的匹配度。
在一些实施例中,上述目标位置的预测状态的概率可以为:从对应的样本语句中拷贝一个词语作为输出序列中的一个对象的概率与从预设符号集合中选择出一个目标符号并将目标符号所表征的对象作为输出序列中的一个对象的概率之和;预设符号集合中的符号用于与样本语句中的词语联合,以完整表征样本语句中的以下知识中的一项:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识。
在进一步的实施例中,上述预设符号集合中的符号可以包括:用于表征语句中分离的谓词的符号;用于表征语句中以缩减表达式表达的知识中被缩减的信息的符号;用于表征语句中的隐含知识的符号;用于表征语句中的缺失信息的符号。
本申请实施例的用于抽取信息的装置500,获取单元获取已标注的语料库,已标注的语料库包括多条样本语句以及与各样本语句对应的已标注信息集合;构造单元分别基于已标注的语料库中的样本语句和各样本语句对应的已标注信息集合构造输入序列以及对应的输出序列;训练单元利用深度学习方法训练得出由输入序列生成输出序列的信息抽取模型;抽取单元将待处理语句输入已生成的信息抽取模型,以抽取出待处理语句所包含的知识信息集合;其中,已标注信息集合包括将从对应的样本语句中抽取出的以下至少一种知识按照预设规则规范化后的信息:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识;实现了利用一个信息抽取模型提取多种不同类型的知识信息,提升了信息抽取效率,而且基于深度学习方法训练得出的模型能够适应自然语言的表达的多样性和灵活性,避免了规则的局限性所造成的偏差,可以提升信息抽取的准确率和召回率。
应当理解,装置500中记载的诸单元可以与参考图2和图3描述的用于抽取信息的方法中的各个步骤相对应。由此,上文针对用于抽取信息的方法描述的操作和特征同样适用于装置500及其中包含的单元,在此不再赘述。
下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。图6示出的终端设备或服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、构造单元、训练单元和抽取单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取已标注的语料库的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取已标注的语料库,所述已标注的语料库包括多条样本语句以及与各样本语句对应的已标注信息集合;分别基于所述已标注的语料库中的样本语句和各所述样本语句对应的已标注信息集合构造输入序列以及对应的输出序列;利用深度学习方法训练得出由所述输入序列生成所述输出序列的信息抽取模型;将待处理语句输入已生成的信息抽取模型,以抽取出所述待处理语句所包含的知识信息集合;其中,所述已标注信息集合包括将从对应的样本语句中抽取出的以下至少一种知识按照预设规则规范化后的信息:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (18)
1.一种用于抽取信息的方法,其特征在于,所述方法包括:
获取已标注的语料库,所述已标注的语料库包括多条样本语句以及与各样本语句对应的已标注信息集合;
分别基于所述已标注的语料库中的样本语句和各所述样本语句对应的已标注信息集合构造输入序列以及对应的输出序列;
利用深度学习方法训练得出由所述输入序列生成所述输出序列的信息抽取模型;
将待处理语句输入已生成的信息抽取模型,以抽取出所述待处理语句所包含的知识信息集合;
其中,所述已标注信息集合包括将从对应的样本语句中抽取出的以下至少一种知识按照预设规则规范化后的信息:
基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识;其中,所述预设规则是预先定义的采用符号协助的对样本语句中的各类型知识的表达方式。
2.根据权利要求1所述的方法,其特征在于,所述利用深度学习方法训练得出由所述输入序列生成所述输出序列的信息抽取模型,包括:
对所述输入序列中的各对象和所述输出序列中的各已标注信息进行向量化处理;
构建所述信息抽取模型的神经网络,所述信息抽取模型的神经网络包括编码器和解码器;
利用所述编码器将向量化处理后的输入序列映射为输入隐状态序列,利用所述解码器将所述输出序列映射为输出隐状态序列;
利用解码器对所述输入隐状态序列进行解码,得到预测状态序列;
根据所述预测状态序列与所述输出隐状态序列的差异调整所述神经网络的参数。
3.根据权利要求2所述的方法,其特征在于,所述利用解码器对所述输入隐状态序列进行解码,得到预测状态序列,包括:
对于待生成的预测状态序列中的目标位置,获取所述解码器的隐藏层在解码得出所述目标位置的上一个位置的预测状态后的状态,作为所述解码器的当前隐状态;
基于所述当前隐状态计算所述输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度;
基于匹配度计算各所述输入隐状态对所述目标位置的预测状态的注意力权重;
对各所述输入隐状态按照所述注意力权重进行加权求和得到上下文向量;
基于所述上下文向量、所述输出隐状态序列中目标位置的上一个位置的输出隐状态、以及所述解码器的隐藏层在解码所述目标位置的预测状态时的状态,计算出所述目标位置的预测状态的概率分布;
根据所述概率分布,确定出所述目标位置的预测状态。
4.根据权利要求3所述的方法,其特征在于,所述基于所述当前隐状态计算所述输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度,包括:
对所述当前隐状态和所述输入隐状态进行第一非线性变换,得到所述输入隐状态与所述目标位置的预测状态之间的匹配度。
5.根据权利要求3所述的方法,其特征在于,所述基于所述当前隐状态计算所述输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度,包括:
基于所述当前隐状态计算所述目标位置对应的覆盖向量,所述覆盖向量用于记录所述样本语句中已被提取的信息;
对所述当前隐状态、所述输入隐状态以及所述目标位置的上一个位置对应的覆盖向量进行第二非线性变换,得到所述输入隐状态与所述目标位置的预测状态之间的匹配度。
6.根据权利要求3或4所述的方法,其特征在于,在基于所述当前隐状态计算所述输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度之前,所述利用解码器对所述输入隐状态序列进行解码,得到预测状态序列,还包括:
采用自然语言处理方法提取所述样本语句中的语义依存关系树;
对所述语义依存关系树中的每一条边添加一条反向边,构成路径查找图;
在路径查找图中查找所述输入序列中任意两个对象之间的语义路径,并将该语义路径编码为语义向量;
对所述语义向量进行变换得到语义依存关系注意力向量;
所述基于所述当前隐状态计算所述输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度,包括:
基于所述当前隐状态、所述输入隐状态以及所述语义依存关系注意力向量进行第三非线性变换,得到所述输入隐状态与所述目标位置的预测状态之间的匹配度。
7.根据权利要求3所述的方法,其特征在于,所述目标位置的预测状态的概率为:从对应的样本语句中拷贝一个词语作为所述输出序列中的一个对象的概率与从预设符号集合中选择出一个目标符号并将目标符号所表征的对象作为所述输出序列中的一个对象的概率之和;
所述预设符号集合中的符号用于与所述样本语句中的词语联合,以完整表征所述样本语句中的以下知识中的一项:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识。
8.根据权利要求7所述的方法,其特征在于,所述预设符号集合中的符号包括:
用于表征语句中分离的谓词的符号;
用于表征语句中以缩减表达式表达的知识中被缩减的信息的符号;
用于表征语句中的隐含知识的符号;
用于表征语句中的缺失信息的符号。
9.一种用于抽取信息的装置,其特征在于,所述装置包括:
获取单元,用于获取已标注的语料库,所述已标注的语料库包括多条样本语句以及与各样本语句对应的已标注信息集合;
构造单元,用于分别基于所述已标注的语料库中的样本语句和各所述样本语句对应的已标注信息集合构造输入序列以及对应的输出序列;
训练单元,用于利用深度学习装置训练得出由所述输入序列生成所述输出序列的信息抽取模型;
抽取单元,用于将待处理语句输入已生成的信息抽取模型,以抽取出所述待处理语句所包含的知识信息集合;
其中,所述已标注信息集合包括将从对应的样本语句中抽取出的以下至少一种知识按照预设规则规范化后的信息:
基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识;其中,所述预设规则是预先定义的采用符号协助的对样本语句中的各类型知识的表达方式。
10.根据权利要求9所述的装置,其特征在于,所述训练单元进一步用于按照如下方式训练得出由所述输入序列生成所述输出序列的信息抽取模型:
对所述输入序列中的各对象和所述输出序列中的各已标注信息进行向量化处理;
构建所述信息抽取模型的神经网络,所述信息抽取模型的神经网络包括编码器和解码器;
利用所述编码器将向量化处理后的输入序列映射为输入隐状态序列,利用所述解码器将所述输出序列映射为输出隐状态序列;
利用解码器对所述输入隐状态序列进行解码,得到预测状态序列;
根据所述预测状态序列与所述输出隐状态序列的差异调整所述神经网络的参数。
11.根据权利要求10所述的装置,其特征在于,所述训练单元进一步用于按照如下方式得到预测状态序列:
对于待生成的预测状态序列中的目标位置,获取所述解码器的隐藏层在解码得出所述目标位置的上一个位置的预测状态后的状态,作为所述解码器的当前隐状态;
基于所述当前隐状态计算所述输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度;
基于匹配度计算各所述输入隐状态对所述目标位置的预测状态的注意力权重;
对各所述输入隐状态按照所述注意力权重进行加权求和得到上下文向量;
基于所述上下文向量、所述输出隐状态序列中目标位置的上一个位置的输出隐状态、以及所述解码器的隐藏层在解码所述目标位置的预测状态时的状态,计算出所述目标位置的预测状态的概率分布;
根据所述概率分布,确定出所述目标位置的预测状态。
12.根据权利要求11所述的装置,其特征在于,所述训练单元进一步用于按照如下方式计算所述输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度:
对所述当前隐状态和所述输入隐状态进行第一非线性变换,得到所述输入隐状态与所述目标位置的预测状态之间的匹配度。
13.根据权利要求11所述的装置,其特征在于,所述训练单元进一步用于按照如下方式计算所述输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度:
基于所述当前隐状态计算所述目标位置对应的覆盖向量,所述覆盖向量用于记录所述样本语句中已被提取的信息;
对所述当前隐状态、所述输入隐状态以及所述目标位置的上一个位置对应的覆盖向量进行第二非线性变换,得到所述输入隐状态与所述目标位置的预测状态之间的匹配度。
14.根据权利要求11或12所述的装置,其特征在于,所述训练单元还用于在基于所述当前隐状态计算所述输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度之前执行如下操作:
采用自然语言处理装置提取所述样本语句中的语义依存关系树;
对所述语义依存关系树中的每一条边添加一条反向边,构成路径查找图;
在路径查找图中查找所述输入序列中任意两个对象之间的语义路径,并将该语义路径编码为语义向量;
对所述语义向量进行变换得到语义依存关系注意力向量;
所述训练单元用于按照如下方式计算所述输入隐状态序列中各输入隐状态与待生成的预测状态序列中目标位置的预测状态之间的匹配度:
基于所述当前隐状态、所述输入隐状态以及所述语义依存关系注意力向量进行第三非线性变换,得到所述输入隐状态与所述目标位置的预测状态之间的匹配度。
15.根据权利要求11所述的装置,其特征在于,所述目标位置的预测状态的概率为:从对应的样本语句中拷贝一个词语作为所述输出序列中的一个对象的概率与从预设符号集合中选择出一个目标符号并将目标符号所表征的对象作为所述输出序列中的一个对象的概率之和;
所述预设符号集合中的符号用于与所述样本语句中的词语联合,以完整表征所述样本语句中的以下知识中的一项:基于动词或介词的知识、基于名词属性的知识、实体的描述知识以及实体与概念的关系知识。
16.根据权利要求15所述的装置,其特征在于,所述预设符号集合中的符号包括:
用于表征语句中分离的谓词的符号;
用于表征语句中以缩减表达式表达的知识中被缩减的信息的符号;
用于表征语句中的隐含知识的符号;
用于表征语句中的缺失信息的符号。
17.一种设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710996056.0A CN107783960B (zh) | 2017-10-23 | 2017-10-23 | 用于抽取信息的方法、装置和设备 |
US15/829,677 US11288593B2 (en) | 2017-10-23 | 2017-12-01 | Method, apparatus and device for extracting information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710996056.0A CN107783960B (zh) | 2017-10-23 | 2017-10-23 | 用于抽取信息的方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107783960A CN107783960A (zh) | 2018-03-09 |
CN107783960B true CN107783960B (zh) | 2021-07-23 |
Family
ID=61435072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710996056.0A Active CN107783960B (zh) | 2017-10-23 | 2017-10-23 | 用于抽取信息的方法、装置和设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11288593B2 (zh) |
CN (1) | CN107783960B (zh) |
Families Citing this family (159)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11501168B2 (en) * | 2018-02-09 | 2022-11-15 | Google Llc | Learning longer-term dependencies in neural network using auxiliary losses |
CN108509413A (zh) * | 2018-03-08 | 2018-09-07 | 平安科技(深圳)有限公司 | 文摘自动提取方法、装置、计算机设备及存储介质 |
CN110334266A (zh) * | 2018-03-13 | 2019-10-15 | 优酷网络技术(北京)有限公司 | 观点提取方法及装置 |
CN110309407A (zh) * | 2018-03-13 | 2019-10-08 | 优酷网络技术(北京)有限公司 | 观点提取方法及装置 |
CN108959375A (zh) * | 2018-05-24 | 2018-12-07 | 南京网感至察信息科技有限公司 | 一种基于规则与深度学习的知识抽取方法 |
CN110580285B (zh) * | 2018-06-08 | 2021-09-24 | 北京三快在线科技有限公司 | 一种产品标签确定方法及装置,电子设备 |
CN108733359B (zh) * | 2018-06-14 | 2020-12-25 | 北京航空航天大学 | 一种软件程序的自动生成方法 |
CN109062937B (zh) * | 2018-06-15 | 2019-11-26 | 北京百度网讯科技有限公司 | 训练描述文本生成模型的方法、生成描述文本的方法及装置 |
CN110737758B (zh) * | 2018-07-03 | 2022-07-05 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN110147538B (zh) * | 2018-07-05 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 图片集描述生成方法、装置和计算机设备 |
CN109062893B (zh) * | 2018-07-13 | 2021-09-21 | 华南理工大学 | 一种基于全文注意力机制的商品名称识别方法 |
CN109063772B (zh) * | 2018-08-02 | 2022-05-10 | 广东工业大学 | 一种基于深度学习的图像个性化语义分析方法、装置及设备 |
CN109034378B (zh) | 2018-09-04 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 神经网络的网络表示生成方法、装置、存储介质和设备 |
CN109189848B (zh) * | 2018-09-19 | 2023-05-30 | 平安科技(深圳)有限公司 | 知识数据的抽取方法、系统、计算机设备和存储介质 |
CN109359297B (zh) * | 2018-09-20 | 2020-06-09 | 清华大学 | 一种关系抽取方法及系统 |
CN110990578A (zh) * | 2018-09-30 | 2020-04-10 | 北京奇虎科技有限公司 | 一种改写模型的构建方法及装置 |
US20200111054A1 (en) * | 2018-10-03 | 2020-04-09 | International Business Machines Corporation | Automated claims auditing |
CN109446519B (zh) * | 2018-10-10 | 2020-05-22 | 西安交通大学 | 一种融合数据类别信息的文本特征提取方法 |
CN109408630B (zh) * | 2018-10-17 | 2021-10-29 | 杭州世平信息科技有限公司 | 一种根据犯罪事实的描述自动生成法院观点的方法 |
US11625573B2 (en) * | 2018-10-29 | 2023-04-11 | International Business Machines Corporation | Relation extraction from text using machine learning |
CN109460551B (zh) * | 2018-10-29 | 2023-04-18 | 北京知道创宇信息技术股份有限公司 | 签名信息提取方法及装置 |
CN109740145A (zh) * | 2018-11-30 | 2019-05-10 | 平安科技(深圳)有限公司 | 歌词智能生成方法、装置、存储介质和计算机设备 |
CN109815846B (zh) * | 2018-12-29 | 2021-08-27 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质和电子装置 |
CN110020424B (zh) * | 2019-01-04 | 2023-10-31 | 创新先进技术有限公司 | 合同信息的提取方法、装置和文本信息的提取方法 |
CN111415747B (zh) * | 2019-01-07 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 电子病历的构建方法及装置 |
CN111476257A (zh) * | 2019-01-24 | 2020-07-31 | 富士通株式会社 | 信息处理方法和信息处理装置 |
CN109902273B (zh) * | 2019-01-30 | 2024-05-07 | 平安科技(深圳)有限公司 | 关键词生成模型的建模方法和装置 |
US10891427B2 (en) * | 2019-02-07 | 2021-01-12 | Adobe Inc. | Machine learning techniques for generating document summaries targeted to affective tone |
CN111666416B (zh) * | 2019-03-08 | 2023-06-16 | 百度在线网络技术(北京)有限公司 | 用于生成语义匹配模型的方法和装置 |
CN109994103A (zh) * | 2019-03-26 | 2019-07-09 | 北京博瑞彤芸文化传播股份有限公司 | 一种智能语义匹配模型的训练方法 |
US12032920B2 (en) * | 2019-03-29 | 2024-07-09 | Google Llc | Direct speech-to-speech translation via machine learning |
CN110059314B (zh) * | 2019-04-08 | 2023-04-25 | 东南大学 | 一种基于增强学习的关系抽取方法 |
US11295077B2 (en) * | 2019-04-08 | 2022-04-05 | International Business Machines Corporation | Stratification of token types for domain-adaptable question answering systems |
CN110083836B (zh) * | 2019-04-24 | 2021-07-06 | 哈尔滨工业大学 | 一种文本预测结果的关键证据抽取方法 |
CN110070867B (zh) * | 2019-04-26 | 2022-03-11 | 珠海普林芯驰科技有限公司 | 语音指令识别方法、计算机装置及计算机可读存储介质 |
CN110210041B (zh) * | 2019-05-23 | 2023-04-18 | 北京百度网讯科技有限公司 | 互译句对齐方法、装置及设备 |
CN112036186A (zh) * | 2019-06-04 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 语料标注方法、装置、计算机存储介质及电子设备 |
CN110209589B (zh) * | 2019-06-05 | 2022-11-18 | 北京百度网讯科技有限公司 | 知识库系统测试方法、装置、设备和介质 |
CN111859977B (zh) * | 2019-06-06 | 2024-06-07 | 北京嘀嘀无限科技发展有限公司 | 一种语义分析方法、装置、电子设备及存储介质 |
CN110309263B (zh) * | 2019-06-06 | 2021-12-17 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于语义的工作属性文本内容冲突判断方法及装置 |
CN110263340B (zh) * | 2019-06-20 | 2023-05-23 | 北京百度网讯科技有限公司 | 评论生成方法、装置、服务器及存储介质 |
CN111797622B (zh) * | 2019-06-20 | 2024-04-09 | 北京沃东天骏信息技术有限公司 | 用于生成属性信息的方法和装置 |
US11410667B2 (en) * | 2019-06-28 | 2022-08-09 | Ford Global Technologies, Llc | Hierarchical encoder for speech conversion system |
CN110413995B (zh) * | 2019-07-03 | 2022-12-23 | 北京信息科技大学 | 一种基于双向mgu神经网络的关系抽取方法 |
CN110415022B (zh) * | 2019-07-05 | 2023-08-18 | 创新先进技术有限公司 | 处理用户行为序列的方法及装置 |
US11263400B2 (en) | 2019-07-05 | 2022-03-01 | Google Llc | Identifying entity attribute relations |
CN110309514B (zh) * | 2019-07-09 | 2023-07-11 | 北京金山数字娱乐科技有限公司 | 一种语义识别方法及装置 |
CN110502748B (zh) * | 2019-07-19 | 2024-02-02 | 平安科技(深圳)有限公司 | 文本主题抽取方法、装置及计算机可读存储介质 |
CN110458162B (zh) * | 2019-07-25 | 2023-06-23 | 上海兑观信息科技技术有限公司 | 一种智能提取图像文字信息的方法 |
CN110619420B (zh) * | 2019-07-31 | 2022-04-08 | 广东工业大学 | 一种基于Attention-GRU的短期住宅负荷预测方法 |
CN110598846B (zh) * | 2019-08-15 | 2022-05-03 | 北京航空航天大学 | 一种层级递归神经网络解码器及解码方法 |
CN110580339B (zh) * | 2019-08-21 | 2023-04-07 | 华东理工大学 | 一种医疗术语知识库完善的方法和装置 |
CN110633467B (zh) * | 2019-08-29 | 2023-04-07 | 中国人民解放军国防科技大学 | 一种基于改进特征融合的语义关系抽取方法 |
CN110674642B (zh) * | 2019-08-29 | 2023-04-18 | 中国人民解放军国防科技大学 | 一种用于含噪稀疏文本的语义关系抽取方法 |
CN110797012B (zh) * | 2019-08-30 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 一种信息提取方法、设备及存储介质 |
CN110825881B (zh) * | 2019-09-26 | 2024-04-12 | 中国电力科学研究院有限公司 | 一种建立电力知识图谱的方法 |
US11442794B1 (en) * | 2019-09-27 | 2022-09-13 | Amazon Technologies, Inc. | Event assignment for synchronization of concurrent execution engines |
CN110633476B (zh) * | 2019-09-27 | 2024-04-05 | 北京百度网讯科技有限公司 | 用于获取知识标注信息的方法及装置 |
CN112668332A (zh) * | 2019-09-30 | 2021-04-16 | 北京国双科技有限公司 | 一种三元组抽取方法、装置、设备及存储介质 |
CN112784575B (zh) * | 2019-10-22 | 2023-06-30 | 北京四维图新科技股份有限公司 | 语句的处理方法及装置 |
CN112699296B (zh) * | 2019-10-23 | 2023-10-24 | 百度在线网络技术(北京)有限公司 | 投放信息的创意内容生成方法、装置、设备和介质 |
CN110727768B (zh) * | 2019-10-24 | 2022-10-11 | 中国科学院计算技术研究所 | 一种候选回答语句生成和自然语言选择方法及系统 |
CN110765240B (zh) * | 2019-10-31 | 2023-06-20 | 中国科学技术大学 | 多相关句子对的语义匹配评估方法 |
CN111753495B (zh) * | 2019-11-07 | 2024-07-19 | 北京沃东天骏信息技术有限公司 | 意图语句预测模型构建方法及装置、设备及存储介质 |
CN110851650B (zh) * | 2019-11-11 | 2023-11-28 | 腾讯科技(深圳)有限公司 | 一种评论输出方法、装置、以及计算机存储介质 |
CN110968708A (zh) * | 2019-12-20 | 2020-04-07 | 华中师范大学 | 一种教育信息资源属性标注方法及系统 |
CN111159377B (zh) * | 2019-12-30 | 2023-06-30 | 深圳追一科技有限公司 | 属性召回模型训练方法、装置、电子设备以及存储介质 |
CN111143691B (zh) * | 2019-12-31 | 2023-04-18 | 四川长虹电器股份有限公司 | 一种联合信息抽取方法及装置 |
CN111221958B (zh) * | 2020-01-08 | 2024-03-15 | 北京小米松果电子有限公司 | 一种训练藏字诗生成模型的方法、藏字诗生成方法及装置 |
CN111241826B (zh) * | 2020-01-09 | 2023-07-25 | 深圳前海微众银行股份有限公司 | 实体名称识别方法、装置、设备及存储介质 |
CN111241242B (zh) * | 2020-01-09 | 2023-05-30 | 北京百度网讯科技有限公司 | 目标内容的确定方法、装置、设备及计算机可读存储介质 |
CN111241302B (zh) * | 2020-01-15 | 2023-09-15 | 北京百度网讯科技有限公司 | 职位信息图谱生成方法、装置、设备和介质 |
CN111256684A (zh) * | 2020-01-18 | 2020-06-09 | 杭州电子科技大学 | 一种基于多层门控循环单元网络的地磁室内定位方法 |
CN111310472B (zh) * | 2020-01-19 | 2024-02-09 | 合肥讯飞数码科技有限公司 | 别名生成方法、装置和设备 |
KR20210097588A (ko) * | 2020-01-30 | 2021-08-09 | 삼성전자주식회사 | 컨텍스트 정보와 대응되는 문장을 획득하는 전자 장치 및 그 동작 방법 |
CN113282758A (zh) * | 2020-02-19 | 2021-08-20 | 复旦大学 | 政府治理领域下融合主题知识的深度关系抽取方法 |
CN111401003B (zh) * | 2020-03-11 | 2022-05-03 | 四川大学 | 一种外部知识增强的幽默文本生成方法 |
CN111460833B (zh) * | 2020-04-01 | 2023-08-25 | 合肥讯飞数码科技有限公司 | 文本生成方法、装置和设备 |
CN111581358B (zh) * | 2020-04-08 | 2023-08-18 | 北京百度网讯科技有限公司 | 信息抽取方法、装置及电子设备 |
CN111626056B (zh) * | 2020-04-11 | 2023-04-07 | 中国人民解放军战略支援部队信息工程大学 | 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置 |
CN113536803B (zh) * | 2020-04-13 | 2024-08-13 | 京东方科技集团股份有限公司 | 文本信息处理装置及方法、计算机设备及可读存储介质 |
CN111666759B (zh) * | 2020-04-17 | 2024-03-26 | 北京百度网讯科技有限公司 | 文本的关键信息的抽取方法、装置、电子设备及存储介质 |
CN111506725B (zh) * | 2020-04-17 | 2021-06-22 | 北京百度网讯科技有限公司 | 生成摘要的方法和装置 |
CN111522928B (zh) * | 2020-04-20 | 2023-06-23 | 北京百度网讯科技有限公司 | 一种知识抽取方法、装置、设备和介质 |
CN111858911B (zh) * | 2020-04-21 | 2024-11-05 | 北京嘀嘀无限科技发展有限公司 | 工单描述信息的生成方法、装置、电子设备及存储介质 |
CN111460136B (zh) * | 2020-04-22 | 2022-10-14 | 南京邮电大学 | 一种面向网络知识问答社区的自动答案摘要方法 |
CN111581929B (zh) * | 2020-04-22 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 基于表格的文本生成方法及相关装置 |
CN111666418B (zh) * | 2020-04-23 | 2024-01-16 | 北京三快在线科技有限公司 | 文本重生成方法、装置、电子设备和计算机可读介质 |
CN111666372B (zh) * | 2020-04-29 | 2023-08-18 | 百度在线网络技术(北京)有限公司 | 解析查询词query的方法、装置、电子设备和可读存储介质 |
CN111597420B (zh) * | 2020-04-29 | 2023-06-02 | 西安理工大学 | 基于深度学习的轨道交通规范关系抽取方法 |
CN111651528A (zh) * | 2020-05-11 | 2020-09-11 | 北京理工大学 | 基于生成式对抗网络的开放式实体关系抽取方法 |
CN111581954B (zh) * | 2020-05-15 | 2023-06-09 | 中国人民解放军国防科技大学 | 一种基于语法依存信息的文本事件抽取方法及装置 |
CN111737383B (zh) * | 2020-05-21 | 2021-11-23 | 百度在线网络技术(北京)有限公司 | 提取地理位置点空间关系的方法、训练提取模型的方法及装置 |
CN113743116B (zh) * | 2020-05-28 | 2024-08-02 | 株式会社理光 | 命名实体识别的训练方法、装置及计算机可读存储介质 |
CN111737453B (zh) * | 2020-05-29 | 2024-04-02 | 南京硅基智能科技有限公司 | 一种基于无监督的多模型融合抽取式文本摘要方法 |
CN111680803B (zh) * | 2020-06-02 | 2023-09-01 | 中国电力科学研究院有限公司 | 一种运检工作票生成系统 |
CN111680804B (zh) * | 2020-06-02 | 2023-09-01 | 中国电力科学研究院有限公司 | 一种运检工作票生成方法、设备以及计算机可读介质 |
CN111651994B (zh) * | 2020-06-03 | 2023-09-19 | 浙江同花顺智能科技有限公司 | 一种信息抽取方法、装置、电子设备和存储介质 |
CN111611561B (zh) * | 2020-06-09 | 2022-09-06 | 中国电子科技集团公司第二十八研究所 | 一种面向边缘分级用户的认证授权统一管控方法 |
CN111695053A (zh) * | 2020-06-12 | 2020-09-22 | 上海智臻智能网络科技股份有限公司 | 序列标注方法、数据处理设备、可读存储介质 |
CN113822016B (zh) * | 2020-06-19 | 2024-03-22 | 阿里巴巴集团控股有限公司 | 文本数据处理方法、装置、电子设备及可读存储介质 |
CN111967256B (zh) * | 2020-06-30 | 2023-08-04 | 北京百度网讯科技有限公司 | 事件关系的生成方法、装置、电子设备和存储介质 |
CN113919290A (zh) * | 2020-07-09 | 2022-01-11 | 中国科学院上海药物研究所 | 一种用于有机化合物的化学结构和命名双向自动转化的处理方法及装置 |
CN111814487B (zh) * | 2020-07-17 | 2024-05-31 | 科大讯飞股份有限公司 | 一种语义理解方法、装置、设备及存储介质 |
CN112100320B (zh) * | 2020-07-23 | 2023-09-26 | 安徽米度智能科技有限公司 | 一种术语生成方法、装置及存储介质 |
CN111898339B (zh) * | 2020-07-28 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 基于约束解码的古诗生成方法、装置、设备及介质 |
CN111651589B (zh) * | 2020-08-10 | 2020-10-30 | 中南民族大学 | 一种针对长文档的两阶段文本摘要生成方法 |
CN111914545B (zh) * | 2020-08-18 | 2024-07-05 | 科大讯飞股份有限公司 | 一种拟人句识别方法、装置、设备及存储介质 |
CN111914562B (zh) * | 2020-08-21 | 2022-10-14 | 腾讯科技(深圳)有限公司 | 电子信息分析方法、装置、设备及可读存储介质 |
CN111968624B (zh) * | 2020-08-24 | 2024-02-09 | 平安科技(深圳)有限公司 | 数据构建方法、装置、电子设备及存储介质 |
CN112101592A (zh) * | 2020-09-08 | 2020-12-18 | 中国电力科学研究院有限公司 | 电力二次设备缺陷诊断方法、系统、设备及存储介质 |
CN112257441B (zh) * | 2020-09-15 | 2024-04-05 | 浙江大学 | 一种基于反事实生成的命名实体识别增强方法 |
CN112101036A (zh) * | 2020-09-22 | 2020-12-18 | 山东旗帜信息有限公司 | 一种基于预定义关系的知识联合抽取的方法及装置 |
US11868730B2 (en) * | 2020-09-23 | 2024-01-09 | Jingdong Digits Technology Holding Co., Ltd. | Method and system for aspect-level sentiment classification by graph diffusion transformer |
US20220092413A1 (en) * | 2020-09-23 | 2022-03-24 | Beijing Wodong Tianjun Information Technology Co., Ltd. | Method and system for relation learning by multi-hop attention graph neural network |
CN112364650A (zh) * | 2020-09-30 | 2021-02-12 | 深圳市罗湖区人民医院 | 一种实体关系联合抽取方法、终端以及存储介质 |
CN112148894B (zh) * | 2020-09-30 | 2024-01-26 | 武汉大学 | 一种基于深度学习和定性空间推理的泛在道路信息定位方法 |
CN112417116B (zh) * | 2020-11-18 | 2022-03-15 | 四川长虹电器股份有限公司 | 一种基于少样本语料的问句理解模型训练方法和系统 |
CN112395880B (zh) * | 2020-11-19 | 2022-02-11 | 平安科技(深圳)有限公司 | 结构化三元组的纠错方法、装置、计算机设备及存储介质 |
CN112784602B (zh) * | 2020-12-03 | 2024-06-14 | 南京理工大学 | 基于远程监督的新闻情感实体抽取方法 |
CN112463989B (zh) * | 2020-12-11 | 2024-09-10 | 交控科技股份有限公司 | 一种基于知识图谱的信息获取方法及系统 |
CN112446215B (zh) * | 2020-12-14 | 2024-03-22 | 云南电网有限责任公司电力科学研究院 | 一种实体关系联合抽取方法 |
CN112597296B (zh) * | 2020-12-17 | 2022-11-08 | 中山大学 | 一种基于计划机制和知识图谱引导的摘要生成方法 |
CN112434165B (zh) * | 2020-12-17 | 2023-11-07 | 广州视源电子科技股份有限公司 | 一种古诗词分类方法、装置、终端设备及存储介质 |
CN114648415A (zh) * | 2020-12-18 | 2022-06-21 | 苏州国双软件有限公司 | 管道完整性管理方案的生成方法及装置 |
CN112667808A (zh) * | 2020-12-23 | 2021-04-16 | 沈阳新松机器人自动化股份有限公司 | 一种基于bert模型的关系抽取方法及其系统 |
CN112613315B (zh) * | 2020-12-29 | 2024-06-07 | 重庆农村商业银行股份有限公司 | 一种文本知识自动抽取方法、装置、设备及存储介质 |
CN112883693B (zh) * | 2021-02-23 | 2023-05-05 | 国网福建省电力有限公司 | 一种自动生成电力工作票的方法及终端 |
CN112800776B (zh) * | 2021-03-10 | 2023-04-18 | 湖北工业大学 | 双向gru关系抽取数据处理方法、系统、终端、介质 |
CN112989042B (zh) * | 2021-03-15 | 2024-03-15 | 平安科技(深圳)有限公司 | 热点话题的提取方法、装置、计算机设备及存储介质 |
CN113158671B (zh) * | 2021-03-25 | 2023-08-11 | 胡明昊 | 一种结合命名实体识别的开放域信息抽取方法 |
CN112949320B (zh) * | 2021-03-30 | 2024-06-11 | 平安科技(深圳)有限公司 | 基于条件随机场的序列标注方法、装置、设备及介质 |
CN113204611A (zh) * | 2021-04-06 | 2021-08-03 | 北京百度网讯科技有限公司 | 建立阅读理解模型的方法、阅读理解方法及对应装置 |
CN113158658B (zh) * | 2021-04-26 | 2023-09-19 | 中国电子科技集团公司第二十八研究所 | 一种基于知识嵌入的结构化管制指令提取方法 |
CN113268595B (zh) * | 2021-05-24 | 2022-09-06 | 中国电子科技集团公司第二十八研究所 | 一种基于实体关系抽取的结构化机场警报处理方法 |
CN113254581B (zh) * | 2021-05-25 | 2022-08-19 | 深圳市图灵机器人有限公司 | 一种基于神经语义解析的金融文本公式抽取方法及装置 |
CN113392648B (zh) * | 2021-06-02 | 2022-10-18 | 北京三快在线科技有限公司 | 实体关系获取方法及装置 |
CN113420149A (zh) * | 2021-06-30 | 2021-09-21 | 北京百度网讯科技有限公司 | 数据的标注方法和装置 |
CN113468330B (zh) * | 2021-07-06 | 2023-04-28 | 北京有竹居网络技术有限公司 | 信息获取方法、装置、设备及介质 |
CN113515951B (zh) * | 2021-07-19 | 2022-07-05 | 同济大学 | 基于知识增强注意力网络和组级语义的故事描述生成方法 |
CN113761875B (zh) * | 2021-07-21 | 2022-12-06 | 中国科学院自动化研究所 | 事件抽取方法、装置、电子设备及存储介质 |
CN113486167B (zh) * | 2021-07-26 | 2024-04-16 | 科大讯飞股份有限公司 | 文本补全方法、装置、计算机设备和存储介质 |
CN113326380B (zh) * | 2021-08-03 | 2021-11-02 | 国能大渡河大数据服务有限公司 | 基于深度神经网络的设备量测数据处理方法、系统及终端 |
CN113609847B (zh) * | 2021-08-10 | 2023-10-27 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN113743064B (zh) * | 2021-09-10 | 2024-09-06 | 南通大学 | 基于决策的融合信息检索和深度学习的代码注释生成方法 |
CN113987195A (zh) * | 2021-09-29 | 2022-01-28 | 浙江大学 | 一种可微的挖掘常量规则的方法 |
CN114117061B (zh) * | 2021-10-27 | 2024-07-16 | 南京信息工程大学 | 基于数据挖掘和树状结构的河流相知识图谱反推方法 |
CN113761941B (zh) * | 2021-11-09 | 2022-02-08 | 华南师范大学 | 一种文本情感分析方法 |
US11431472B1 (en) | 2021-11-22 | 2022-08-30 | Morgan Stanley Services Group Inc. | Automated domain language parsing and data extraction |
CN114943276B (zh) * | 2022-04-16 | 2024-03-05 | 西北工业大学 | 基于树型注意力机制的深度知识追踪方法 |
CN114528418B (zh) * | 2022-04-24 | 2022-10-14 | 杭州同花顺数据开发有限公司 | 一种文本处理方法、系统和存储介质 |
CN114580424B (zh) * | 2022-04-24 | 2022-08-05 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
CN115080924B (zh) * | 2022-07-25 | 2022-11-15 | 南开大学 | 一种基于自然语言理解的软件许可证条款抽取方法 |
CN116484870B (zh) * | 2022-09-09 | 2024-01-05 | 北京百度网讯科技有限公司 | 提取文本信息的方法、装置、设备及介质 |
CN115587594B (zh) * | 2022-09-20 | 2023-06-30 | 广东财经大学 | 网络安全的非结构化文本数据抽取模型训练方法及系统 |
CN115374284B (zh) * | 2022-10-26 | 2023-04-07 | 江苏益柏锐信息科技有限公司 | 基于人工智能的数据挖掘方法及服务器 |
CN115757774B (zh) * | 2022-11-03 | 2024-09-24 | 中国电子技术标准化研究院 | 行业领域识别方法、装置、电子设备及存储介质 |
CN117852632A (zh) * | 2023-04-27 | 2024-04-09 | 深圳市中京政通科技有限公司 | 知识库运营服务系统和融合知识库管理方法 |
CN117556052A (zh) * | 2023-10-23 | 2024-02-13 | 国家电网有限公司信息通信分公司 | 一种基于轻量级预训练模型的云运维知识图谱构建方法 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8015143B2 (en) * | 2002-05-22 | 2011-09-06 | Estes Timothy W | Knowledge discovery agent system and method |
US8060357B2 (en) * | 2006-01-27 | 2011-11-15 | Xerox Corporation | Linguistic user interface |
US20100063797A1 (en) * | 2008-09-09 | 2010-03-11 | Microsoft Corporation | Discovering question and answer pairs |
US8332348B1 (en) * | 2009-07-10 | 2012-12-11 | United Services Automobile Association (Usaa) | Knowledge extraction and prediction |
US20130013680A1 (en) * | 2011-07-07 | 2013-01-10 | International Business Machines Corporation | System and method for determining interpersonal relationship influence information using textual content from interpersonal interactions |
US20130246435A1 (en) * | 2012-03-14 | 2013-09-19 | Microsoft Corporation | Framework for document knowledge extraction |
US9152623B2 (en) * | 2012-11-02 | 2015-10-06 | Fido Labs, Inc. | Natural language processing system and method |
US9244909B2 (en) * | 2012-12-10 | 2016-01-26 | General Electric Company | System and method for extracting ontological information from a body of text |
US10867597B2 (en) * | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
CN104021115A (zh) * | 2014-06-13 | 2014-09-03 | 北京理工大学 | 基于神经网络的中文比较句识别方法及装置 |
CN105447053A (zh) * | 2014-09-26 | 2016-03-30 | 北大方正集团有限公司 | 计算领域知识点的相关知识点的方法及系统 |
CN111291553B (zh) * | 2014-10-24 | 2023-11-21 | 谷歌有限责任公司 | 具有罕见词处理的神经机器翻译系统 |
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
US9792560B2 (en) * | 2015-02-17 | 2017-10-17 | Microsoft Technology Licensing, Llc | Training systems and methods for sequence taggers |
JP6725547B2 (ja) * | 2015-03-20 | 2020-07-22 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 人工ニューラルネットワークの関連性スコア割当て |
CN104794169B (zh) * | 2015-03-30 | 2018-11-20 | 明博教育科技有限公司 | 一种基于序列标注模型的学科术语抽取方法及系统 |
US10496749B2 (en) * | 2015-06-12 | 2019-12-03 | Satyanarayana Krishnamurthy | Unified semantics-focused language processing and zero base knowledge building system |
CN105138507A (zh) * | 2015-08-06 | 2015-12-09 | 电子科技大学 | 一种基于模式自学习的中文开放式关系抽取方法 |
US10019438B2 (en) * | 2016-03-18 | 2018-07-10 | International Business Machines Corporation | External word embedding neural network language models |
CN107220231A (zh) * | 2016-03-22 | 2017-09-29 | 索尼公司 | 用于自然语言处理的电子设备和方法以及训练方法 |
CN105894088B (zh) * | 2016-03-25 | 2018-06-29 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
CN105930314B (zh) * | 2016-04-14 | 2019-02-05 | 清华大学 | 基于编码-解码深度神经网络的文本摘要生成系统及方法 |
US9858263B2 (en) * | 2016-05-05 | 2018-01-02 | Conduent Business Services, Llc | Semantic parsing using deep neural networks for predicting canonical forms |
CN105903014A (zh) | 2016-05-05 | 2016-08-31 | 北京大学 | 一种基于纳秒脉冲电场的可高效促进纳米颗粒进入细胞的方法 |
US10855706B2 (en) * | 2016-10-11 | 2020-12-01 | Battelle Memorial Institute | System and methods for automated detection, reasoning and recommendations for resilient cyber systems |
US10963789B2 (en) * | 2016-11-28 | 2021-03-30 | Conduent Business Services, Llc | Long-term memory networks for knowledge extraction from text and publications |
US10109275B2 (en) * | 2016-12-19 | 2018-10-23 | Asapp, Inc. | Word hash language model |
CN106933804B (zh) * | 2017-03-10 | 2020-03-31 | 上海数眼科技发展有限公司 | 一种基于深度学习的结构化信息抽取方法 |
US10713289B1 (en) * | 2017-03-31 | 2020-07-14 | Amazon Technologies, Inc. | Question answering system |
CN106991085B (zh) * | 2017-04-01 | 2020-08-04 | 中国工商银行股份有限公司 | 一种实体的简称生成方法及装置 |
CN107133211B (zh) * | 2017-04-26 | 2020-06-16 | 中国人民大学 | 一种基于注意力机制的作文评分方法 |
US10733380B2 (en) * | 2017-05-15 | 2020-08-04 | Thomson Reuters Enterprise Center Gmbh | Neural paraphrase generator |
US10380259B2 (en) * | 2017-05-22 | 2019-08-13 | International Business Machines Corporation | Deep embedding for natural language content based on semantic dependencies |
-
2017
- 2017-10-23 CN CN201710996056.0A patent/CN107783960B/zh active Active
- 2017-12-01 US US15/829,677 patent/US11288593B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11288593B2 (en) | 2022-03-29 |
CN107783960A (zh) | 2018-03-09 |
US20190122145A1 (en) | 2019-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107783960B (zh) | 用于抽取信息的方法、装置和设备 | |
CN110737758B (zh) | 用于生成模型的方法和装置 | |
CN111090987B (zh) | 用于输出信息的方法和装置 | |
CN111444340B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN107273503B (zh) | 用于生成同语言平行文本的方法和装置 | |
US10599686B1 (en) | Method and system for extracting information from graphs | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN111930914B (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
CN111709240A (zh) | 实体关系抽取方法、装置、设备及其存储介质 | |
US20200342168A1 (en) | System and Method for Domain- and Language-Independent Definition Extraction Using Deep Neural Networks | |
CN111241828A (zh) | 情感智能识别方法、装置及计算机可读存储介质 | |
US10963647B2 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN114416995A (zh) | 信息推荐方法、装置及设备 | |
CN113421551B (zh) | 语音识别方法、装置、计算机可读介质及电子设备 | |
CN110826327A (zh) | 情感分析方法、装置、计算机可读介质及电子设备 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN114492661B (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
CN116894076A (zh) | 生成用于机器学习的基于用户的训练数据 | |
CN112307738B (zh) | 用于处理文本的方法和装置 | |
CN113901789A (zh) | 基于门控空洞卷积和图卷积的方面级情感分析方法及系统 | |
CN115827865A (zh) | 一种融合多特征图注意力机制的不良文本分类方法及系统 | |
Ling | Coronavirus public sentiment analysis with BERT deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |