CN108959312B - 一种多文档摘要生成的方法、装置和终端 - Google Patents
一种多文档摘要生成的方法、装置和终端 Download PDFInfo
- Publication number
- CN108959312B CN108959312B CN201710369694.XA CN201710369694A CN108959312B CN 108959312 B CN108959312 B CN 108959312B CN 201710369694 A CN201710369694 A CN 201710369694A CN 108959312 B CN108959312 B CN 108959312B
- Authority
- CN
- China
- Prior art keywords
- candidate
- candidate sentence
- importance
- phrase
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 239000013598 vector Substances 0.000 claims abstract description 99
- 239000011159 matrix material Substances 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 71
- 238000001914 filtration Methods 0.000 claims description 36
- 230000015654 memory Effects 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000003305 oil spill Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000031886 HIV Infections Diseases 0.000 description 1
- 208000037357 HIV infectious disease Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 208000033519 human immunodeficiency virus infectious disease Diseases 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种多文档摘要生成的方法、装置和终端,涉及数据处理领域,用以解决现有技术中生成的文档摘要中的冗余信息比较多的问题。包括:获取候选句子集合,候选句子集合中包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子;利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取每个候选句子的重要性,一个候选句子的重要性与预设网络模型输出的级联注意力机制矩阵中的一个行向量的模对应;根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合;将摘要短语集合按照预置组合方式组合为摘要句子,获取多篇候选文档的摘要。
Description
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种多文档摘要生成的方法、装置和终端。
背景技术
自动多文档摘要(Multi-Document Summarization,MDS)技术,以同一主题(例如,新闻事件)下的多篇候选文档作为输入,通过对多篇候选文档分析和加工,按照需要自动地生成特定长度摘要文本,以最大限度的描述新闻事件的中心思想,从而将新闻事件的重要信息快速、简洁的提取出来。
现有技术中,一种摘要生成的方法为:利用深度神经网络模型训练语料集获取特征词的词向量表示;在语料集中根据预设查询词得到候选句子集合;根据特征词的词向量表示得到候选句子集合中不同候选句子之间的语义相似性,从而得到两个候选句子之间的相似度,以构建句子图模型;在构建句子图模型后计算候选句子权重,最后利用最大边缘相关算法生成文档摘要。
然而,上述方法通过特征词的词向量表示来计算候选句子集合中不同候选句子的相似度,这样在特征词提取不准时会直接影响候选句子相似度的准确性,从而造成后续生成的文档摘要中的冗余信息比较多。
发明内容
本申请提供一种多文档摘要生成的方法、装置和终端,用以解决现有技术中生成的文档摘要中的冗余信息比较多的问题。
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请提供一种多文档摘要生成的方法,包括:获取候选句子集合,候选句子集合包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子;利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子进行训练,获得每个候选句子的重要性,一个候选句子的重要性与级联注意力机制矩阵中的一个行向量的模对应,级联注意力机制矩阵为预设网络模型利用无监督学习模型优化重建误差函数过程中输出的;候选句子的重要性用于表示该候选句子所表达的含义在多篇候选文档中的重要程度;根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合;根据摘要短语集合,获得多篇候选文档的摘要。
本发明实施例提供一种多文档摘要生成的方法,通过利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取候选句子集合中每个候选句子的重要性,由于,级联注意力机制目标序列在生成下一个状态时,会考虑从源序列中找到所依据的片段,提高解码的准确率,这样重要性高的候选句子会被重点对待,在进行无监督学习模型过程中重建误差函数才会达到极值,因此,利用级联注意力机制可以将每个候选句子在预设网络模型的不同语义维度的注意力信息进行融合,从而提升每个句子重要性估计的准确性,这样在根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合时,可以减少摘要短语集合中的冗余,从而避免生成的文档摘要中的冗余信息比较多的问题。
结合第一方面,在第一方面的第一种可能的实现方式中,利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取候选句子集合中每个候选句子的重要性,包括:根据预设网络模型获取用于描述事件的m个向量;根据每个候选句子、用于描述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在重建误差函数取值最小的情况下,将预设网络模型输出的级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性,获得每个候选句子的重要性,重建误差函数包括:每个候选句子与用于描述事件的m个向量之间的关系、候选矩阵以及候选矩阵对应的权重、候选矩阵为m行×n列的矩阵,其中,m和n为正整数,n为多篇候选文档包括的词语的数量,重建误差函数的目的在于用输出的m个向量来重构候选句子集合中的每个候选句子,误差小,说明从候选句子集合中的每个候选句子所萃取的m个向量几乎携带该事件的重要信息,而萃取关键步骤是级联注意力机制矩阵负责重点关注哪些候选句子,从而可以将级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性。
结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合,包括:过滤掉每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子;从过滤后的每个候选句子的语法树中提取至少一个第一词性短语和至少一个第二词性短语组成短语集合;根据每个候选句子各自的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性;根据每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合。通过对候选句子按照预设规则过滤,并将过滤后的每个候选句子按照每个候选句子的重要性提取至少一个第一词性短语和至少一个第二词性短语重要性组成短语集合,并从短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合,这样可以进一步避免所选择的摘要短语集合引入冗余信息。
结合第一方面至第一方面的第二种可能的实现方式中任一项,在第一方面的第三种可能的实现方式中,过滤掉每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子,包括:过滤掉每个候选句子中的噪音,得到每个候选句子对应的候选词语集合,每个候选句子中包括多个词语,多个词语中每个词语对应一个重要性;根据每个词语的重要性,过滤掉每个候选句子对应的候选词语集合中重要性低于预设阈值的词语,获取过滤后的每个候选句子。结合词语的重要性对候选句子中重要性低于预设阈值的词语进行过滤,可以进一步避免冗余词语引入每个候选句子中。
结合第一方面至第一方面的第三种可能的实现方式中任一项,在第一方面的第四种可能的实现方式中,根据每个词语的重要性,过滤掉每个候选句子对应的候选词语集合中重要性低于预设阈值的词语之前,本发明实施例提供的方法还包括:利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取多篇候选文档中包括的多个不同词语中每个词语的重要性。
结合第一方面至第一方面的第四种可能的实现方式中任一项,在第一方面的第五种可能的实现方式中,利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取多篇候选文档中包括的多个不同词语中每个词语的重要性,包括:根据每个候选句子、用于描述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在重建误差函数取值最小的情况下,将候选矩阵中每一列的列向量的模作为一个词语的重要性,获得每个词语的重要性。
结合第一方面至第一方面的第五种可能的实现方式中任一项,在第一方面的第六种可能的实现方式中,根据每个候选句子的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性,包括:获取至少一个第一词性短语和至少一个第二词性短语中每个词性短语的词频;根据每个词性短语的词频,以及每个词性的短语所在的候选句子的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性。
结合第一方面至第一方面的第六种可能的实现方式中任一项,在第一方面的第七种可能的实现方式中,根据每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合,包括:将至少一个第一词性短语和至少一个第二词性短语中每个词性短语的重要性、各个词性短语之间的相似度输入整数线性规划函数中,在整数线性规划函数取极值的情况下,确定每个词性短语的候选权重以及各个词性短语之间的相似度的联系权重;以及根据每个词性短语的候选权重以及各个词性短语之间的相似度的联系权重,确定满足预设条件的词性短语。一个词性短语的候选权重用于确定该一个词性短语是否为满足预设条件的词性短语;联系权重用于确定相似的短语是否同时被选择;。
第二方面,本发明实施例提供一种多文档摘要生成的装置,包括:获取单元,用于获取候选句子集合,候选句子集合包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子;估计单元,用于利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子进行训练,获得每个候选句子的重要性,一个候选句子的重要性与所述预设网络模型利用无监督学习模型优化重建误差函数过程中输出的级联注意力机制矩阵中的一个行向量的模对应;候选句子的重要性用于表示候选句子所表达的含义在多篇候选文档中的重要程度;选择单元,用于根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合;生成单元,用于根据摘要短语集合,获得多篇候选文档的摘要。
结合第二方面,在第二方面的第一种可能的实现方式中,获取单元,还用于:根据每个候选句子、用于描述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在重建误差函数取值最小的情况下,将所述预设网络模型输出的级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性,获得每个候选句子的重要性,重建误差函数包括:每个候选句子与用于描述所述事件的m个向量之间的关系、所述候选矩阵以及候选矩阵对应的权重、候选矩阵为m行×n列的矩阵,其中,m和n为正整数,n为所述多篇候选文档包括的词语的数量。
结合第二方面或第二方面的第一种可能的实现方式中,在第二方面的第二种可能的实现方式中,本发明实施例提供的装置还包括:过滤单元,用于过滤掉每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子;提取单元,用于从过滤后的每个候选句子的语法树中提取至少一个第一词性短语和至少一个第二词性短语组成短语集合;估计单元,还用于根据每个候选句子各自的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性;选择单元具体用于:根据每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合。
结合第二方面至第二方面的第二种可能的实现方式中任一项,在第二方面的第三种可能的实现方式中,过滤单元具体用于:过滤掉每个候选句子中的噪音,得到每个候选句子对应的候选词语集合,每个候选句子中包括多个词语,多个词语中每个词语对应一个重要性;以及用于根据每个词语的重要性,过滤掉每个候选句子对应的候选词语集合中重要性低于预设阈值的词语,获取过滤后的每个候选句子。
结合第二方面至第二方面的第三种可能的实现方式中任一项,在第二方面的第四种可能的实现方式中,估计单元,还用于利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取多篇候选文档中包括的多个不同词语中每个词语的重要性。
结合第二方面至第二方面的第四种可能的实现方式中任一项,在第二方面的第五种可能的实现方式中,估计单元,还具体用于根据每个候选句子、用于描述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在重建误差函数取值最小的情况下,将候选矩阵中每一列的列向量的模作为一个词语的重要性,获得每个词语的重要性。
结合第二方面至第二方面的第五种可能的实现方式中任一项,在第二方面的第六种可能的实现方式中,获取单元,还用于获取至少一个第一词性短语和至少一个第二词性短语中每个词性短语的词频;估计单元还用于:根据每个词性短语的词频,以及每个词性的短语所在的候选句子的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性。
结合第二方面至第二方面的第六种可能的实现方式中任一项,在第二方面的第七种可能的实现方式中,获取单元具体用于,将所述至少一个第一词性短语和至少一个第二词性短语中每个词性短语的重要性、各个词性短语之间的相似度输入整数线性规划函数中,在整数线性规划函数取极值的情况下,确定每个词性短语的候选权重以及所述各个词性短语之间的相似度的联系权重;选择单元具体用于:根据每个词性短语的候选权重以及各个词性短语之间的相似度的联系权重,确定满足预设条件的词性短语,一个词性短语的候选权重用于确定该一个词性短语是否为满足预设条件的词性短语;联系权重用于确定相似的短语是否同时被选择;。
第三方面,本发明实施例提供一种终端,该终端包括处理器、存储器、系统总线和通信接口;其中,存储器用于存储计算机执行指令,处理器与存储器通过系统总线连接,当终端运行时,处理器执行存储器存储的计算机执行指令,以使终端执行如第一方面至第一方面的第七种可能的实现方式所描述的多文档摘要生成的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,包括指令,当其在终端上运行时,使得终端执行如第一方面至第一方面的第七种可能的实现方式所描述的多文档摘要生成的方法。
附图说明
图1为本发明实施例提供的一种多文档摘要生成的装置的结构示意图一;
图2为本发明实施例提供的一种多文档摘要生成的方法的流程示意图一;
图3为本发明实施例提供的一种多文档摘要生成的方法的流程示意图二;
图4为本发明实施例提供的一种多文档摘要生成的方法的流程示意图三;
图5为本发明实施例提供的一种多文档摘要生成的方法的流程示意图四;
图6为本发明实施例提供的一种多文档摘要生成的装置的结构示意图二;
图7为本发明实施例提供的一种多文档摘要生成的装置的结构示意图三;
图8为本发明实施例提供的一种终端的结构示意图。
具体实施方式
如图1所示,图1示出了本发明实施例提供的一种多文档摘要生成装置的结构示意图,该装置包括:数据处理模块101、与数据处理模块101相连的重要性估计模块102以及与重要性估计模块102相连的摘要生成模块103。
其中,数据处理模块101用于将待生成摘要的关于同一个事件的多篇候选文档中每篇候选文档转换成候选句子,以获取候选句子集合D;然后对于该关于同一个事件的多篇候选文档中的所有词语,生成大小为V的词典;最后,将每个候选句子用V维的向量xj(j=1,...,N,N为候选句子集合D中最多的候选句子数量)表示,并将以V维向量表示的每个候选句子输入至重要性估计模块102中,例如,如图1所示的候选句子x1、x2、x3和x4,可以理解的是,在实际使用过程中,输入至重要性估计模块102的候选句子不仅仅局限于x1、x2、x3和x4,甚至比x1、x2、x3和x4多,本发明实施例仅是以x1、x2、x3和x4为例进行说明。
重要性估计模块102中是通过级联注意力机制(Cascaded Attention Mechanism)和无监督学习模型建模得到的,其主要对数据处理模块101输入的N个候选句子进行迭代训练,最大迭代300轮收敛,最终输出每个候选句子的重要性,以及每个词语的重要性,其中,候选句子的重要性用于最终确定摘要短语集合,词语的重要性用于过滤掉每个候选句子中的冗余信息。
其中,重要性估计模块102基于数据重建的框架,在估计候选句子重要性的过程中引用了级联注意力机制。由于预设网络模型的隐层向量和输出层向量属于不同的向量空间,代表不同的语义,因此,在不同的语义表示中引入不同的级联注意力机制计算方法,这样可以进一步提升候选句子重要性估计方法,由于最终重要性高的候选句子或者短语被提取出来以组成摘要短语集合,为后续生成多文档摘要,从而使得最终生成的多文档摘要中的冗余减少,使得生成的多文档要能够更加准确的覆盖事件所表达的主要内容。
本发明实施例提供的重要性估计模块102通过对级联注意力机制进行建模,这样可以提升解码的效果,同时级联注意力机制矩阵的信息可以用来估计每个候选句子的重要性。本申请提出了级联注意力机制,旨在将不同语义维度的注意力信息进行融合,进一步提升句子重要程度估计的准确性。
如图1所示,重要性估计模块102包括两个阶段,其中一个阶段为阅读(Reader)阶段,也称作编码阶段,另一个阶段为回忆(Recaller)阶段,也称作解码阶段。
一、阅读阶段
对于同一个事件中的所有候选句子集合D中每个候选句子,初始为基于词袋模型的向量模型,存在诸如稀疏、语义描述不准确、维度灾难等问题。所以阅读的过程可以先将每个句子映射到一个神经网络的隐层中,产生密集的嵌入式向量表示,然后采用编码层(Encoding layer,Enc layer)中建立的基于递归神经网络(Recurrent Neural Networks,RNN)模型的编码模型,将所有的候选句子映射到新的状态,并取最后一个时刻的状态作为这个事件的全局变量cg,这时cg中反映了关于该事件的所有多篇候选文档的信息,然后进入解码阶段。
编码阶段具体过程如下:
其中,i表示输入阶段,j表示候选句子的编号(j=1,...,N,N为候选句子集合D中最多的候选句子数量),W和b分别为隐层对应的神经网络参数,H代表隐层。
其次,重要性估计模块102通过编码层建立的RNN模型可以将所有以密集的嵌入式向量表示的候选句子进一步编码成一个向量,该一个向量用于成为反映多篇候选文档的全局语义向量cg。由图1可以知道,其中,RNN模型的映射逻辑如下:
其中,e表示编码阶段的RNN模型,f(.)是长短期记忆网络(Long Short TermMemory,LSTM)模型、门递归网络(Gated Recurrent Unit,GRU)模型或者RNN模型。其中,表示编码阶段第t个时刻每个候选句子的状态向量,表输入阶段第t个时刻每个候选句子的嵌入式向量;表示编码阶段第t-1个时刻每个候选句子的状态向量。
示例性的,如图1所示的编码层可知,候选句子x1、x2、x3和x4分别采用公式映射后得到每个候选句子的嵌入式向量表示和然后根据每个候选句子的嵌入式向量表示计算每个候选句子在编码阶段第t个时刻的状态向量,由于级联注意力机制目标序列在生成下一个状态时,会考虑从源序列中找到所依据的片段,因此,候选句子x1在t时刻的状态向量可以将输入至f(.)模型中得到,然后候选句子x2在t时刻的状态向量可以将和输入至f(.)模型中得到,其他候选句子的状态向量,可以参见候选句子x2在t时刻的状态向量本发明实施例在此不再赘述。
本发明实施例以RNN模型为例,其中RNN模型将所有的句子映射到新的状态并取最后一个时刻的状态作为这个事件的全局变量cg,如图1所示,cg由和候选句子x3在t时刻的状态向量输入至f(.)模型中得到的,因此cg中反映了关于该事件的所有多篇候选文档的信息,然后进入解码阶段。
二、解码阶段
主要用于将编码阶段生成的全局变量cg在解码层(decode layer,dec layer)解码成能够描述该事件m个不同方面(Aspect)信息的m个向量的过程。其中,解码层中建立有基于RNN模型的解码模型。
其中,m要远小于多篇候选文档包括的候选句子的数目N,通过m个浓缩的向量,最大程度重建输入的N个候选句子,所以这m个输出向量要包含最重要的信息,旨在只将最重要的信息解码出来,从而能够对原始的输入进行重建。解码层中建立的解码模型也是基于RNN模型:
其中,d表示解码层,o表示输出层,然后再加入一个映射:
最后,输出层将隐层向量重新映射到词典维大小的能够表示事件某Aspect信息的向量:
示例性的,如图1所示的y1和y2。
综上所述,可知通过级联注意力机制和无监督学习模型建立预设网络模型,首先通过编码层的RNN模型对源向量(也即N个候选句子)进行编码,将源向量编码到一个固定维度的中间向量然后再利用解码层的RNN模型解码翻译到目标向量,例如
利用级联注意力机制建立预设网络模型,可以提升解码的效果,同时级联注意力机制矩阵中每一个行向量的模可以用来估计句子的重要性。本申请提出了级联注意力机制,旨在将不同语义维度的注意力信息进行融合,进一步提升句子重要程度估计的准确性。首先,本申请在解码阶段的隐层引入级联注意力机制,注意力计算方法如下:
然后根据级联注意力机制矩阵,更新解码阶段的隐层向量:
不仅在解码阶段的隐层引入级联注意力机制,本申请还在解码阶段的输出层也引入级联注意力机制,并且融合了解码阶段的隐层的注意力信息,具体如下:
其中λa为注意力信息的权重,模型自动学习。
对于score(.)函数,本申请可以采用如下三种不同的计算方法:
通过对比试验结果,在解码阶段的隐层使用concat方法,在解码阶段的输出层使用dot方法可以进一步的提高候选句子重要性估计的准确性。
级联注意力机制只是预设网络模型的一个组件和参数的一部分,为了求解引入注意力机制后的预设网络模型中的每个参数,本申请通过无监督学习模型求解参数。具体如下:
模型的训练目标为:用m个主题方面向量Y来重构初始的N个句子向量X,这是一个无监督数据重建过程,训练的目标为最小化重建误差:
训练完成后,输出层的级联注意力机制矩阵对应每个句子的向量的模被用来作为句子重要性的分数。输出层输出的候选矩阵Y对应的每一列的列向量的模被用来作为词语的重要性分数。其中,候选矩阵Y为以m个向量为行向量以n个词语为列向量所构建的矩阵。
其中,摘要生成模块103主要用于剔除多篇候选文档中的冗余信息,以获取摘要短语集合,并将摘要短语集合按照预置组合方式组合为摘要句子,获取多篇候选文档的摘要,并输出。
摘要生成模块103,用于在剔除多篇候选文档中的冗余信息时主要有两个过程,其中一个过程为:粗粒度句子过滤,即根据经验规则将每个候选句子中比较明显的噪音过滤。另一个过程为:细粒度句子过滤,即将经过粗粒度句子压缩后的每个候选句子采用句法解析器解析成每个候选句子的语法树,从每个候选句子的语法树中提取出名词短语和动词短语,并根据每个候选句子的重要性,计算每个候选句子中包括的名词短语和动词短语的重要性,最终在保证语法正确的情况下,通过整数线性规划(Integer Linear Programming,ILP)模型对短语进行选择,以从每个候选句子的语法树中删掉重要性不满足预设要求的短语,并将重要性满足要求的短语保留。由于在此过程中,ILP模型不会将重要性不满足要求的短语选入摘要中,从而起到进一步在细粒度层次上过滤每个候选句子中冗余的作用。
可以理解的是,在实际使用过程中图1所示的一种多文档摘要生成的装置可以包括比如图1所示更多的部件,本发明实施例对此不进行限定。
如图2所示,本发明实施例提供的一种多文档摘要生成的方法,该方法由如图1所示的多文档摘要生成的装置执行,该方法包括:
S101、多文档摘要生成的装置获取候选句子集合,该候选句子集合中包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子。
本发明实施例中的多篇候选文档是关于同一个事件的,本发明实施例对该事件不进行限定,在实际使用过程中所有关于同一个事件的多篇候选文档均可以作为本申请提取该多篇候选文档摘要的基础文件。该多篇候选文档可以为关于同一个事件的新闻报道,也可以时关于同一个事件的其他文章,本发明实施例对此不限定。
示例性的,本发明实施例以该多篇候选文档均是关于同一个事件的新闻报道为例,例如,该事件可以为“某某地震”的新闻报道等。
具体的,在实际使用过程中多篇候选文档的数量可以根据需要设置,本发明实施例对此不限定。
示例性的,多篇候选文档的数量为10-20篇。
可以理解的是,本发明实施例中的候选句子集合中包括的每个候选句子均以向量的形式表示。
示例性的,可以将每个候选句子以n维的向量表示,其中n为多篇候选文档中包括的词语的数量。
需要说明的是,在实际使用过程中,由于该多篇候选文档是关于同一个事件的,因此肯定在多篇候选文档的每篇候选文档中可能存在相同的词语,或者在同一个候选文档中存在相同的词语,因此,在计算多篇候选文档中包括的词语的数量时,需要将相同词语的数量记为1,示例性的,词语“某某地震”在多篇候选文档中出现了10次,其余词语(各不相同)的数量和为50,则该多篇候选文档中包括的词语的数量为:51。
S102、多文档摘要生成的装置利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子进行训练,获得每个候选句子的重要性,一个候选句子的重要性与级联注意力机制矩阵中的一个行向量的模对应,级联注意力机制矩阵为预设网络模型利用无监督学习模型优化重建误差函数过程中输出的;候选句子的重要性用于表示候选句子所表达的含义在多篇候选文档中的重要程度。
具体的,在实际使用过程中可以将候选句子集合包括的所有候选句子(以向量的形式表示)输入如图1所示的重要性估计模块,进行迭代训练,最大迭代300轮收敛。该重要性估计模块的输出中,将级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性。
S103、多文档摘要生成的装置根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合。
S104、多文档摘要生成的装置根据摘要短语集合,获得多篇候选文档的摘要。
本发明实施例提供一种多文档摘要生成的方法,利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取候选句子集合中每个候选句子的重要性,由于,级联注意力机制目标序列在生成下一个状态时,会考虑从源序列中找到所依据的片段,提高解码的准确率,这样重要性高的候选句子会被重点对待,在进行无监督学习模型过程中重建误差函数才会达到极值,因此,利用级联注意力机制可以将每个候选句子在预设网络模型的不同语义维度的注意力信息进行融合,从而提升每个句子重要性估计的准确性,这样在根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合时,可以减少摘要短语集合中的冗余,从而避免生成的文档摘要中的冗余信息比较多的问题。
可选的,如图3所示,本发明实施例提供的步骤S102具体可以通过如图3所示的步骤S105和S106来实现:
S105、多文档摘要生成的装置根据预设网络模型获取用于描述事件的m个向量。
S106、多文档摘要生成的装置根据每个候选句子、用于描述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在重建误差函数取值最小的情况下,将预设网络模型输出的级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性,获得每个候选句子的重要性,重建误差函数包括:每个候选句子与用于描述事件的m个向量之间的关系、候选矩阵以及候选矩阵对应的权重、候选矩阵为m行×n列的矩阵,其中,m和n为正整数,n为多篇候选文档包括的词语的数量。
可选的,重建误差函数为对用m个向量来重构初始的N个句子向量xi,在进行无监督学习模型过程中训练目标J,在重建误差函数取值最小的情况,将预设网络模型输出的级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性。
为了进一步的提高所选择的摘要短语集合精确,本发明实施例在步骤S103中首先对候选句子集合中的候选句子根据预设规则进行初步过滤,并在初步过滤后的候选句子基础上根据每个候选句子的重要性,选择符合预设条件的短语作为摘要短语集合。结合图2,本发明实施例中的步骤S103可以通过如图3所示的步骤S107-S110来实现:
S107、多文档摘要生成的装置过滤掉每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子。
可以理解的是,在执行步骤S108时,本发明实施例提供的多文档摘要生成的装置还用于将过滤后的每个候选句子采用语法解析器解析成各自对应的语法树。在步骤S107中语法解析器可以通过对多篇候选文档中的每个候选句子的语义分析,构建每个候选句子后语法树以将每个候选句子分解为多个短语,分解出各个短语称为语法树的分支。
本发明实施例中的语法解析器可以是多文档摘要生成的装置的内部设备,即多文档摘要生成的装置本身包括:语法解析器,当然,该语法解析器还可以是多文档摘要生成的装置的外部设备,例如,多文档摘要生成的装置还可以通过网络请求的语法解析器以获取每个候选句子的语法树,本发明实施例对此不进行限定。
在语法解析器将过滤后的每个候选句子解析成语法树之后,多文档摘要生成的装置可以根据每个候选句子的语法树中包括的全部短语,获取每个候选句子的短语集合,该每个候选句子的短语集合中包括名词词性短语、动词词性短语、数次词性短语、形容词性短语等等,具体是哪种词性的短语具体需要结合每个候选句子的所包括的短语而定,本发明实施例对此不进行限定。
在获取每个候选句子的短语集合后,多文档摘要生成的装置可以从每个候选句子的短语集合中获取至少一个第一词性短语和至少一个第二词性短语。
需要说明的是,在实际使用过程中还可以采用其他的解析工具将每个候选句子解析成语法树,以获取每个候选句子的短语集合。
可选的,本发明实施例中的预设规则可以根据经验、或者实际需求来设定,本发明实施例对此不限定。
可以理解的是,多文档摘要生成的装置通过预设规则过滤掉候选句子集合中每个候选句子中不符合预设规则的词语是指将过滤掉每个候选句子中的明显噪音,例如,“某某报刊报道说…”“某某电视台报道说…”“…他说”等。
可选的,结合图2,图3,如图4所示,本发明实施例中的步骤S107具体可以通过步骤S107a和步骤S107b来实现:
S107a、多文档摘要生成的装置过滤掉每个候选句子中的噪音,得到每个候选句子对应的候选词语集合,每个候选句子中包括多个词语,多个词语中每个词语对应一个重要性。
可以理解的是,本发明实施例中多文档摘要生成的装置根据经验规则过滤掉每个候选句子中的噪音。
S107b、多文档摘要生成的装置根据每个词语的重要性,过滤掉每个候选句子对应的候选词语集合中重要性低于预设阈值的词语,获取过滤后的每个候选句子。
本发明实施例对预设阈值不进行限定,在实际使用过程中可以根据需要设置,不过为了尽量避免最终组成摘要的摘要短语集合中引入噪音,在设置时可以将预设阈值设置的比较大。
S108、多文档摘要生成的装置从过滤后的每个候选句子的语法树中提取至少一个第一词性短语和至少一个第二词性短语组成短语集合。
示例性的,如图5所示,图5示出了一个候选句子的语法树结构,在图5中可以看出一个候选句子解析成语法树后包括:名词短语(Noun phrase,NP)和动词短语(verbphrase,VP)。如图5所示,NP为“An armed man”,VP为“walked into an Amish school”。
可以理解的是,一个名词短语包括:冠词(Article)、形容词(JJ)以及名词(Noun,NN),例如不定冠词(the Indefinite Article),如图5所示的“An”;名词如图5所示的“man”。
如图5所示,一个候选句子的语法树中VP和VP之间还可以由连接词(Connective,CC)连接,例如,连接词为图5中的“and”。
动词短语(verb phrase,VP),具体的动词短语的类型本发明实施例在此不再赘述,可以时动词加介词(preposition,PP)构成,例如,也可以是动词加名词短语构成,例如图5中的“walked into an Amish school”,图5中的NNS表示名词复数。
具体的,如图5所示,将一个候选句子解析成语法树后,所得到的动词短语还包括:“sent the boys outside”“tied up and shot the girls”“killing three of them”。
S109、多文档摘要生成的装置根据每个候选句子各自的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性,至少一个第一词性短语和至少一个第二词性短语属于短语集合。
可选的,步骤S109具体可以通过步骤S109a和步骤S109b来实现:
S109a、多文档摘要生成的装置获取至少一个第一词性短语和至少一个第二词性短语每个词性的短语在多篇候选文档中的词频。
其中,本发明实施例中的“词频”是指某一个词语在多篇候选文档包括的每篇候选文档中出现的频率之和。
S109b、多文档摘要生成的装置根据每个词性短语的词频,以及每个词性的短语所在的候选句子的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性。
其中,i表示短语的编号,Si表示编号为i的短语的重要性,ai表示表示编号为i的短语所在的候选句子的重要性,tf(t)表示词频,Topic表示关于该同一个事件的多篇候选文档中所有的词语,Pi表示表示编号为i的短语。
其中,一个候选句子的重要性用于衡量该候选句子所代表的信息或者内容在表达其所在的候选文档语义中所体现的重要程度。
短语重要性用于衡量短语所代表的概念或者信息在其表达文献语义中体现的重要程度。
可选的是,本发明实施例中的第一词性短语可以为名词词性短语(简称:名词短语),第二词性短语可以为动词词性短语(简称:动词短语)。
当然,本申请还可以包括其他词性的短语,例如形容词短语,数词短语等等,具体依多篇候选文档中含有的短语而定,此处不做限定。可以理解的是,在自然语言处理中,名词短语实际上包含代词,代词被认为是名词的一种。
名词短语(Noun phrase,NP)选取:每个候选句子的主语由名词短语构成,选取此类名词短语,作为生成新句子的候选主语。例如,如图5所示,图5中可以选择“An armedman”作为名词短语。
动词短语(verb phrase,VP)选取:句子的动宾结构由动词短语构成,选取此类动词短语,作为生成新句子的候选动宾解构。例如,如图5所示,图5中选取“walked into anAmish school sent the boys outside and tied up and shot the girls killingthree of them”,“walked into an Amish school”,“sent the boys outside”,and“tiedup and shot the girls,killing three of them”。
S110、多文档摘要生成的装置根据每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合。
可选的,步骤S110具体可以通过以下方式实现:
S110a、多文档摘要生成的装置将至少一个第一词性短语和至少一个第二词性短语中每个词性短语的重要性、各个词性短语之间的相似度输入整数线性规划函数中,在整数线性规划函数取极值的情况下,确定每个词性短语的候选权重以及各个词性短语之间的相似度的联系权重;一个词性短语的候选权重用于确定该一个词性短语是否为满足预设条件的词性短语。
S110b、多文档摘要生成的装置根据每个词性短语的候选权重以及各个词性短语之间的相似度的联系权重,确定满足预设条件的词性短语。
可以理解的是,预设条件中包括了对短语结合中各个短语特征和各个短语之间相似度的约束,不符合预设条件的短语都会被剔除掉,直至保留满足预设条件的第一词性短语和第二词性短语作为摘要短语集合。其中,词性短语的候选权重为1表示该词性短语在整数线性规划函数取极值的情况下,为满足预设条件的词性短语,词性短语的候选权重为0表示该词性短语在整数线性规划函数取极值的情况下,为不满足预设条件的词性短语。
两个短语之间的相似度用于表示短语在多篇候选文档中的冗余度,预设条件通过对特征和各个短语之间相似度的约束可以对短语的重要性和冗余度筛选。
可选的,步骤S110具体可以通过以下方式实现:
将至少一个第一词性短语和至少一个第二词性短语以及各自对应的重要性参数值输入到整数线性规划函数max{∑iαiSi-∑i<jαij(Si+Sj)Rij}中,以优化整数线性规划函数,在保证目标函数的值最大的情况下,尽量避免选择相似的短语进入摘要中。通过求解该优化问题,将符合条件的至少一个第一词性短语和至少一个第二词性短语保留下来,组成摘要短语集合,以生成最后的多文档摘要。
其中,Pi表示编号为i的短语,Pj表示编号为j的短语,Si表示短语Pi的重要性参数值,Sj表示短语Pj的重要性参数值,Rij表示短语Pi和短语Pj的相似度,αij表示短语Pi和短语Pj相似度的权重,αi表示编号为i的短语的权重。一个词性短语的候选权重用于确定该一个词性短语是否为满足预设条件的词性短语;联系权重用于确定相似的短语是否同时被选择。
短语之间的相似度用于衡量短语之间语义相似的程度。
可以理解的是,上述只是整数线性规划函数的一个实例,在实际使用过程中还可以采用其他各种形式的整数线性规划函数,以得到各个词性短语的权重或联系权重。
其中,计算两个短语之间的相似性可以为:计算动词短语之间的两两相似度、名词短语之间的两两相似度,可以通过余弦相似度(cosine similarity)或者指数函数(jaccard index)来实现。
目标函数定义:最大化选中的短语重要度之和,同时最小化选中短语之间的冗余重要度之和部分为选中的名词和动词短语权重之和如果同时选中的名词短语对或者动词短语对存在冗余,则进行惩罚目标函数形式:
可选的,在步骤S107之前,本发明实施例提供的方法还包括:
S111、多文档摘要生成的装置根据每个候选句子、用于描述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在重建误差函数取值最小的情况下,将候选矩阵中每一列的列向量的模作为一个词语的重要性,获得每个词语的重要性。
可选的,步骤S111具体可以通过以下方式实现:
可选的,本发明实施例中的步骤S104可以通过以下方式实现:
将摘要短语集合按照预置组合方式组合,获得多篇候选文档的摘要。
需要说明的是,本发明实施例中的预置组合方式可以是现有组合方式,也可以是其他组合方式,本发明实施例对此不进行限定。
示例性的,步骤S104可以通过步骤S112-S113具体实现:
S112、多文档摘要生成的装置按照摘要短语集合中每个词性短语在多篇候选文档的每个候选句子中的顺序,对摘要短语集合中包括的多个词性短语排序,得到摘要句子。
S113、多文档摘要生成的装置将摘要句子按照多篇候选文档中动词词性短语出现的最早顺序进行排练,得到多篇候选文档的摘要。
可选的,在步骤S113之前还包括:
S114、多文档摘要生成的装置对包括多个动词词性短语的摘要句子,在该摘要句子的多个动词短语之间添加连词。
多文档摘要有标准的英文验证数据集,例如,DUC 2007数据集和TAC 2011数据集。下面将对本发明实施例提供的一种多文档摘要生成的方法应用于DUC2007数据集和TAC2011数据集中以确定所提取的多文档摘要的效果予以说明:
本技术首先在DUC 2007和TAC 2011上进行了效果验证试验。其中DUC 2007有45个主题,每个主题20篇新闻,4个人工标注摘要,摘要字数限制为250字。TAC 2011有44个主题,每个主题有10篇新闻,4个人工标注,摘要字数限制100字。评测指标为覆盖度(ROUGE)的F-测度(Measure)。为了评价本发明实施例提取的多文档摘要的精度,评测结果如表1和表2所示,表1示出了应用本发明实施例提供的方法在DUC 2007数据集的摘要结果,表2示出了应用本发明实施例提供的方法在TAC 2011数据集的摘要结果:
表1采用本发明实施例提供的方法在DUC 2007数据集生成的摘要结果
表2采用本发明实施例提供的方法在TAC 2011生成的摘要结果
系统(System) | R-1 | R-2 | R-3 |
Random | 0.303 | 0.045 | 0.090 |
Lead | 0.315 | 0.071 | 0.103 |
PKUTM | 0.396 | 0.113 | 0.148 |
ABS-Phrase | 0.393 | 0.117 | 0.148 |
RA-MDS | 0.400 | 0.117 | 0.151 |
Ours | 0.400* | 0.121* | 0.153* |
表1和表2展示了本技术分别在DUC 2007数据集和TAC 2011数据集生成的摘要结果的对比,并且与其他最好的无监督多文档摘要模型进行比较,结果表明本申请提供的多文档摘要的生成的方法在各项指标都取得了最好的结果,提升了多文本摘要的效果。
其中,DUC 2007数据集有45个主题,每个主题20篇新闻,4个人工标注摘要,摘要字数限制为250字。TAC 2011有44个主题,每个主题有10篇新闻,4个人工标注,摘要字数限制100字。评测指标为ROUGE的F-Measure。
如之前所述,本本申请提供的多文档摘要的生成的方法能够估计多篇候选文档中包括的词语的重要性。为了验证估计的词语的重要性的效果,从TAC 2011数据集中选择了4个主题,分别是“Finland Shooting”,“Heart Disease”,“Hiv Infection Africa”和“PetFood Recal”。每个主题从输出向量中选择词典维对应值最大的前10个词,如下表3所示:
表3采用本申请提供的方法在TAC 2011数据集的4个主题中所估计的词语的重要性
从表3可以看出,每个主题的前10个词语,已经可以准确地反映出每个主题的主要内容,因此可知道本发明实施例提供的方法对词语重要性预估效果较好。
在该实验设计中,本申请从TAC 2011数据集中选择了几个典型的主题(例如,主题“VTech Shooting”,主题“Oil Spill South Korea”,具体的每个主题所涉及的文章内容可以从TAC 2011数据集中获取,本发明实施例在此不再赘述),针对所选择的典型的主题采用本发明实施例提供的方法生成的多文档摘要,以及人工标注生成的多文档摘要进行对比,如表4和表5:
表4:主题“VTech Shooting”
表5:主题“Oil Spill South Korea”
对比表4和表5的内容可以知道,采用本申请提供的方法生成的多文档摘要在应用于相同的主题时,其生成的多文档摘要的内容和人工标注生成的多文档摘要的内容基本一致,能够覆盖原主题的中心思想,并且句子规整,也符合正确的语法规则。
上述主要从多文档摘要生成的装置的角度对本申请提供的方案进行了介绍。可以理解的是,多文档摘要生成的装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的多文档摘要生成的装置及方法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本发明实施例可以根据上述方法示例对多文档摘要生成的装置等进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图6示出了上述实施例中所涉及的多文档摘要生成的装置的一种可能的结构示意图,如图6所示,包括:获取单元601、估计单元602、选择单元603以及生成单元604,其中,获取单元601用于支持多文档摘要生成的装置执行上述实施例中的步骤S101、S105,估计单元602用于支持多文档摘要生成的装置执行上述实施例中的步骤S102、S106、S109(具体的,例如S109a和步骤S109b)、S111,选择单元603用于支持多文档摘要生成的装置执行上述实施例中的步骤S103以及S110(S110a、S110b),生成单元604用于支持多文档摘要生成的装置执行上述实施例中的步骤S104(具体的可以为:S112、S113以及S114),当然还可以包括过滤单元605用于支持多文档摘要生成的装置执行上述实施例中的步骤S107(具体的,例如,S107a和S107b),提取单元606用于支持多文档摘要生成的装置执行上述实施例中的步骤S108。
可以理解的是,本发明实施例中的生成单元604即为如图1所示的多文档摘要生成的装置中的摘要生成模块103,获取单元601、估计单元602、选择单元603以及生成单元604即为图1所示的多文档摘要生成的装置中的重要性估计模块102。
在采用集成的单元的情况下,图7示出了上述实施例中所涉及的多文档摘要生成的装置的一种可能的逻辑结构示意图。多文档摘要生成的装置包括:处理模块512和通信模块513。处理模块512用于对多文档摘要生成的装置的动作进行控制管理,例如,处理模块512用于执行上述实施例中的步骤S101、S105,S102、S106、S109(具体的,例如S109a和步骤S109b)、S111,S103以及S110(S110a、S110b),步骤S104(具体的可以为:S112、S113以及S114),步骤S107(具体的,例如,S107a和S107b),步骤S108。和/或用于本文所描述的技术的其他过程。通信模块513用于支持多文档摘要生成的装置与其他设备的通信。多文档摘要生成的装置还可以包括存储模块511,用于存储多文档摘要生成的装置的程序代码和数据。
其中,处理模块512可以是处理器或控制器,例如可以是中央处理器单元,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。通信模块513可以是通信接口等。存储模块511可以是存储器。
当处理模块512为处理器,通信模块513为通信接口,存储模块511为存储器时,本发明实施例所涉及的多文档摘要生成的装置可以为图8所示的终端。
图8提出了本发明实施例提供的一种终端的结构示意图,如图8可知,终端包括:处理器301、通信接口302、存储器304以及总线303。其中,通信接口302、处理器301以及存储器304通过总线303相互连接;总线303可以是PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中,存储器304用于存储终端的程序代码和数据。通信接口302用于支持终端与其他设备通信,处理器301用于支持终端执行存储器304中存储的程序代码和数据以实现本发明实施例提供的多文档摘要生成的方法。
一方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当计算机可读存储介质在终端上运行时,使得多文档摘要生成的装置执行上述实施例中的步骤S101、S105,S102、S106、S109(具体的,例如S109a和步骤S109b)、S111,S103以及S110(S110a、S110b),步骤S104(具体的可以为:S112、S113以及S114),步骤S107(具体的,例如,S107a和S107b),步骤S108。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (18)
1.一种多文档摘要生成的方法,其特征在于,包括:
获取候选句子集合,所述候选句子集合包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子;
利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子进行训练,获得所述每个候选句子的重要性,一个候选句子的重要性与级联注意力机制矩阵中的一个行向量的模对应,所述级联注意力机制矩阵为所述预设网络模型利用无监督学习模型优化重建误差函数过程中输出的;所述候选句子的重要性用于表示所述候选句子所表达的含义在所述多篇候选文档中的重要程度;所述无监督学习模型包括神经网络模型;
根据级联注意力机制矩阵,更新解码阶段的隐层向量:
在解码阶段的输出层引入所述级联注意力机制,并且融合所述解码阶段的隐层的注意力信息:
根据所述每个候选句子的重要性,从所述候选句子集合中选择符合预设条件的短语作为摘要短语集合;
根据所述摘要短语集合获得所述多篇候选文档的摘要。
2.根据权利要求1所述的方法,其特征在于,所述利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子训练,获取所述候选句子集合中每个候选句子的重要性,包括:
根据所述预设网络模型获取用于描述所述事件的m个向量;
根据所述每个候选句子、所述用于描述所述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在所述重建误差函数取值最小的情况下,将所述预设网络模型输出的级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性,获得所述每个候选句子的重要性,所述重建误差函数包括:所述每个候选句子与所述用于描述所述事件的m个向量之间的关系、所述候选矩阵以及所述候选矩阵对应的权重,所述候选矩阵为m行×n列的矩阵,其中,m和n为正整数,n为所述多篇候选文档包括的词语的数量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每个候选句子的重要性,从所述候选句子集合中选择符合预设条件的短语作为摘要短语集合,包括:
过滤掉所述每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子;
从所述过滤后的每个候选句子的语法树中提取至少一个第一词性短语和至少一个第二词性短语组成短语集合;
根据所述每个候选句子各自的重要性,计算从所述每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性;
根据所述每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从所述短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合。
4.根据权利要求3所述的方法,其特征在于,所述过滤掉所述每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子,包括:
过滤掉所述每个候选句子中的噪音,得到所述每个候选句子对应的候选词语集合,所述每个候选句子中包括多个词语,所述多个词语中每个词语对应一个重要性;
根据所述每个词语的重要性,过滤掉所述每个候选句子对应的候选词语集合中重要性低于预设阈值的词语,获取所述过滤后的每个候选句子。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每个词语的重要性,过滤掉所述每个候选句子对应的候选词语集合中重要性低于预设阈值的词语之前,所述方法还包括:
利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子训练,获取所述多篇候选文档中包括的多个不同词语中每个词语的重要性。
6.根据权利要求5所述的方法,其特征在于,所述利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子训练,获取所述多篇候选文档中包括的多个不同词语中每个词语的重要性,包括:
根据所述每个候选句子、所述用于描述所述事件的m个向量以及所述候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在所述重建误差函数取值最小的情况下,将所述候选矩阵中每一列的列向量的模作为一个词语的重要性,获得每个词语的重要性。
7.根据权利要求3-6任意一项所述的方法,其特征在于,所述根据所述每个候选句子的重要性,计算从所述每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性,包括:
获取所述至少一个第一词性短语和所述至少一个第二词性短语中每个词性短语的词频;
根据所述每个词性短语的词频,以及所述每个词性短语所在的候选句子的重要性,计算从所述每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性。
8.根据权利要求3-6任一项所述的方法,其特征在于,所述根据所述每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从所述短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合,包括:
将所述至少一个第一词性短语和至少一个第二词性短语中每个词性短语的重要性、各个词性短语之间的相似度输入整数线性规划函数中,在所述整数线性规划函数取极值的情况下,确定所述每个词性短语的候选权重以及所述各个词性短语之间的相似度的联系权重;一个词性短语的候选权重用于确定该一个词性短语是否为满足预设条件的词性短语;所述联系权重用于确定相似的短语是否同时被选择;
根据所述每个词性短语的候选权重以及所述各个词性短语之间的相似度的联系权重,确定满足预设条件的词性短语。
9.一种多文档摘要生成的装置,其特征在于,包括:
获取单元,用于获取候选句子集合,所述候选句子集合包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子;
估计单元,用于利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子进行训练,获得所述每个候选句子的重要性,一个候选句子的重要性与级联注意力机制矩阵中的一个行向量的模对应,所述级联注意力机制矩阵为所述预设网络模型利用无监督学习模型优化重建误差函数过程中输出的;所述候选句子的重要性用于表示所述候选句子所表达的含义在所述多篇候选文档中的重要程度;所述无监督学习模型包括神经网络模型;
根据级联注意力机制矩阵,更新解码阶段的隐层向量:
在解码阶段的输出层引入所述级联注意力机制,并且融合所述解码阶段的隐层的注意力信息:
选择单元,用于根据所述每个候选句子的重要性,从所述候选句子集合中选择符合预设条件的短语作为摘要短语集合;
生成单元,用于根据所述摘要短语集合,获得所述多篇候选文档的摘要。
10.根据权利要求9所述的装置,其特征在于,所述获取单元,还用于:根据所述预设网络模型获取用于描述所述事件的m个向量;
所述估计单元具体用于:根据所述每个候选句子、所述用于描述所述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在所述重建误差函数取值最小的情况下,将所述预设网络模型输出的级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性,获得所述每个候选句子的重要性,所述重建误差函数包括:所述每个候选句子与所述用于描述所述事件的m个向量之间的关系、所述候选矩阵以及所述候选矩阵对应的权重,所述候选矩阵为m行×n列的矩阵,其中,m和n为正整数,n为所述多篇候选文档包括的词语的数量。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括:
过滤单元,用于过滤掉所述每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子;
提取单元,用于从所述过滤后的每个候选句子的语法树中提取至少一个第一词性短语和至少一个第二词性短语组成短语集合;
所述估计单元还用于根据所述每个候选句子各自的重要性,计算从所述每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性;
所述选择单元具体用于,根据所述每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从所述短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合。
12.根据权利要求11所述的装置,其特征在于,所述过滤单元具体用于:过滤掉所述每个候选句子中的噪音,得到所述每个候选句子对应的候选词语集合,所述每个候选句子中包括多个词语,所述多个词语中每个词语对应一个重要性;以及用于根据所述每个词语的重要性,过滤掉所述每个候选句子对应的候选词语集合中重要性低于预设阈值的词语,获取所述过滤后的每个候选句子。
13.根据权利要求12所述的装置,其特征在于,所述估计单元,还用于利用预设网络模型中的级联注意力机制和无监督学习模型对所述候选句子集合中每个候选句子训练,获取所述多篇候选文档中包括的多个不同词语中每个词语的重要性。
14.根据权利要求13所述的装置,其特征在于,所述估计单元,还具体用于:根据所述每个候选句子、所述用于描述所述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在所述重建误差函数取值最小的情况下,将所述候选矩阵中每一列的列向量的模作为一个词语的重要性,获得每个词语的重要性。
15.根据权利要求11-14任意一项所述的装置,其特征在于,所述获取单元,还用于获取所述至少一个第一词性短语和所述至少一个第二词性短语中每个词性短语的词频;
所述估计单元还用于:根据所述每个词性短语的词频,以及所述每个词性的短语所在的候选句子的重要性,计算从所述每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性。
16.根据权利要求10-14任一项所述的装置,其特征在于,所述获取单元具体用于,将至少一个第一词性短语和至少一个第二词性短语中每个词性短语的重要性、各个词性短语之间的相似度输入整数线性规划函数中,在所述整数线性规划函数取极值的情况下,确定所述每个词性短语的候选权重以及所述各个词性短语之间的相似度的联系权重;一个词性短语的候选权重用于确定该一个词性短语是否为满足预设条件的词性短语;联系权重用于确定相似的短语是否同时被选择;
所述选择单元具体用于:根据所述每个词性短语的候选权重以及所述各个词性短语之间的相似度的联系权重,确定满足预设条件的词性短语。
17.一种终端,其特征在于,所述终端包括处理器、存储器、系统总线和通信接口;其中,所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述系统总线连接,当所述终端运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述终端执行如权利要求1-8中任一项所述的多文档摘要生成的方法。
18.一种计算机可读存储介质,包括指令,当其在终端上运行时,使得终端执行如权利要求1-8中任一项所述的多文档摘要生成的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710369694.XA CN108959312B (zh) | 2017-05-23 | 2017-05-23 | 一种多文档摘要生成的方法、装置和终端 |
PCT/CN2017/116658 WO2018214486A1 (zh) | 2017-05-23 | 2017-12-15 | 一种多文档摘要生成的方法、装置和终端 |
US16/688,090 US10929452B2 (en) | 2017-05-23 | 2019-11-19 | Multi-document summary generation method and apparatus, and terminal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710369694.XA CN108959312B (zh) | 2017-05-23 | 2017-05-23 | 一种多文档摘要生成的方法、装置和终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959312A CN108959312A (zh) | 2018-12-07 |
CN108959312B true CN108959312B (zh) | 2021-01-29 |
Family
ID=64396188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710369694.XA Active CN108959312B (zh) | 2017-05-23 | 2017-05-23 | 一种多文档摘要生成的方法、装置和终端 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10929452B2 (zh) |
CN (1) | CN108959312B (zh) |
WO (1) | WO2018214486A1 (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368476B (zh) * | 2017-07-25 | 2020-11-03 | 深圳市腾讯计算机系统有限公司 | 一种翻译的方法、目标信息确定的方法及相关装置 |
US11106872B2 (en) * | 2018-01-09 | 2021-08-31 | Jyu-Fang Yu | System and method for improving sentence diagram construction and analysis by enabling a user positioning sentence construction components and words on a diagramming interface |
CN108628833B (zh) * | 2018-05-11 | 2021-01-22 | 北京三快在线科技有限公司 | 原创内容摘要确定方法及装置,原创内容推荐方法及装置 |
CN110851573A (zh) * | 2018-07-27 | 2020-02-28 | 北京京东尚科信息技术有限公司 | 语句处理方法、系统和电子设备 |
US11023682B2 (en) * | 2018-09-30 | 2021-06-01 | International Business Machines Corporation | Vector representation based on context |
CN109919174A (zh) * | 2019-01-16 | 2019-06-21 | 北京大学 | 一种基于门控级联注意力机制的文字识别方法 |
CN111597791A (zh) * | 2019-02-19 | 2020-08-28 | 北大方正集团有限公司 | 评论短语的提取方法及设备 |
CN110162618B (zh) * | 2019-02-22 | 2021-09-17 | 北京捷风数据技术有限公司 | 一种非对照语料的文本概要生成方法及装置 |
CN110287491B (zh) * | 2019-06-25 | 2024-01-12 | 北京百度网讯科技有限公司 | 事件名生成方法及装置 |
CN110363000B (zh) * | 2019-07-10 | 2023-11-17 | 深圳市腾讯网域计算机网络有限公司 | 识别恶意文件的方法、装置、电子设备及存储介质 |
CN110442866A (zh) * | 2019-07-28 | 2019-11-12 | 广东工业大学 | 一种融合语法信息的句子压缩方法 |
KR102098734B1 (ko) * | 2019-08-06 | 2020-04-08 | 전자부품연구원 | 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말 |
US11281854B2 (en) * | 2019-08-21 | 2022-03-22 | Primer Technologies, Inc. | Limiting a dictionary used by a natural language model to summarize a document |
FR3102276A1 (fr) * | 2019-10-17 | 2021-04-23 | Amadeus | Procedes et systemes pour résumer des document multiples en utilisant une approche d’apprentissage automatique |
CN110825870B (zh) * | 2019-10-31 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 文档摘要的获取方法和装置、存储介质及电子装置 |
US20210192813A1 (en) * | 2019-12-18 | 2021-06-24 | Catachi Co. DBA Compliance.ai | Methods and systems for facilitating generation of navigable visualizations of documents |
CA3172725A1 (en) | 2020-03-23 | 2021-09-30 | Sorcero, Inc. | Feature engineering with question generation |
CN111597327B (zh) * | 2020-04-22 | 2023-04-07 | 哈尔滨工业大学 | 一种面向舆情分析的无监督式多文档文摘生成方法 |
US11640295B2 (en) * | 2020-06-26 | 2023-05-02 | Intel Corporation | System to analyze and enhance software based on graph attention networks |
CN111797226B (zh) * | 2020-06-30 | 2024-04-05 | 北京百度网讯科技有限公司 | 会议纪要的生成方法、装置、电子设备以及可读存储介质 |
CN112016296B (zh) * | 2020-09-07 | 2023-08-25 | 平安科技(深圳)有限公司 | 句子向量生成方法、装置、设备及存储介质 |
CN112069309B (zh) * | 2020-09-14 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 信息获取方法、装置、计算机设备及存储介质 |
CN114600112A (zh) * | 2020-09-29 | 2022-06-07 | 谷歌有限责任公司 | 使用自然语言处理的文档标记和导航 |
CN112347242B (zh) * | 2020-11-11 | 2024-06-18 | 北京沃东天骏信息技术有限公司 | 摘要生成方法、装置、设备及介质 |
CN112560479B (zh) * | 2020-12-24 | 2024-01-12 | 北京百度网讯科技有限公司 | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 |
CN112784585A (zh) * | 2021-02-07 | 2021-05-11 | 新华智云科技有限公司 | 金融公告的摘要提取方法与摘要提取终端 |
CN112711662A (zh) * | 2021-03-29 | 2021-04-27 | 贝壳找房(北京)科技有限公司 | 文本获取方法和装置、可读存储介质、电子设备 |
CN113221967B (zh) * | 2021-04-23 | 2023-11-24 | 中国农业大学 | 特征抽取方法、装置、电子设备及存储介质 |
CN113221559B (zh) * | 2021-05-31 | 2023-11-03 | 浙江大学 | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 |
KR20230046086A (ko) * | 2021-09-29 | 2023-04-05 | 한국전자통신연구원 | 중요 문장 기반 검색 서비스 제공 장치 및 방법 |
CN114239587B (zh) * | 2021-11-24 | 2024-07-23 | 北京三快在线科技有限公司 | 一种摘要生成方法、装置、电子设备及存储介质 |
CN114706972B (zh) * | 2022-03-21 | 2024-06-18 | 北京理工大学 | 一种基于多句压缩的无监督科技情报摘要自动生成方法 |
US20230334248A1 (en) * | 2022-04-13 | 2023-10-19 | Servicenow, Inc. | Multi-dimensional n-gram preprocessing for natural language processing |
US20230419017A1 (en) * | 2022-06-24 | 2023-12-28 | Salesforce, Inc. | Systems and methods for text summarization |
CN117668213B (zh) * | 2024-01-29 | 2024-04-09 | 南京争锋信息科技有限公司 | 一种基于级联抽取和图对比模型的混沌工程摘要生成方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101008941A (zh) * | 2007-01-10 | 2007-08-01 | 复旦大学 | 多文档自动摘要的逐次主轴筛选法 |
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN102043851A (zh) * | 2010-12-22 | 2011-05-04 | 四川大学 | 一种基于频繁项集的多文档自动摘要方法 |
CN102385574A (zh) * | 2010-09-01 | 2012-03-21 | 株式会社理光 | 从文档抽取句子的方法和装置 |
CN102411621A (zh) * | 2011-11-22 | 2012-04-11 | 华中师范大学 | 一种基于云模型的中文面向查询的多文档自动文摘方法 |
CN104156452A (zh) * | 2014-08-18 | 2014-11-19 | 中国人民解放军国防科学技术大学 | 一种网页文本摘要生成方法和装置 |
CN105005563A (zh) * | 2014-04-15 | 2015-10-28 | 腾讯科技(深圳)有限公司 | 一种摘要生成方法及装置 |
WO2015184768A1 (zh) * | 2014-10-23 | 2015-12-10 | 中兴通讯股份有限公司 | 一种视频摘要生成方法及装置 |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6546379B1 (en) * | 1999-10-26 | 2003-04-08 | International Business Machines Corporation | Cascade boosting of predictive models |
US7017114B2 (en) * | 2000-09-20 | 2006-03-21 | International Business Machines Corporation | Automatic correlation method for generating summaries for text documents |
AU2003303499A1 (en) * | 2002-12-26 | 2004-07-29 | The Trustees Of Columbia University In The City Of New York | Ordered data compression system and methods |
US7783135B2 (en) * | 2005-05-09 | 2010-08-24 | Like.Com | System and method for providing objectified image renderings using recognition information from images |
WO2008023280A2 (en) * | 2006-06-12 | 2008-02-28 | Fotonation Vision Limited | Advances in extending the aam techniques from grayscale to color images |
US20100299303A1 (en) * | 2009-05-21 | 2010-11-25 | Yahoo! Inc. | Automatically Ranking Multimedia Objects Identified in Response to Search Queries |
US8473430B2 (en) * | 2010-01-29 | 2013-06-25 | Microsoft Corporation | Deep-structured conditional random fields for sequential labeling and classification |
US8856050B2 (en) * | 2011-01-13 | 2014-10-07 | International Business Machines Corporation | System and method for domain adaption with partial observation |
US8909643B2 (en) * | 2011-12-09 | 2014-12-09 | International Business Machines Corporation | Inferring emerging and evolving topics in streaming text |
US9256617B2 (en) * | 2012-07-06 | 2016-02-09 | Samsung Electronics Co., Ltd. | Apparatus and method for performing visual search |
US9436911B2 (en) * | 2012-10-19 | 2016-09-06 | Pearson Education, Inc. | Neural networking system and methods |
US9129148B1 (en) * | 2012-11-09 | 2015-09-08 | Orbeus Inc. | System, method and apparatus for scene recognition |
US20140236578A1 (en) * | 2013-02-15 | 2014-08-21 | Nec Laboratories America, Inc. | Question-Answering by Recursive Parse Tree Descent |
TR201514432T1 (tr) * | 2013-06-21 | 2016-11-21 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | Veri̇ni̇n i̇leri̇ beslemeli̇ si̇ni̇r aği mi̇mari̇si̇ kullanilarak yalanci-yi̇neleme i̇le i̇şlenmesi̇ i̇çi̇n yöntem |
US9730643B2 (en) * | 2013-10-17 | 2017-08-15 | Siemens Healthcare Gmbh | Method and system for anatomical object detection using marginal space deep neural networks |
US9471886B2 (en) * | 2013-10-29 | 2016-10-18 | Raytheon Bbn Technologies Corp. | Class discriminative feature transformation |
CN103593703A (zh) * | 2013-11-26 | 2014-02-19 | 上海电机学院 | 基于遗传算法的神经网络优化系统及方法 |
CN103853834B (zh) | 2014-03-12 | 2017-02-08 | 华东师范大学 | 基于文本结构分析的Web文档摘要的生成方法 |
CN103885935B (zh) | 2014-03-12 | 2016-06-29 | 浙江大学 | 基于图书阅读行为的图书章节摘要生成方法 |
US9996976B2 (en) * | 2014-05-05 | 2018-06-12 | Avigilon Fortress Corporation | System and method for real-time overlay of map features onto a video feed |
US20180107660A1 (en) * | 2014-06-27 | 2018-04-19 | Amazon Technologies, Inc. | System, method and apparatus for organizing photographs stored on a mobile computing device |
CN105320642B (zh) | 2014-06-30 | 2018-08-07 | 中国科学院声学研究所 | 一种基于概念语义基元的文摘自动生成方法 |
US9767385B2 (en) * | 2014-08-12 | 2017-09-19 | Siemens Healthcare Gmbh | Multi-layer aggregation for object detection |
WO2016033121A1 (en) * | 2014-08-25 | 2016-03-03 | Georgia Tech Research Corporation | Noninvasive systems and methods for monitoring health characteristics |
CN105488021B (zh) | 2014-09-15 | 2018-09-28 | 华为技术有限公司 | 一种生成多文档摘要的方法和装置 |
CN104503958B (zh) | 2014-11-19 | 2017-09-26 | 百度在线网络技术(北京)有限公司 | 文档摘要的生成方法及装置 |
WO2016090376A1 (en) * | 2014-12-05 | 2016-06-09 | Texas State University | Eye tracking via patterned contact lenses |
EP3259919A1 (en) * | 2015-02-19 | 2017-12-27 | Magic Pony Technology Limited | Enhancing visual data using strided convolutions |
CN104778157A (zh) | 2015-03-02 | 2015-07-15 | 华南理工大学 | 一种多文档摘要句的生成方法 |
US9842105B2 (en) * | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
CN104834735B (zh) | 2015-05-18 | 2018-01-23 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN105183710A (zh) | 2015-06-23 | 2015-12-23 | 武汉传神信息技术有限公司 | 一种文档摘要自动生成的方法 |
US20170060826A1 (en) * | 2015-08-26 | 2017-03-02 | Subrata Das | Automatic Sentence And Clause Level Topic Extraction And Text Summarization |
US20170083623A1 (en) * | 2015-09-21 | 2017-03-23 | Qualcomm Incorporated | Semantic multisensory embeddings for video search by text |
US10296846B2 (en) * | 2015-11-24 | 2019-05-21 | Xerox Corporation | Adapted domain specific class means classifier |
US10354199B2 (en) * | 2015-12-07 | 2019-07-16 | Xerox Corporation | Transductive adaptation of classifiers without source data |
US10424072B2 (en) * | 2016-03-01 | 2019-09-24 | Samsung Electronics Co., Ltd. | Leveraging multi cues for fine-grained object classification |
CN105930314B (zh) | 2016-04-14 | 2019-02-05 | 清华大学 | 基于编码-解码深度神经网络的文本摘要生成系统及方法 |
US20170351786A1 (en) * | 2016-06-02 | 2017-12-07 | Xerox Corporation | Scalable spectral modeling of sparse sequence functions via a best matching algorithm |
CN106054606B (zh) * | 2016-06-12 | 2019-01-11 | 金陵科技学院 | 基于级联观测器的无模型控制方法 |
US10223612B2 (en) * | 2016-09-01 | 2019-03-05 | Microsoft Technology Licensing, Llc | Frame aggregation network for scalable video face recognition |
TWI612488B (zh) * | 2016-12-05 | 2018-01-21 | 財團法人資訊工業策進會 | 用於預測商品的市場需求的計算機裝置與方法 |
US11205103B2 (en) * | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US10460727B2 (en) * | 2017-03-03 | 2019-10-29 | Microsoft Technology Licensing, Llc | Multi-talker speech recognizer |
-
2017
- 2017-05-23 CN CN201710369694.XA patent/CN108959312B/zh active Active
- 2017-12-15 WO PCT/CN2017/116658 patent/WO2018214486A1/zh active Application Filing
-
2019
- 2019-11-19 US US16/688,090 patent/US10929452B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101008941A (zh) * | 2007-01-10 | 2007-08-01 | 复旦大学 | 多文档自动摘要的逐次主轴筛选法 |
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN102385574A (zh) * | 2010-09-01 | 2012-03-21 | 株式会社理光 | 从文档抽取句子的方法和装置 |
CN102043851A (zh) * | 2010-12-22 | 2011-05-04 | 四川大学 | 一种基于频繁项集的多文档自动摘要方法 |
CN102411621A (zh) * | 2011-11-22 | 2012-04-11 | 华中师范大学 | 一种基于云模型的中文面向查询的多文档自动文摘方法 |
CN105005563A (zh) * | 2014-04-15 | 2015-10-28 | 腾讯科技(深圳)有限公司 | 一种摘要生成方法及装置 |
CN104156452A (zh) * | 2014-08-18 | 2014-11-19 | 中国人民解放军国防科学技术大学 | 一种网页文本摘要生成方法和装置 |
WO2015184768A1 (zh) * | 2014-10-23 | 2015-12-10 | 中兴通讯股份有限公司 | 一种视频摘要生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2018214486A1 (zh) | 2018-11-29 |
US10929452B2 (en) | 2021-02-23 |
US20200081909A1 (en) | 2020-03-12 |
CN108959312A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959312B (zh) | 一种多文档摘要生成的方法、装置和终端 | |
Cohn et al. | Sentence compression as tree transduction | |
CN106844368B (zh) | 用于人机对话的方法、神经网络系统和用户设备 | |
Fonseca et al. | Evaluating word embeddings and a revised corpus for part-of-speech tagging in Portuguese | |
Demberg et al. | Incremental, predictive parsing with psycholinguistically motivated tree-adjoining grammar | |
US8660836B2 (en) | Optimization of natural language processing system based on conditional output quality at risk | |
US9773053B2 (en) | Method and apparatus for processing electronic data | |
CN108733682B (zh) | 一种生成多文档摘要的方法及装置 | |
US9098489B2 (en) | Method and system for semantic searching | |
US9069750B2 (en) | Method and system for semantic searching of natural language texts | |
US20130007020A1 (en) | Method and system of extracting concepts and relationships from texts | |
WO2012039686A1 (en) | Methods and systems for automated text correction | |
WO2017019705A1 (en) | Systems and methods for domain-specific machine-interpretation of input data | |
CN111191002A (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
US11941361B2 (en) | Automatically identifying multi-word expressions | |
CN114528898A (zh) | 基于自然语言命令的场景图修改 | |
CN114625866A (zh) | 训练摘要生成模型的方法、装置、设备及介质 | |
Williams et al. | Agreement constraints for statistical machine translation into German | |
Schwartz et al. | Neural polysynthetic language modelling | |
CN114065741B (zh) | 用于验证表述的真实性的方法、设备、装置和介质 | |
JP2004342104A (ja) | テキストを圧縮するシステム、方法及びコンピュータ可読記憶媒体 | |
Long | [Retracted] The Construction of Machine Translation Model and Its Application in English Grammar Error Detection | |
Torr | Wide-coverage statistical parsing with Minimalist Grammars | |
Choi et al. | Neural attention model with keyword memory for abstractive document summarization | |
CN114997190A (zh) | 机器翻译方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211227 Address after: 450046 Floor 9, building 1, Zhengshang Boya Plaza, Longzihu wisdom Island, Zhengdong New Area, Zhengzhou City, Henan Province Patentee after: xFusion Digital Technologies Co., Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd. |
|
TR01 | Transfer of patent right |