CN112528003B - 一种基于语义排序和知识修正的多项选择问答方法 - Google Patents
一种基于语义排序和知识修正的多项选择问答方法 Download PDFInfo
- Publication number
- CN112528003B CN112528003B CN202011548750.4A CN202011548750A CN112528003B CN 112528003 B CN112528003 B CN 112528003B CN 202011548750 A CN202011548750 A CN 202011548750A CN 112528003 B CN112528003 B CN 112528003B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- sentence
- candidate
- answer
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012937 correction Methods 0.000 title claims abstract description 27
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 230000001537 neural effect Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims 3
- 230000003213 activating effect Effects 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical group [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义排序和知识修正的多项选择问答方法,属于计算机自然语言处理技术领域。本发明从外部语料库中检索与问题相关的知识,辅助模型进行理解和推理,通过知识修正和语义排序的技术,进一步提升检索获得的知识的质量和精度,从而引导系统进行正确的推理。在相同的数据集下,本发明与传统技术相比,在准确率评测指标上有显著提升。
Description
技术领域
本发明涉及一种基于语义排序和知识修正的多项选择问答方法,属于计算机自然语言处理技术领域。
背景技术
随着互联网的高速发展,计算机技术被广泛地运用于日常生活中。当用户向机器提出一个挑战性较高的问题,问答系统能够通过深度的理解和推理对多个候选答案选项进行辨别,为用户提供精准的答案,提高用户的体验,具有广泛的商业应用范围。
多项选择问答系统是问答系统领域中的一种类型,其定义为:给定一个问题及多个候选答案,系统需要对问题进行理解,从候选答案选项中预测出正确的一项。此外,如果数据集提供与问题相关的背景段落,系统还需要根据问题对段落进行阅读理解及推理。
传统的多项选择问答系统所基于的处理方法,大多采用端到端一步式直接预测答案选项,具体操作为:将问题与各个答案选项进行拼接,通过分类器直接获得每个选项的分数,根据分数的高低确定最终的答案选项。但是,此类方法具备两个缺点:一是不具备良好的可解释性,系统阅读推理的过程呈“黑盒”状态不可视;二是精确率受限,很多问题及答案选项并无法提供足够的信息供系统进行深度的理解和推理。
针对以上两个问题,部分工作尝试从外部语料库中检索与问题相关的知识,增强题干信息,辅助系统进行推理,最终取得了性能的提升。然而,这类检索外部知识方法仍然存在不足,系统模型的表现很大程度取决于检索出知识的质量。而目前方法大多采用传统的TF-IDF方法,该类方法根据词频及词共现检索知识,导致检索到的知识存在语义混淆的问题,无法对系统解决问题的过程提供有用的信息。
发明内容
本发明的目的是为了解决传统TF-IDF方法检索出的知识存在语义混淆的技术问题,创造性地提出一种基于语义排序和知识修正的多项选择问答方法。本方法通过提供高置信度的知识,为问答系统模型的理解和推理提供可解释性及性能的提升。
本发明是通过以下技术方案实现的。
一种基于语义排序和知识修正的多项选择问答方法。
首先,进行相关定义,具体如下:
定义1:多项选择问答。即针对一个问题,需要从两个及以上答案候选选项中寻找正确的答案选项。
定义2:答案候选选项。即一个问题下,可能是正确答案的选项。
定义3:置信度。即能够体现答案本身质量的标识。
定义4:TF-IDF(term frequency-inverse document frequency),一种信息检索中常用的加权技术。用以统计、评估一个字词对于一个文件集或语料库中一份文件的重要程度。
定于5:外部语料库。即与当前任务领域无关的大量文本,比如Wikipedia。
定义6:候选知识集合。即包含若干个与当前问题相关的句子的集合。
定义7:预训练语言模型。即经过大规模语料预训练的向量表示模型,能够对输入的字、词、句提供各个级别的向量表示。
定义8:查询句。即问题与答案候选选项拼接后形成的语句,用于从外部语料库中检索相关知识。
定义9:停滞词语。即普遍的功能词,不具备任何实际含义。
定义10:负采样。即根据正样本的构建方式采样生成与之相反的负样本。
定义11:背景知识段落。即多个主题相关的知识句子拼接而成的文本段落。
步骤1:根据问题及答案候选选项,利用TF-IDF技术,从外部语料库中进行知识检索,获得候选知识集合。其中,答案候选选项如定义2所述;TF-IDF如定义4所述;外部语料库如定义5所述;候选知识集合如定义6所述。
步骤1具体实现方法如下:
步骤1.1:将问题与每个答案候选选项进行拼接构成查询句,记为S。其中,查询句如定义8所述。
步骤1.2:将步骤1.1中得到的查询句进行步骤1.2.1至步骤1.2.2操作。
步骤1.2.1:剔除查询句中存在的停滞词语。其中,停滞词语如定义9所述。
步骤1.2.2:使用TF-IDF技术,计算步骤1.2.1的查询句与外部语料库中每个句子的匹配度。按照数值从大到小进行排序,选取前N个句子构成候选知识集合。
步骤1.3:将同一个问题下的每个答案候选选项获得的步骤1.2.2中的候选知识集合进行汇总,选取前M个句子形成新的候选知识集合,记为K。
步骤2:利用标注的语料及负采样技术训练知识修正模块。其中,负采样如定义10所述。
步骤2具体实现方法如下:
步骤2.1:根据步骤2.1.1-步骤2.1.2构建供知识修正模块训练的数据集。
步骤2.1.1:提取步骤1.1中的问题和每个答案候选选项所构成的查询句S,以及数据集本身提供的最相关的知识句,记为F;
步骤2.1.2:对步骤2.1.1提取到查询句及对应的知识句,依照以下规则构建正负样例:
将正确答案候选选项与问题拼接所构成的查询句,与对应的知识句F一起标记为正例-1;反之,错误答案候选选项与问题拼接所构成的查询句,与对应的知识句F一起标记为负例-0;
步骤2.2:通过基于双向变换器的神经语言模型BERT,对步骤2.1.1中的查询句S以及知识句F分别进行编码,输出为查询句和知识句的向量表示;
步骤2.3:采用负采样技术,设立训练目标函数LKR。针对步骤2.2获得的查询句和知识句的向量表示,将其代入如下公式:
LKR=-(log(σ(VS+ TVF))+log(σ(-VS- TVF))) (1)
其中,σ为激活函数,将变量映射到0-1之间;VS+/-、VF分别是由两个不同初始权重的神经语言模型编码获得的查询句和知识句向量表示,其中,VS+为步骤2.1.2中标记为正例的查询句表示,VS-为步骤2.1.2中标记为负例的查询句表示;T为点乘操作;
步骤2.4:使用梯度下降算法,优化目标函数LKR中神经语言模型中的参数,使LKR最小化。优化结束后得到知识修正模块中所有神经网络的最优参数。
步骤3:利用知识修正模块对候选知识集合进行语义排序。
步骤3具体实现方法如下:
步骤3.1:利用步骤2中训练得到知识修正模块中的神经语言模型,对步骤1.1中的查询句S以及步骤1.3的候选知识集合K分别进行编码表示,记作VS和VK。
步骤3.2:将VS和VK代入公式(2)中,获得置信度分数:
其中,置信度如定义3所述;j表示候选知识集合中第j条知识句子,上限为M,i表示同一个问题对应的第i个答案候选选项,上限为n。VSi表示由第i个答案候选选项与问题所构成的查询句的向量表示,VKj表示候选知识集合中第j条知识句子的向量表示,n表示同一个问题下的答案候选选项数目上限。
步骤3.3:利用步骤3.2计算得到的置信度分数,对步骤1.3中的候选知识集合K进行句子排序;
步骤4:结合语义排序后的知识,输入答案预测模型进行答案预测:。
步骤4具体实现方法如下:
步骤4.1:取步骤3.3中语义排序后的后续知识集合K取前五句,进行拼接构成背景知识段落。其中,背景知识段落如定义11所述。
步骤4.2:将步骤4.1中的背景知识段落、步骤1.1中的问题和答案候选选项进行拼接,将拼接后的语句以及对应的答案标签输入至由双向变换器的神经语言模型BERT和一层分类层叠加构建的答案预测模型中进行训练。
步骤4.3:使用梯度下降算法,优化交叉熵损失函数中双向变换器的神经语言模型参数、分类层的参数,使交叉熵损失函数最小化,优化结束后得到答案预测模型中神经网络的最优参数。
步骤4.4:使用步骤4.3中训练好的答案预测模型对测试样本数据进行预测,利用分类器最后的数值对每个答案候选选项进行排序,分数最高的答案候选选项为模型预测的最终选项。
有益效果
本发明方法,与现有的多项选择问答系统模型相比,具有以下优点:
1.利用检索模块从外部语料库中检索与问题相关的知识,辅助模型进行理解和推理;并通过知识修正和语义排序的技术,进一步提升检索获得的知识的质量和精度,从而引导模型进行正确的推理。
2.通过ARC、OpenbookQA英文多项选择问答数据集中进行多项选择问答任务中,实验结果表明,在相同的数据集下,本发明所采用的方法与传统不引入知识的方法以及基于TF-IDF检索知识的方法相比,本发明所提出的基于语义排序和知识修正的多项选择问答方法在准确率Accuracy评测指标上有显著提升。
附图说明
图1为本发明方法的整体框架流程图。
具体实施方式
下面结合附图和实施例对本发明方法做进一步详细描述。
实施例1
一种基于语义排序和知识修正的多项选择问答方法,如图1所示。本实施例给出了本发明所述方法的流程及其具体实施例。
本实施例中使用的数据由来自ARC及OpenbookQA英文多项选择问答数据集。
步骤1:根据问题及答案候选选项,利用TF-IDF技术从外部语料库中进行知识检索,获得候选知识集合;
步骤1.1:将问题与每个答案候选选项进行拼接构成查询句,记为S,比如给定问题“What is the smallest unit of copper that still maintains the characteristicsof copper?(能保持铜特性的最小铜单位是什么?)”,以及四个选项a原子、b电子、c细胞核、d质子,能够生成四条查询句;
步骤1.2:将步骤1.2中得到的查询句进行步骤1.2.1至步骤1.2.2操作:
步骤1.2.1:剔除查询句中存在的停滞词语,比如what,that,the这些没有实质意义的词语;
步骤1.2.2:使用TF-IDF计算步骤1.2.1的查询句与外部语料库中每个句子的匹配度,根据数值大小进行排序,选取前N个句子构成候选知识集合,例如N取25;
步骤1.3:将同一个问题下的每个答案候选选项获得的步骤1.2.2中的候选知识集合进行汇总,选取前M个句子形成新的候选知识集合,记为K,例如M取50,给定问题的候选知识句子的TF-IDF分数以及在集合中的排序如表1所示;
步骤2:利用标注的语料及负采样技术训练知识修正模块;
步骤2.1:根据步骤2.1.1至步骤2.1.2构建供知识修正模块训练的数据集。
步骤2.1.1:提取步骤1.1中的问题和每个答案候选选项所构成的查询句S,以及数据集本身提供的最相关的知识句,记为F;
步骤2.1.2:对步骤2.1.1提取到查询句及对应的知识句依照以下规则构建正负样例:正确答案候选选项与问题拼接所构成的查询句S,与对应的知识句F一起标记为正例-1;反之,错误答案候选选项与问题拼接所构成的查询句S′,与对应的知识句F一起标记为负例-0;
步骤2.2:通过基于双向变换器的神经语言模型BERT对步骤2.1.1中的查询句S以及知识句F进行分别编码,输出为查询句和知识句的向量表示;
步骤2.3:采用负采样技术设立训练目标函数LKR,针对步骤2.2获得的查询句和知识句的向量表示,将其代入如下公式(1):
LKR=-(log(σ(VS+ TVF))+log(σ(-VS- TVF))) (1)
其中,σ为激活函数,将变量映射到0-1之间,VS+/-、VF分别是由两个不同初始权重的神经语言模型编码获得的查询句和知识句向量表示,其中,VS+为步骤2.1.2中标记为正例的查询句表示,VS-为步骤2.1.2中标记为负例的查询句表示;T为点乘操作;
步骤2.4:使用梯度下降算法优化目标函数LKR中神经语言模型中的参数,使LKR最小化,优化结束后得到知识修正模块中所有神经网络的最优参数;
步骤3:利用知识修正模块对候选知识集合进行语义排序;
步骤3.1:利用步骤2.4中训练得到知识修正模块中神经语言模型,对步骤1.1中的查询句S以及步骤1.3的候选知识集合K分别进行编码表示,记作VS和VK;
步骤3.2:将步骤3.1中获得的VS和VK代入公式(2)中,获得置信度分数:
其中,j表示候选知识集合中第j条知识句子,上限为M,i表示同一个问题对应的第i个答案候选选项,上限为n;
步骤3.3:利用步骤3.2计算得到的置信度分数对步骤1.3中的候选知识集合K进行句子排序,例如,给定问题的候选知识句子经过知识修正以及于语义排序后的分数和在集合的排序如表1所示;
步骤4:结合语义排序后的知识,输入答案预测模型进行答案预测;
步骤4.1:取步骤3.3中语义排序后的后续知识集合K取前五句,进行拼接构成背景知识段落;
步骤4.2:将步骤4.1中的背景知识段落、步骤1.1中的问题和答案候选选项进行拼接,将拼接后的语句以及对应的答案标签输入至由双向变换器的神经语言模型BERT和一层分类层叠加构建的答案预测模型中进行训练。
步骤4.3:使用梯度下降算法优化交叉熵损失函数中双向变换器的神经语言模型参数、分类层的参数,使交叉熵损失函数最小化,优化结束后得到答案预测模型中神经网络的最优参数。
步骤4.4:使用步骤4.3中训练好的答案预测模型对测试样本数据进行预测,利用分类器最后的数值对每个答案候选选项进行排序,分数最高的答案候选选项为系统预测的最终选项。
例如,模型在融入经过知识修正和语义排序后的知识后,成功地预测答案选项为A,而采用传统TF-IDF的方法则错误地预测为B。
表1本方法在ARC数据集中具体实例上的效果
实施例2
在通过ARC和OpenbookQA英文多项选择问答数据集中进行多项选择问答任务中,实验表明,在相同的数据集下,本发明所采用的基于语义排序和知识修正的多项选择问答方法与传统不引入知识的方法以及基于TF-IDF检索知识的方法相比,采用准确率Accuracy作为评测指标,可以得到如下实验结果:
表2使用本发明方法与传统方法性能对比
表2的实验结果证明:在数据相同的情况下,采用本发明所述方法与不使用本发明的方法相比,Accuracy评测指标有明显提升。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实例和附图所公开的内容。凡是不脱离本发明所公开的精神下所完成的等效或修改,都落入本发明的保护范围。
Claims (2)
1.一种基于语义排序和知识修正的多项选择问答方法,其特征在于,所述多项选择问答,即针对一个问题,需要从两个及以上答案候选选项中寻找正确的答案选项;
包括以下步骤:
步骤1:根据问题及答案候选选项,利用TF-IDF技术,从外部语料库中进行知识检索,获得候选知识集合;其中,答案候选选项即一个问题下,可能是正确答案的选项,TF-IDF用以统计、评估一个字词对于一个文件集或语料库中一份文件的重要程度,外部语料库即与当前任务领域无关的文本,候选知识集合即包含若干个与当前问题相关的句子的集合;
步骤1.1:将问题与每个答案候选选项进行拼接构成查询句,记为S;其中,查询句即问题与答案候选选项拼接后形成的语句,用于从外部语料库中检索相关知识;
步骤1.2:将步骤1.1中得到的查询句进行步骤1.2.1至步骤1.2.2操作;
步骤1.2.1:剔除查询句中存在的停滞词语,其中,停滞词语即普遍的功能词,不具备任何实际含义;
步骤1.2.2:使用TF-IDF技术,计算步骤1.2.1的查询句与外部语料库中每个句子的匹配度;按照数值从大到小进行排序,选取前N个句子构成候选知识集合;
步骤1.3:将同一个问题下的每个答案候选选项获得的步骤1.2.2中的候选知识集合进行汇总,选取前M个句子形成新的候选知识集合,记为K;
步骤2:利用标注的语料及负采样技术训练知识修正模块;其中,负采样即根据正样本的构建方式采样生成与之相反的负样本;
步骤2.1:根据步骤2.1.1-步骤2.1.2构建供知识修正模块训练的数据集;
步骤2.1.1:提取步骤1.1中的问题和每个答案候选选项所构成的查询句S,以及数据集本身提供的最相关的知识句,记为F;
步骤2.1.2:对步骤2.1.1提取到查询句及对应的知识句,依照以下规则构建正负样例:
将正确答案候选选项与问题拼接所构成的查询句,与对应的知识句F一起标记为正例-1;反之,错误答案候选选项与问题拼接所构成的查询句,与对应的知识句F一起标记为负例-0;
步骤2.2:通过基于双向变换器的神经语言模型BERT,对步骤2.1.1中的查询句S以及知识句F分别进行编码,输出为查询句和知识句的向量表示;
其中,为激活函数,将变量映射到0-1之间;、分别是由两个不同初始权重的神经语言模型编码获得的查询句和知识句向量表示;为步骤2.1.2中标记为正例的查询句表示,为步骤2.1.2中标记为负例的查询句表示;T为点乘操作;
步骤3:利用知识修正模块对候选知识集合进行语义排序;
其中,置信度即能够体现答案本身质量的标识;j表示候选知识集合中第j条知识句子,上限为M,i表示同一个问题对应的第i个答案候选选项,上限为n;表示由第i个答案候选选项与问题所构成的查询句的向量表示,表示候选知识集合中第j条知识句子的向量表示,n表示同一个问题下的答案候选选项数目上限;
步骤3.3:利用步骤3.2计算得到的置信度分数,对步骤1.3中的候选知识集合K 进行句子排序;
步骤4:结合语义排序后的知识,输入答案预测模型进行答案预测。
2.如权利要求1所述的一种基于语义排序和知识修正的多项选择问答方法,其特征在于,步骤4的具体实现方法如下:
步骤4.1:取步骤3.3中语义排序后的后续知识集合K取前五句,进行拼接构成背景知识段落;其中,背景知识段落即多个主题相关的知识句子拼接而成的文本段落;
步骤4.2:将步骤4.1中的背景知识段落、步骤1.1中的问题和答案候选选项进行拼接,将拼接后的语句以及对应的答案标签输入至由双向变换器的神经语言模型BERT和一层分类层叠加构建的答案预测模型中进行训练;
步骤4.3:使用梯度下降算法,优化交叉熵损失函数中双向变换器的神经语言模型参数、分类层的参数,使交叉熵损失函数最小化,优化结束后得到答案预测模型中神经网络的最优参数;
步骤4.4:使用步骤4.3中训练好的答案预测模型对测试样本数据进行预测,利用分类器最后的数值对每个答案候选选项进行排序,分数最高的答案候选选项为模型预测的最终选项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011548750.4A CN112528003B (zh) | 2020-12-24 | 2020-12-24 | 一种基于语义排序和知识修正的多项选择问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011548750.4A CN112528003B (zh) | 2020-12-24 | 2020-12-24 | 一种基于语义排序和知识修正的多项选择问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528003A CN112528003A (zh) | 2021-03-19 |
CN112528003B true CN112528003B (zh) | 2022-10-04 |
Family
ID=74976194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011548750.4A Active CN112528003B (zh) | 2020-12-24 | 2020-12-24 | 一种基于语义排序和知识修正的多项选择问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528003B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836901B (zh) * | 2021-09-14 | 2023-11-14 | 灵犀量子(北京)医疗科技有限公司 | 一种中英文医学同义词数据清洗方法及系统 |
CN118364813B (zh) * | 2024-06-20 | 2024-10-01 | 曲阜师范大学 | 基于机器阅读理解的知识增强方法、系统、装置、介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765254A (zh) * | 2019-10-21 | 2020-02-07 | 北京理工大学 | 一种融合多视角答案重排序的多文档问答系统模型 |
CN111339281A (zh) * | 2020-03-24 | 2020-06-26 | 苏州大学 | 一种多视角融合的阅读理解选择题的答案选择方法 |
CN111782786A (zh) * | 2020-07-01 | 2020-10-16 | 中关村科学城城市大脑股份有限公司 | 用于城市大脑的多模型融合问答方法及系统、介质 |
WO2020227651A1 (en) * | 2019-05-09 | 2020-11-12 | Automobilia Ii, Llc | Methods, systems and computer program products for media processing and display |
CN112100351A (zh) * | 2020-09-11 | 2020-12-18 | 陕西师范大学 | 一种通过问题生成数据集构建智能问答系统的方法及设备 |
-
2020
- 2020-12-24 CN CN202011548750.4A patent/CN112528003B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020227651A1 (en) * | 2019-05-09 | 2020-11-12 | Automobilia Ii, Llc | Methods, systems and computer program products for media processing and display |
CN110765254A (zh) * | 2019-10-21 | 2020-02-07 | 北京理工大学 | 一种融合多视角答案重排序的多文档问答系统模型 |
CN111339281A (zh) * | 2020-03-24 | 2020-06-26 | 苏州大学 | 一种多视角融合的阅读理解选择题的答案选择方法 |
CN111782786A (zh) * | 2020-07-01 | 2020-10-16 | 中关村科学城城市大脑股份有限公司 | 用于城市大脑的多模型融合问答方法及系统、介质 |
CN112100351A (zh) * | 2020-09-11 | 2020-12-18 | 陕西师范大学 | 一种通过问题生成数据集构建智能问答系统的方法及设备 |
Non-Patent Citations (2)
Title |
---|
Multi-turn QA: A RNN Contextual Approach to Intent Classification for Goal-oriented Systems;Martino Mensio et al.;《Companion Proceedings of the The Web Conference 2018》;20180430;1075-1080 * |
面向自然语言处理的预训练技术研究综述;李舟军等;《计算机科学》;20200331;第47卷(第03期);162-173 * |
Also Published As
Publication number | Publication date |
---|---|
CN112528003A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN111125331B (zh) | 语义识别方法、装置、电子设备及计算机可读存储介质 | |
CN108829801B (zh) | 一种基于文档级别注意力机制的事件触发词抽取方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN110765254A (zh) | 一种融合多视角答案重排序的多文档问答系统模型 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN112528003B (zh) | 一种基于语义排序和知识修正的多项选择问答方法 | |
CN115238697A (zh) | 基于自然语言处理的司法命名实体识别方法 | |
CN116719520A (zh) | 代码生成方法及装置 | |
CN112015760B (zh) | 基于候选答案集重排序的自动问答方法、装置和存储介质 | |
CN113449514A (zh) | 一种适用于特定垂直领域的文本纠错方法及其纠错装置 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
CN112685548B (zh) | 问题回答方法以及电子设备、存储装置 | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN110334204B (zh) | 一种基于用户记录的习题相似度计算推荐方法 | |
Alwaneen et al. | Stacked dynamic memory-coattention network for answering why-questions in Arabic | |
CN113590745B (zh) | 一种可解释的文本推断方法 | |
CN115221284A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
CN114896966A (zh) | 一种中文文本语法错误定位方法、系统、设备及介质 | |
CN115809655A (zh) | 一种基于归因网络和bert的中文字符纠正方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |