CN109408821B - 一种语料生成方法、装置、计算设备及存储介质 - Google Patents

一种语料生成方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN109408821B
CN109408821B CN201811232263.XA CN201811232263A CN109408821B CN 109408821 B CN109408821 B CN 109408821B CN 201811232263 A CN201811232263 A CN 201811232263A CN 109408821 B CN109408821 B CN 109408821B
Authority
CN
China
Prior art keywords
corpus
template
main
target field
query sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811232263.XA
Other languages
English (en)
Other versions
CN109408821A (zh
Inventor
周辉阳
饶孟良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201811232263.XA priority Critical patent/CN109408821B/zh
Publication of CN109408821A publication Critical patent/CN109408821A/zh
Application granted granted Critical
Publication of CN109408821B publication Critical patent/CN109408821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理技术领域,公开了一种语料生成方法、装置、计算设备及存储介质,用于提升语料质量,进而提升模型的识别准确度,所述方法包括:获取目标领域的查询语句模板,每个领域的查询语句模板包括为该领域设置的至少一个具有扩展样例的通用查询句式,每一个通用查询句式中包括描述该领域的主词以及描述该主词的属性的谓词;从第一知识图谱中抽取属于所述目标领域的主词以及主词对应的谓词;采用抽取的主词以及主词对应的谓词替换所述查询语句模板中至少一个通用查询句式,生成所述目标领域的语料。

Description

一种语料生成方法、装置、计算设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种语料生成方法、装置、计算设备及存储介质。
背景技术
在自然语言处理中,为了能够更为准确地识别用户意图,需要建立用于识别用户意图的模型,而模型的识别能力很大程度是取决于用于训练该模型的语料的质量。一个领域的语料质量主要体现两个方面,一是语料越丰富即数量大,则通过语料训练出来的模型就越好,对用户海量查询query的支持程度越高;二是不同领域之间的语料区分度越大,边界越是明显,则训练出来的模型分类效果即识别准确度也就越好,对于比较模糊的用户问法意图预测也更加准确。
因此,如何提升语料质量,以提升模型的识别准确度,也是一个需要解决的技术问题。
发明内容
本发明实施例提供一种语料生成方法、装置、计算设备及存储介质,用于提升语料质量,进而提升模型的识别准确度。
一方面,本发明实施例提供了一种语料生成方法,包括:
获取目标领域的查询语句模板,每个领域的查询语句模板包括为该领域设置的至少一个具有扩展样例的通用查询句式,每一个通用查询句式中包括描述该领域的主词以及描述该主词的属性的谓词;
从第一知识图谱中抽取属于所述目标领域的主词以及主词对应的谓词;
采用抽取的主词以及主词对应的谓词替换所述查询语句模板中至少一个通用查询句式,生成所述目标领域的语料。
本发明实施例提供的语料生成方法,可以获取目标领域中的查询语句模板以及进一步从包括各领域海量的已有知识的第一知识图谱中,抽取目标领域的主词以及主词对应的谓词,由于查询语句模板为具有扩展样例的通用查询句式,且从第一知识图谱中抽取到的目标领域的主词以及主词对应的谓词不仅数量充足,且领域区分度大,因此,使用从第一知识图谱中抽取的主词以及主词对应的谓词替换查询语句模板中每一个用查询句式,生成的语料不仅数量丰富,且语料的领域区分度大,所以,具有提升领域语料质量的技术效果,语料质量的提升也进一步提升了基于语料训练获得的模型的识别准确度。
同时由于本发明实施例是从第一知识图谱中抽取属于目标领域的主词以及主词对应的谓词替换查询语句模板中每一个用查询句式,生成的语料领域区分度大,在将生成的语料入库语料库时,可以减少人工检验的流程,所以,也降低了人力成本。
另一方面,本发明实施例提供了一种识别用户意图的模型生成方法,包括:
获取如本发明实施例提供的语料生成方法生成的语料,使用获取的语料进行用户意图识别的模型训练,获得训练后产生的模型。
另一方面,本发明实施例提供了一种语料生成装置,包括:
获取单元,用于获取目标领域的查询语句模板,每个领域的查询语句模板包括为该领域设置的至少一个具有扩展样例的通用查询句式,每一个通用查询句式中包括描述该领域的主词以及描述该主词的属性的谓词;
抽取单元,用于从第一知识图谱中抽取属于所述目标领域的主词以及主词对应的谓词;
替换单元,用于采用抽取的主词以及主词对应的谓词替换所述查询语句模板中至少一个通用查询句式,生成所述目标领域的语料。
另一方面,本发明实施例提供了一种识别用户意图的模型生成装置,包括:
获取单元,用于获取如本发明实施例中的语料生成方法生成的语料;
模型训练单元,用于使用获取的语料进行用户意图识别的模型训练,获得训练后产生的模型。
另一方面,本发明实施例提供了一种计算设备,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行本发明实施例中的语料生成方法的步骤。
另一方面,本发明实施例提供了一种存储介质,所述存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行本发明实施例中的语料生成方法的步骤。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为本发明实施例提供的一种应用场景示意图;
图2为本发明实施例提供的一种语料生成方法的流程图;
图3为本发明实施例提供的第一知识图谱结构的示意图;
图4为本发明实施例提供的一种获取查询句式模板的流程图;
图5为本发明实施例提供的另一种获取查询句式模板的流程图;
图6为本发明实施例提供的抽取第一知识图谱中主词的流程图;
图7为本发明实施例提供的第一知识图谱中语料答案校验流程图;
图8为本发明实施例提供的一种语料生成装置示意图;
图9为本发明实施例提供的一种计算设备示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明技术方案保护的范围。
下面对本发明实施例中涉及的部分概念进行介绍。
语料:即语言材料,语料是语言学研究的内容,语料是构成语料库的基本单元,例如用户的查询Query,Query可以是用户可通过搜索引擎输入的检索词、检索句子等,上述这种自然语言表述的Query可称之为语料,语料是训练深度学习分类模型的基础。
Query:即查询,是指为了在数据库中寻找某一特定文件、网站、记录或一系列记录,由搜索引擎或数据库送出的消息,也可以通俗的理解为用户的问法语料。
实体:指表示一个概念的基本单位。
模板:就是具有扩展样例的一种通用句式。
知识图谱:又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
BFQ:Binary Factoid Question,简称BFQ,即二元事实型问题,比如询问实体某一方面的属性。
KB:Knowledge Base,简称KB,即知识库。
KBQA:Knowledge Base Question Answering,简称KBQA,又可简称为KB-QA,即知识库问答,是指给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。
现有技术中,主要是基于用户查询Query日志生成领域的语料,然而Query日志中的查询记录数量有限,那么具体到某一个领域,属于该领域的查询记录数量就更少了,从而导致基于Query日志生成的领域的语料数量不足,且Query日志中的查询记录涉及各个领域,各领域的查询记录没有进行领域区别,所以,通过用户查询Query日志生成领域的语料,也存在语料的领域区分度低的问题,由于其生成的语料的领域区分度低,通常还需要人工检验check之后才能入库,导致人力人成本增加。
为此,本发明实施例提出了一种语料生成方法,该方法可以获取目标领域中的查询语句模板以及进一步从包括各领域海量的已有知识的第一知识图谱中,抽取目标领域的主词以及主词对应的谓词,由于查询语句模板为具有扩展样例的通用查询句式,且从第一知识图谱中抽取到的目标领域的主词以及主词对应的谓词不仅数量充足,且领域区分度大,因此,使用从第一知识图谱中抽取的主词以及主词对应的谓词替换查询语句模板中每一个通用查询句式,生成的语料不仅数量丰富,且领域区分度大,所以,提升了领域的语料质量,语料质量的提升也进一步提升了基于语料训练获得的模型的识别准确度。进一步的,由于本发明实施例中生成的语料的领域区分度大,在将生成的语料存入语料库时,可以减少人工检验的流程,所以,也降低了人力成本。
本发明实施例中的语料生成方法可以应用于如图1所示的应用场景,在该应用场景中包括语料生成计算设备、模型训练计算设备以及用户终端12。图1所示的实施例中,语料生成计算设备可以为语料生成服务器10、模型训练计算设备可以为模型训练服务器11。其中,语料生成服务器10可以是一台服务器,也可以是若干台服务器组成的服务器集群或云计算中心,语料生成服务器10通过网络与模型训练服务器11通讯,模型训练服务器11通过网络与用户终端12通讯,模型训练服务器11是一台服务器或若干台服务器组成的服务器集群或云计算中心。用户终端12是具备网络通讯能力的电子设备,该电子设备可以是智能手机、平板电脑、便携式个人计算机或其他智能终端等等。
在该场景中,语料生成服务器10可以按照本发明实施例提供的语料生成方法生成各领域的语料,模型训练服务器11可以从语料生成服务器10中获取生成的各领域的语料,进而利用生成的各领域的语料训练获得各领域中用于识别用户意图的模型,以便对通过用户终端12输入的用户查询进行意图识别。
需要注意的是,上文提及的应用场景仅是为了便于理解本发明的精神和原理而示出,本发明实施例在此方面不受任何限制。相反,本发明实施例可以应用于适用的任何场景。
下面结合图1所示的应用场景,对本发明实施例提供的语料生成方法进行说明。
如图2所示,为本发明实施例提供的一种语料生成方法,包括:
步骤201:获取目标领域的查询语句模板。
其中,每个领域的查询语句模板包括为该领域设置的至少一个具有扩展样例的通用查询句式,每一个通用查询句式中包括描述该领域的主词以及描述该主词的属性的谓词。
在本发明实施例中,目标领域可以是任意一个领域,例如可以是知识问答KBQA中的人物知识问答领域、体育知识问答领域、财经知识问答领域等,当需要生成目标领域的语料时,语料生成服务器可以获取目标领域的查询语句模板。
在本发明实施例中,获取目标领域的查询语句模板的方式包括多种,例如,可以根据目标领域的正则化模板拆分出目标领域的查询语句模板,拆分出的查询语句模板中包括至少一个通用查询句式,每一个通用查询句式包括主词以及主词对应的谓词;本发明实施例中也可以从目标领域的语料模板中筛选出目标领域的查询语句模板,同样的,筛选出的查询语句模板中包括至少一个通用查询句式,每一个通用查询句式包括主词以及主词对应的谓词;本发明实施例中还可以同时根据目标领域的正则化模板以及目标领域的语料模板获取到目标领域的查询语句模板。
其中,一个领域的正则化模板是指,属于该领域的具有较强扩展性的模板,例如目标领域为人物知识问答领域时,人物知识问答领域的正则化模板为:([search]|[helpme]|)[person](的|地|得|)[naturalattributes](多少|是多少|到底多高|到底多少|多少英尺)([yuqici]|),根据该正则化模板拆分获得的查询语句模板中通用查询句式可以为:找一下[person]的[naturalattributes]多少啊,我想知道[person]的[naturalattributes]多少啊等等(下文将对拆分的具体过程进行详细介绍)。
一个领域的语料模板是指,该领域的语料入库时对语料进行标注而生成的模板,通常,同一个领域的语料模板比正则化模板简单,例如,在将语料“张三的身高是多少”存入人物知识问答领域的语料库中时,可以对语料“张三的身高是多少”进行模板标注,生成“[person]的[naturalattributes]是多少”的语料模板,其中,[person]为主词,[naturalattributes]为描述[person]的属性的谓词,通常,一个领域中包括多个语料模板,从而可以从目标领域的语料模板中筛选出包括主词与主词对应的谓词的模板作为查询语句模板中的通用查询句式(下文将对筛选的具体过程进行详细介绍)。
步骤202:从第一知识图谱中抽取属于目标领域的主词以及主词对应的谓词。
在本发明实施例中,第一知识图谱中包括各领域海量的已有知识,各领域的已有知识主要包括该领域中的主词以及与主词对应的谓词,当然还可以包括与谓词对应的宾语,其中,领域中的主词又可称为领域的实体,谓词是用于描述主词的属性的词,宾语是与谓词代表的属性对应的答案。
例如图3所示,为第一知识图谱包括的人物知识问答领域中主词为“张三”的部分知识图谱的示意图,即“张三”为人物知识问答领域中的一个主词或一个实体,“身高”、“妻子”、“女儿”、“国籍”、“民族”以及“星座”为描述主词“张三”属性的多个谓词,“174cm”、“丽丽”、“向向”、“中国”、“汉族”、“O型”为与各谓词代表的属性对应的答案。
因此,在本发明实施例中可以从第一知识图谱中抽取属于目标领域的主词以及主词对应的谓词,由于第一知识图谱中对已有知识进行了领域归类,所以,从第一知识图谱中抽取到的目标领域的主词以及主词对应的谓词不仅数量充足,且领域区分度大。
需要说明的是,在本发明实施例中,步骤202可在步骤201之后执行,也可以在步骤201之前执行,还可以与步骤201同时执行。
步骤203:采用抽取的主词以及主词对应的谓词替换所述查询语句模板中至少一个通用查询句式,生成所述目标领域的语料。
在本发明实施例中,在根据步骤201获取到目标领域的查询语句模板以及根据步骤202抽取到目标领域的主词以及主词对应的谓词之后,可针对抽取的主词中的任一主词,采用该任一主词以及与该任一主词对应的谓词替换至少一个通用查询句式中每个通用查询句式,包括替换每个通用查询句式的主词以及主词对应的谓词,从而生成该目标领域的多个语料。
例如人物知识问答领域中,查询语句模板包括的通用查询句式有:[person]的[naturalattributes]是多少,找一下[person]的[naturalattributes]多少啊,我想知道[person]的[naturalattributes]多少啊,从第一知识图谱中抽取的主词为“张三”,抽取的“张三”对应的谓词包括“身高”与“国籍”,那么,就可以用抽取的主词“张三”替换查询语句模板中每个通用查询句式中的主词[person],依次用主词“张三”对应的谓词“身高”与“国籍”替换查询语句模板中每个通用查询句式中的谓词[naturalattributes],从而生成人物知识问答领域的语料,即生成的语料包括:张三的身高是多少,张三的国籍是多少,找一下张三的身高多少啊,找一下张三的国籍多少啊,我想知道张三的身高多少啊,我想知道张三的国籍多少啊。
所以,通过上述方法,可以获取目标领域中的查询语句模板以及进一步从包括各领域海量的已有知识的第一知识图谱中,抽取目标领域的主词以及主词对应的谓词,由于查询语句模板为具有扩展样例的通用查询句式,且从第一知识图谱中抽取到的目标领域的主词以及主词对应的谓词不仅数量充足,且领域区分度大,因此,使用从第一知识图谱中抽取的主词以及主词对应的谓词替换查询语句模板中每一个用查询句式的主词以及主词对应的谓词,生成的语料不仅数量丰富,且语料的领域区分度大,所以,具有提升领域的语料质量的技术效果,语料质量的提升也进一步提升了基于语料训练获得的模型的识别准确度。
同时由于本发明实施例是从第一知识图谱中抽取属于目标领域的主词以及主词对应的谓词替换查询语句模板中每一个通用查询句式的主词以及主词对应的谓词,生成的语料的领域区分度大,在将生成的语料入库语料库时,可以减少人工检验的流程,所以,也降低了人力成本。
一种可选的方式,本发明实施例中在根据目标领域的正则化模板拆分出目标领域的查询语句模板时,步骤201可以按照如图4所示的流程执行。
图4所示的流程,包括:
步骤401:获取目标领域的正则化模板;
步骤402:针对正则化模板中除主词和谓词之外的任一词类,从任一词类表征的多个词中选择一个词替换该任一词类,获得替换后的正则化模板;
步骤403:拆分替换后的正则化模板,并从拆分的结果中获取至少一个通用查询句式,该至少一个通用查询句式包括主词以及主词对应的谓词。
其中,获取的至少一个通用查询句式中的每个通用查询句式形成查询语句模板中的一个通用查询句式。
在图4所示的流程中,需要生成目标领域的语料时,语料生成服务器可以获取目标领域的正则化模板,通常,一个领域的正则化模板中包括主词和主词对应的谓词在内的多种词类,每一种词类可以表征多个具体的词。
例如,当目标领域为人物知识问答领域时,获取人物知识问答领域的正则化模板为:([search]|[helpme]|)[person](的|地|得|)[naturalattributes](多少|是多少|到底多高|到底多少|多少英尺)([yuqici]|)。其中,正则化模板中“[]”可表示一种词类,比如主词、谓词、感叹词,副词等,“()”表示中间可能有汉字,“|”表示多选一的选择。
正则化模板中的[person]为主词,代表人物的名称,比如person表征的词可以有:“张三”,“李四”,“王麻子”…;[naturalattributes]为描述主词person的属性的谓词,即表征人物的一般自然属性,比如naturalattributes表征的词可以有:“身高”,“性别”,“儿子”,“妻子”…;[search]、[yuqici]和[helpme]都是除主词和谓词之外的其他类型的词类,search表征的词可以有:“找一下”,“找下”,“搜一下”,“看下”…;helpme表征的词可以有:“我想知道”,“请告诉我”,“能给我说下”…;yuqici表征的词可以有:“啊”,“呀”,“呢”…;(的|地|得|)表示这三个字可以含有中间的一个或者没有,(多少|是多少|到底多高|到底多少|多少英尺)表示必须含有这几个词中间的一个。
在本发明实施例中,由于正则化模板中主词和主词对应的谓词才是生成语料的关键,为了便于后续处理,还可以对获取的正则化模板进行简化处理,变成包含主词和主词对应的谓词的二元化模板,即将获取的正则化模板中除主词和谓词之外的任一词类,从该任一词类表征的多个词中选择一个词替换该任一词类,获得替换后的正则化模板。
这里继续以目标领域为人物知识问答领域,获取的人物知识问答领域的正则化模板为:([search]|[helpme]|)[person](的|地|得|)[naturalattributes](多少|是多少|到底多高|到底多少|多少英尺)([yuqici]|)为例,针对该正则化模板中除去主词和谓词之外的其他词类中的任一词类,可以从该任一词类表征的多个词中随机选择一个词替换该任一词类,也可以从该任一词类表征的多个词中选择热度值最高的一个词替换该任一词类。
例如,可将正则化模板中的词类search替换成其表征的多个词中热度值最高的词“找一下”(这里假设其表征的多个词中“找一下”的热度值最高),还可以从search表征的多个词中随机选择一个词进行替换;同样的,针对正则化模板中的词类helpme,也可以选择其表征的多个词中热度值最高的词“我想知道”(这里假设其表征的多个词中“我想知道”的热度值最高),还可以从helpme表征的多个词中随机选择一个词进行替换;同样的,针对正则化模板中的词类yuqici,也可以选择其表征的多个词中热度值最高的词“啊”(这里假设其表征的多个词中“啊”的热度值最高),还可以从yuqici表征的多个词中随机选择一个词进行替换。
这里假设选择search表征的多个词中热度值最高的词代替search,选择helpme表征的多个词中热度值最高的词代替helpme以及选择yuqici表征的多个词中热度值最高的词代替yuqici,那么,替换后的正则化模板就为:(找一下|我想知道|)[person](的|地|得|)[naturalattributes](多少|是多少|到底多高|到底多少|多少英尺)(啊|)。
对替换后的正则化模板按照正则规则进行拆分,可以拆分成如:找一下[person]的[naturalattributes]多少啊,我想知道[person]的[naturalattributes]多少啊,[person]的[naturalattributes]多少啊等一系列简单的二元化模板,在拆分获得的多个二元化模板即拆分的结果中选择包括主词以及主词对应的谓词的二元化模板作为通用查询句式,从而获得至少一个通用查询句式,获得的每一个通用查询句式形成查询语句模板中的一个通用查询句式。
一种可选的方式,在本发明实施例从目标领域的语料模板中筛选出目标领域的查询语句模板时,步骤201可以按照如图5所示的流程执行。
图5所示的流程,包括:
步骤501:获取目标领域的语料模板;
步骤502:从语料模板中筛选出包括主词以及主词对应的谓词的查询语句模板。
在图5所示的流程中,当需要生成目标领域的语料时,语料生成服务器可以获取目标领域的语料模板,目标领域的语料模板是指在目标领域的语料入库时,对语料进行模板标注生成的模板,例如,当目标领域为人物知识问答领域,将语料“张三的身高是多少”存入人物知识问答领域的语料库,其中,语料“张三的身高是多少”中的张三是一个person,身高是一个naturalattributes,那么,就可以对语料“张三的身高是多少”进行模板标注,生成“[person]的[naturalattributes]是多少”的语料模板。
通常,一个领域中包括多个语料模板,对应的,获取目标领域的语料模板就包括多个,可以从获取的多个语料模板中筛选出包括主词以及主词对应的谓词的至少一个语料模板,可以将至少一个语料模板中每一个语料模板作为一个通用查询句式,每一个通用查询句式形成查询语句模板中的一个通用查询句式,从而完成从目标领域的语料模板中筛选出目标领域的查询语句模板。
一种可选的方式,在本发明实施例中,在同时根据目标领域的正则化模板以及目标领域的语料模板获取目标领域的查询语句模板时,可以如上文图4所示的流程对获取的目标领域的正则化模板依次进行除主词和谓词之外的任一词类替换、拆分替换后的正则化模板,从而根据拆分的结果,获得包括主词以及主词对应的谓词的多个二元化模板;还可以同时如图5所示的流程获取目标领域的语料模板,并从获取的语料模板中筛选出包括主词以及主词对应的谓词的至少一个语料模板,然后将上述多个二元化模板以及筛选出的至少一个语料模板共同作为查询句式模板中的通用查询句式。
一种可选的方法,本发明实施例中的步骤202还可以按照图6所示的流程执行,图6所示的流程包括:
步骤601:确定第一知识图谱中属于目标领域的主词的类型标识ID;
步骤602:根据确定的ID以及预设数目,从第一知识图谱中抽取热度值最高的主词以及主词对应的谓词。
在本发明实施例中,第一知识图谱中各领域包括几十万甚至上百万的主词,为了区分不同领域的主词,可为第一知识图谱中不同领域的主词进行领域类型标注,即为第一知识图谱中各主词设置领域类型标识ID(下文简称ID),例如,将第一知识图谱中属于人物知识问答领域所有主词的ID设置为15,将第一知识图谱中属于体育知识问答领域的所有主词的ID设置为20,将第一知识图谱中属于财经知识问答领域的所有主词的ID设置为33。
因此,可确定出第一知识图谱中属于目标领域的主词的类型标识ID,以便从第一知识图谱中准确抽取属于目标领域的主词以及主词对应的谓词,进而有利于生成领域区分度大的语料,从而有利于提升基于该语料训练的模型的识别准确度。
在本发明实施例中,进一步考虑到第一知识图谱中各领域包括的主词数据量较大,而人们查询比较频繁的主词一般为热度值较高的词,热度值较低的主词极少被人们查询,为了提升语料生成的速率,还可以预先设置一个合适的主词抽取数目即预设数目,例如,1000个主词,或10000个主词,所以,还可以根据定确定出的第一知识图谱中属于目标领域的主词的类型标识ID,从第一知识图谱中抽取热度值最高的预设数目的主词以及主词对应的谓词。
一种可选的方式,在本发明实施例中在生成目标语料之后,还可以执行图7所示的流程,图7所示的流程包括:
步骤701:从第二知识图谱中获取与生成的语料对应的答案,第二知识图谱与第一知识图谱不同;
步骤702:确定第一知识图谱中是否存在与生成的语料对应的答案,若存在,则执行步骤703,否则执行步骤704;
步骤703:采用从第二知识图谱中获取的答案校验第一知识图谱中与生成的语料对应的答案;
步骤704:将从第二知识图谱中获取的答案存放在第一知识图谱中。
在本发明实施例中,为了验证第一知识图谱中是否存在与生成的语料对应的答案或存在与生成的语料对应的答案时验证该答案是否准确,可以通过与第二知识图谱通讯的接口,从第二知识图谱中获取与生成的语料对应的答案,其中,第二知识图谱的数目可为一个或多个。
在本发明实施例中,若确定第一知识图谱中存在与生成的语料对应的答案时,则可以使用从第二知识图谱中获取的与生成的语料对应的答案来验证第一知识图谱中与生成的语料对应的答案的准确性,例如,“张三的血型是多少”为本发明实施例中生成的一个语料,可从第一知识图谱中获取与该语料对应的答案,若第一知识图谱中存在与该语料对应的答案,且答案为O型,若从第二知识图谱中获取的该语料对应的答案为A型,则可以将第一知识图谱中与该语料对应的答案O型更改为A型,若从第二知识图谱中获取的该语料对应的答案也为O型,则认为第一知识图谱中的答案为正确的答案,此时可不做处理。
若确定第一知识图谱中不存在与生成的语料对应的答案时,可将从第二知识图谱中获取的与生成的语料对应的答案存放在第一知识图谱中,作为第一知识图谱中与该语料对应的答案,例如,“张三的血型是多少”为本发明实施例中生成的一个语料,假设从第二知识图谱中获取的该语料对应的答案为O型,若从第一知识图谱中未获取到与该语料对应的答案,可以将从第二知识图谱中获取的答案O型添加到第一知识图谱中,进而完善第一知识图谱中生成的语料对应的答案。
一种可选的方式,在本发明实施例中,在生成目标领域的语料之后,可以将生成的语料添加到目标领域的语料库中,使用添加了按照本发明实施例生成的语料之后的语料库中的语料,进行目标领域的用户意图识别模型训练如深度分类模型训练,生成一个新的模型,由于本发明实施例的语料生成方法生成的语料,不仅数量丰富且领域区分度大,因此,基于本发明实施例生成的语料训练出的领域模型也就具有更高的用户意图识别能力。
在实际应用中,可以将本发明实施例中的语料生成方法,应用到各领域的语料挖掘应用场景中,以提升各领域的基于挖掘的语料训练的模型的质量,在实际应用中,还可以使用编程语言如C语言、C++语言、Java语言等,基于本发明实施例提供的语料生成方法,开发专门用于生成不同领域的语料的程序或APP,进而在需要生成领域语料或领域模板训练时,调用该程序或APP,完成领域语料的生成或领域模板的训练。
基于同一发明构思,本发明实施例中提供了一种语料生成装置,该装置的语料生成方法的具体实施可参见上述方法实施例部分的描述,重复之处不再赘述,如图8所示,该装置包括:
获取单元80,用于获取目标领域的查询语句模板,每个领域的查询语句模板包括为该领域设置的至少一个具有扩展样例的通用查询句式,每一个通用查询句式中包括描述该领域的主词以及描述该主词的属性的谓词;
抽取单元81,用于从第一知识图谱中抽取属于所述目标领域的主词以及主词对应的谓词;
替换单元82,用于采用抽取的主词以及主词对应的谓词替换所述查询语句模板中至少一个通用查询句式,生成所述目标领域的语料。
可选的,所述获取单元80还用于:
根据所述目标领域的正则化模板拆分出目标领域的查询语句模板;和/或
从所述目标领域的语料模板中筛选出目标领域的查询语句模板。
可选的,所述获取单元80还用于:
获取目标领域的正则化模板;
针对所述正则化模板中除主词和谓词之外的任一词类,从所述任一词类表征的多个词中选择一个词替换所述任一词类,获得替换后的所述正则化模板;
拆分替换后的所述正则化模板,并从拆分的结果中获取至少一个通用查询句式,该至少一个通用查询句式包括主词以及主词对应的谓词;其中,获取的至少一个通用查询句式中的每个通用查询句式形成所述查询语句模板中的一个通用查询句式。
可选的,所述获取单元80还用于:
获取所述目标领域的语料模板;
从所述语料模板中筛选出包括主词以及主词对应的谓词的查询语句模板。
可选的,所述抽取单元81还用于:
确定所述第一知识图谱中属于所述目标领域的主词的类型标识ID;
根据所述ID以及预设数目,从所述第一知识图谱中抽取热度值最高的主词以及主词对应的谓词。
可选的,所述替换单元82还用于:
针对抽取的预设数目的主词中的任一主词,采用所述任一主词以及与所述任一主词对应的谓词替换所述至少一个通用查询句式中的每个通用查询句式,包括替换所述每个通用查询句式的主词以及主词对应的谓词,从而生成所述目标领域的语料。
可选的,所述获取单元80还用于:
从第二知识图谱中获取与生成的语料对应的答案,所述第二知识图谱与所述第一知识图谱不同;
若所述第一知识图谱中存在与生成的语料对应的答案,则采用从所述第二知识图谱中获取的答案校验所述第一知识图谱中与生成的语料对应的答案;
若所述第一知识图谱中不存在与生成的语料对应的答案,则将从所述第二知识图谱中获取的答案存放在所述第一知识图谱中。
基于同一发明构思,本发明实施例中提供了一种识别用户意图的模型生成方法,该方法的具体实施可参见上述方法实施例部分中对基于生成的语料进行模型训练的描述,重复之处不再赘述,该方法包括:
获取如本发明实施例提供的方法生成的语料,使用获取的语料进行用户意图识别的模型训练,获得训练后产生的模型。
基于同一发明构思,本发明实施例中提供了一种识别用户意图的模型生成装置,其包括:
获取单元,用于获取如本发明实施例提供的方法生成的语料;
模型训练单元,用于使用获取的语料进行用户意图识别的模型训练,获得训练后产生的模型。
基于同一发明构思,本发明实施例中提供了一种计算设备,如图9所示,包括至少一个处理器90、以及至少一个存储器91,其中,所述存储器91存储有计算机程序,当所述程序被所述处理器90执行时,使得所述处理器90执行本发明实施例提供的语料生成方法的步骤。
基于同一发明构思,本发明实施例中提供了一种存储介质,其特征在于,所述存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如本发明实施例提供的语料生成方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (15)

1.一种语料生成方法,其特征在于,包括:
获取目标领域的查询语句模板,每个领域的查询语句模板包括为该领域设置的至少一个具有扩展样例的通用查询句式,每一个通用查询句式中包括描述该领域的主词以及描述该主词的属性的谓词;其中,所述获取目标领域的查询语句模板,具体包括:根据所述目标领域的正则化模板拆分出所述目标领域的查询语句模板,所述正则化模板是从正则化模板中除主词和谓词之外的任一词类表征的多个词中选择一个词替换所述任一词类得到的;
从第一知识图谱中抽取属于所述目标领域的主词以及主词对应的谓词;
采用抽取的主词以及主词对应的谓词替换所述查询语句模板中至少一个通用查询句式,生成所述目标领域的语料。
2.如权利要求1所述的方法,其特征在于,所述获取目标领域的查询语句模板,还包括:
从所述目标领域的语料模板中筛选出所述目标领域的查询语句模板。
3.如权利要求1所述的方法,其特征在于,所述根据所述目标领域的正则化模板拆分出所述目标领域的查询语句模板,具体包括:
获取所述目标领域的正则化模板;
针对所述正则化模板中除主词和谓词之外的任一词类,从所述任一词类表征的多个词中选择一个词替换所述任一词类,获得替换后的所述正则化模板;
拆分替换后的所述正则化模板,并从拆分的结果中获取至少一个通用查询句式,该至少一个通用查询句式包括主词以及主词对应的谓词;
其中,获取的至少一个通用查询句式中的每个通用查询句式形成所述查询语句模板中的一个通用查询句式。
4.如权利要求2所述的方法,其特征在于,所述从所述目标领域的语料模板中筛选出所述目标领域的查询语句模板,具体包括:
获取所述目标领域的语料模板;
从所述语料模板中筛选出包括主词以及主词对应的谓词的查询语句模板。
5.如权利要求1-4任一项所述的方法,其特征在于,所述从第一知识图谱中抽取属于所述目标领域的主词以及主词对应的谓词,具体包括:
确定所述第一知识图谱中属于所述目标领域的主词的类型标识ID;
根据所述ID及预设数目,从所述第一知识图谱中抽取热度值最高的主词以及主词对应的谓词。
6.如权利要求5所述的方法,其特征在于,所述采用抽取的主词以及主词对应的谓词替换所述查询语句模板中至少一个通用查询句式,生成所述目标领域的语料,具体包括:
针对抽取的预设数目的主词中的任一主词,采用该主词以及与该主词对应的谓词替换所述至少一个通用查询句式中的每个通用查询句式,包括替换所述每个通用查询句式的主词以及主词对应的谓词,从而生成所述目标领域的语料。
7.如权利要求1所述的方法,其特征在于,所述生成所述目标领域的语料之后,所述方法还包括:
从第二知识图谱中获取与生成的语料对应的答案,所述第二知识图谱与所述第一知识图谱不同;
若所述第一知识图谱中存在与生成的语料对应的答案,则采用从所述第二知识图谱中获取的答案校验所述第一知识图谱中与生成的语料对应的答案;
若所述第一知识图谱中不存在与生成的语料对应的答案,则将从所述第二知识图谱中获取的答案存放于所述第一知识图谱中。
8.一种识别用户意图的模型生成方法,其特征在于,包括:
获取如权利要求1-7中任一项所述的语料,使用获取的语料进行用户意图识别的模型训练,获得训练后产生的模型。
9.一种语料生成装置,其特征在于,包括:
获取单元,用于获取目标领域的查询语句模板,每个领域的查询语句模板包括为该领域设置的至少一个具有扩展样例的通用查询句式,每一个通用查询句式中包括描述该领域的主词以及描述该主词的属性的谓词;其中,所述获取目标领域的查询语句模板,具体包括:根据所述目标领域的正则化模板拆分出所述目标领域的查询语句模板,所述正则化模板是从正则化模板中除主词和谓词之外的任一词类表征的多个词中选择一个词替换所述任一词类得到的;
抽取单元,用于从第一知识图谱中抽取属于所述目标领域的主词以及主词对应的谓词;
替换单元,用于采用抽取的主词以及主词对应的谓词替换所述查询语句模板中至少一个通用查询句式,生成所述目标领域的语料。
10.如权利要求9所述的装置,其特征在于,所述获取单元还用于:
从所述目标领域的语料模板中筛选出所述目标领域的查询语句模板。
11.如权利要求9所述的装置,其特征在于,所述获取单元还用于:
获取所述目标领域的正则化模板;
针对所述正则化模板中除主词和谓词之外的任一词类,从所述任一词类表征的多个词中选择一个词替换所述任一词类,获得替换后的所述正则化模板;
拆分替换后的所述正则化模板,并从拆分的结果中获取至少一个通用查询句式,该至少一个通用查询句式包括主词以及主词对应的谓词;
其中,获取的至少一个通用查询句式中的每个通用查询句式形成所述查询语句模板中的一个通用查询句式。
12.如权利要求10所述的装置,其特征在于,所述获取单元还用于:
获取所述目标领域的语料模板;
从所述语料模板中筛选出包括主词以及主词对应的谓词的查询语句模板。
13.一种识别用户意图的模型生成装置,其特征在于,包括:
获取单元,用于获取如权利要求1-7中任一项所述的语料;
模型训练单元,用于使用获取的语料进行用户意图识别的模型训练,获得训练后产生的模型。
14.一种计算设备,其特征在于,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1~7任一项所述方法的步骤。
15.一种存储介质,其特征在于,所述存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1-7任一权利要求所述的方法的步骤。
CN201811232263.XA 2018-10-22 2018-10-22 一种语料生成方法、装置、计算设备及存储介质 Active CN109408821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811232263.XA CN109408821B (zh) 2018-10-22 2018-10-22 一种语料生成方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811232263.XA CN109408821B (zh) 2018-10-22 2018-10-22 一种语料生成方法、装置、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN109408821A CN109408821A (zh) 2019-03-01
CN109408821B true CN109408821B (zh) 2020-09-04

Family

ID=65468810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811232263.XA Active CN109408821B (zh) 2018-10-22 2018-10-22 一种语料生成方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN109408821B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489520B (zh) * 2019-07-08 2023-05-16 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质
CN110807325B (zh) * 2019-10-18 2023-05-26 腾讯科技(深圳)有限公司 谓词识别方法、装置及存储介质
CN110852109A (zh) * 2019-11-11 2020-02-28 腾讯科技(深圳)有限公司 语料生成方法、语料生成装置、和存储介质
CN111026834B (zh) * 2019-12-10 2022-07-08 思必驰科技股份有限公司 问答语料生成方法及系统
CN113127610B (zh) * 2019-12-31 2024-04-19 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN111488463B (zh) * 2020-04-09 2023-08-29 中国银行股份有限公司 测试语料生成方法、装置及电子设备
CN111897840A (zh) * 2020-08-14 2020-11-06 北京字节跳动网络技术有限公司 一种数据搜索方法、装置、电子设备及存储介质
US12106230B2 (en) 2020-10-23 2024-10-01 International Business Machines Corporation Implementing relation linking for knowledge bases
CN113158653B (zh) * 2021-04-25 2021-09-07 北京智源人工智能研究院 预训练语言模型的训练方法、应用方法、装置及设备
CN114298001B (zh) * 2021-11-29 2024-11-08 腾讯科技(深圳)有限公司 语料模板生成方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004000A (zh) * 2016-06-29 2017-08-01 深圳狗尾草智能科技有限公司 一种语料生成装置和方法
CN108038234A (zh) * 2017-12-26 2018-05-15 众安信息技术服务有限公司 一种问句模板自动生成方法及装置
CN108345640A (zh) * 2018-01-12 2018-07-31 上海大学 一种基于神经网络语义分析的问答语料库构建方法
CN108427722A (zh) * 2018-02-09 2018-08-21 卫盈联信息技术(深圳)有限公司 智能交互方法、电子装置及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170024375A1 (en) * 2015-07-26 2017-01-26 Microsoft Technology Licensing, Llc Personal knowledge graph population from declarative user utterances
CN105608070B (zh) * 2015-12-21 2019-01-25 中国科学院信息工程研究所 一种面向新闻标题的人物关系抽取方法
CN105868313B (zh) * 2016-03-25 2019-02-12 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
US10423614B2 (en) * 2016-11-08 2019-09-24 International Business Machines Corporation Determining the significance of an event in the context of a natural language query
CN106776523B (zh) * 2017-01-22 2020-04-07 百度在线网络技术(北京)有限公司 基于人工智能的新闻速报生成方法及装置
CN108376160B (zh) * 2018-02-12 2022-02-18 北京大学 一种中文知识图谱构建方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004000A (zh) * 2016-06-29 2017-08-01 深圳狗尾草智能科技有限公司 一种语料生成装置和方法
CN108038234A (zh) * 2017-12-26 2018-05-15 众安信息技术服务有限公司 一种问句模板自动生成方法及装置
CN108345640A (zh) * 2018-01-12 2018-07-31 上海大学 一种基于神经网络语义分析的问答语料库构建方法
CN108427722A (zh) * 2018-02-09 2018-08-21 卫盈联信息技术(深圳)有限公司 智能交互方法、电子装置及存储介质

Also Published As

Publication number Publication date
CN109408821A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
JP6634515B2 (ja) 自動質問応答システムにおける質問クラスタリング処理方法及び装置
CN106874279B (zh) 生成应用类别标签的方法及装置
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN108345686B (zh) 一种基于搜索引擎技术的数据分析方法及系统
CN109783631B (zh) 社区问答数据的校验方法、装置、计算机设备和存储介质
CN109508458B (zh) 法律实体的识别方法及装置
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
CN108305180B (zh) 一种好友推荐方法及装置
CN109522397B (zh) 信息处理方法及装置
CN113569018A (zh) 问答对挖掘方法及装置
CN113704623B (zh) 一种数据推荐方法、装置、设备及存储介质
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN106407316B (zh) 基于主题模型的软件问答推荐方法和装置
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN109697676B (zh) 基于社交群的用户分析及应用方法和装置
CN108182287A (zh) 一种自动问答方法、装置及服务器
CN113705792A (zh) 基于深度学习模型的个性化推荐方法、装置、设备及介质
CN110209780A (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN113822521A (zh) 题库题目的质量检测方法、装置及存储介质
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN110929519B (zh) 实体属性抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant