语料生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:29401101 阅读:6 留言:0更新日期:2021-07-23 22:38
本发明专利技术涉及人工智能技术领域,尤其涉及一种语料生成方法、装置、设备及存储介质。该语料生成方法包括获取目标问答领域对应的高频提问词以及待挖掘文本;根据高频提问词,从待挖掘文本中提取高频提问词对应的目标应答语句;将高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,并基于文本相似度,获取多个历史提问语句作为历史提问模板;对历史提问模板中的历史提问词替换成所述高频提问词,得到提问语料;将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料。该方法可实现不同垂直领域的问答语料的快速构建,且可有效降低人力成本。本发明专利技术还涉及区块链技术领域,所述历史提问语句可存储至区块链中。

【技术实现步骤摘要】
语料生成方法、装置、计算机设备及存储介质
本专利技术涉及人工智能
,尤其涉及一种语料生成方法、装置、计算机设备及存储介质。
技术介绍
在如今的互联网+时代,人工智能的技术已大规模应用于交流管理等领域,问答系统是人工智能的重要领域,涉及人工智能在垂直领域的应用落地。而对于目前的问答系统来说,用户的问题绝大部分集中在头部的一些高频问题上,也就是FrequentlyAskedQuestions(FAQ)的提出动机,FAQ语料集的数量和质量是整个系统的基础,但是目前并没有通用的全覆盖的FAQ语料集,导致在针对不同的垂直领域,均需要重新构建FAQ语料集,而重新构建FAQ语料集则需要消耗大量人力和物力资源,人工成本高,且效率低。
技术实现思路
本专利技术实施例提供一种语料生成方法、装置、计算机设备及存储介质,以解决现有针对不同垂直领域均需要重新构建语料集,人工成本高且效率低的问题。一种语料生成方法,包括:获取目标问答领域对应的高频提问词以及待挖掘文本;其中,所述高频提问词用于指示所述目标问答领域中高频问题对应的主题词;根据所述高频提问词,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句;对所述高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,获取多个历史提问语句作为历史提问模板;将所述历史提问模板中的历史提问词替换成所述高频提问词,得到提问语料;其中,所述历史提问词为所述历史提问模板对应的主题词;将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料。一种语料生成装置,包括:数据获取模块,用于获取目标问答领域对应的高频提问词以及待挖掘文本;其中,所述高频提问词用于指示所述目标问答领域中高频问题对应的主题词;目标问答语句提取模块,用于根据所述高频提问词,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句;历史提问模板获取模块,用于对所述高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,获取多个历史提问语句作为历史提问模板;提问语料获取模块,用于将所述历史提问模板中的历史提问词替换成所述高频提问词,得到提问语料;其中,所述历史提问词为所述历史提问模板对应的主题词;目标问答语料获取模块,用于将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语料生成方法的步骤。一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语料生成方法的步骤。上述语料生成方法、装置、计算机设备及存储介质中,通过获取目标问答领域对应的高频提问词以及待挖掘文本,以便根据所述高频提问词,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句,即通过针对高频提问词构建语料数据,可实现问答语料构建的快速冷启动。然后,将所述高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,以获取多个历史提问语句作为历史提问模板,以便基于高频提问对词历史真实提问语句中提取到的历史提问模板进行重构,得到提问语料,可有效保证提问语料的真实性;最后,将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料,可实现不同垂直领域自动构建问答语料的目的,降低人工成本,且可实现快速构建问答语料的目的。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中语料生成方法的一应用环境示意图;图2是本专利技术一实施例中语料生成方法的一流程图;图3是本专利技术一实施例中语料生成方法的一流程图;图4是本专利技术一实施例中语料生成方法的一流程图;图5是图2中步骤S202的一具体流程图;图6是图4中步骤S403的一具体流程图;图7是图4中步骤S408的一具体流程图;图8是图2中步骤S203的一具体流程图;图9是本专利技术一实施例中语料生成装置的一示意图;图10是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。该语料生成方法可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。在一实施例中,如图2所示,提供一种语料生成方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:S201:获取目标问答领域对应的高频提问词以及待挖掘文本;其中,高频提问词用于指示目标问答领域中高频问题对应的主题词。其中,本方法可应用在一种问答语料自动生成工具中,用于针对不同垂直领域(例如保险领域)通过文本挖掘方式自动生成该领域的问答语料,实现问答语料构建的快速冷启动的目的,且可有效降低人工成本,提高问答语料的构建效率。其中,目标问答领域可包括但不限于各种垂直领域,例如保险领域。于本实施例中,为便于理解,以下技术方案以应用在保险领域为例进行说明。具体地,由于针对保险问答领域来说,保险中的条款相关内容以及专业术语的定义是用户咨询的高频问题,故本实施例中的高频提问词可为保险条款以及专业术语相关的问题对应的主题词,即该主体词可为高频问题中的条款词以及专业术语等。该待挖掘文本可为保险说明文档以及保单说明书等。可以理解地是,该高频提问词可为一个或多个此处不做限定。S202:根据高频提问词,从待挖掘文本中提取高频提问词对应的目标应答语句。具体地,为节省存储空间以及提高目标应答语句的提取效率,在根据高频提问词,从待挖掘文本中提取高频提问词对应的目标应答语句之前,可对待挖掘文本进行预处理,包括但不限于去除英文处理和去除标点符号处理。本实施例中,去除标点符号处理包括但不限于采用正则表达式进行处理。该正则表达式可由开发人员预先设定好的表达式,如语句System.out.println(str.replaceAll("\\pP","")),即可删除文本中的标点符号。具体地,可基于高频提问词对待挖掘文本进行关键词匹配,以得到该高频提问词对应的目标应答语句,例如高频提问词为XXX,待挖掘文本中包括“XXX的含义是……”,通过关键匹配即可将“……”作为XXX对应的目标应答语句。可以理解地是,由于本实施例中目标应答语句从待挖掘文本,即保险说明文本文档来自技高网...

【技术保护点】
1.一种语料生成方法,其特征在于,包括:/n获取目标问答领域对应的高频提问词以及待挖掘文本;其中,所述高频提问词用于指示所述目标问答领域中高频问题对应的主题词;/n根据所述高频提问词,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句;/n对所述高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,获取多个历史提问语句作为历史提问模板;/n将所述历史提问模板中的历史提问词替换成所述高频提问词,得到提问语料;其中,所述历史提问词为所述历史提问模板对应的主题词;/n将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料。/n

【技术特征摘要】
1.一种语料生成方法,其特征在于,包括:
获取目标问答领域对应的高频提问词以及待挖掘文本;其中,所述高频提问词用于指示所述目标问答领域中高频问题对应的主题词;
根据所述高频提问词,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句;
对所述高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,获取多个历史提问语句作为历史提问模板;
将所述历史提问模板中的历史提问词替换成所述高频提问词,得到提问语料;其中,所述历史提问词为所述历史提问模板对应的主题词;
将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料。


2.如权利要求1所述语料生成方法,其特征在于,在所述将所述历史提问模板中的历史提问词替换成所述高频提问词,得到提问语料之后,所述语料生成方法还包括:
采用预训练的语言模型对所述提问语料进行语法语义检查,得到所述提问语料的得分值;
当所述得分值不小于预设分值阈值,保留所述提问语料;
当所述得分值小于所述预设分值阈值,去除所述提问语料;
所述将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料,包括:
将所述保留的提问语料与所述高频提问词对应的目标应答语句作为所述目标问答语料。


3.如权利要求2所述语料生成方法,其特征在于,在所述获取目标问答领域对应的高频提问词以及待挖掘文本之后,所述语料生成方法还包括:
对所述高频提问词进行同义词扩充,获取所述高频提问词对应的多个目标同义词;
所述将所述保留的提问语料与所述高频提问词对应的目标应答语句作为所述目标问答语料,包括:
根据每一所述目标同义词对所述保留的提问语料中的高频提问词进行替换,得到所述高频提问词对应的多个目标提问语料;
将每一所述目标提问语料与所述高频提问词对应的目标应答语句作为所述目标问答语料。


4.如权利要求1所述语料生成方法,其特征在于,所述根据所述高频提问词,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句,包括:
获取所述目标问答领域对应的语句提取模板;
根据所述语句提取模板,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句。


5.如权利要求3所述语料生成方法,其特征在于,所述对所述高频提问词进行同义词扩充,获取所述高频提问词对应的多个目标同义词,包括:
将所述高频提问词输入到近似度函数中进行处理,获取与所述高频提问词相对应的多个候选同义词以及与所述候选同义词相对应的第一近似度;
基于所述第一近似度,从多个所述候选同义词中选...

【专利技术属性】
技术研发人员:谢忠玉
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1