问答数据生成方法及装置、存储介质制造方法及图纸

技术编号:21891863 阅读:25 留言:0更新日期:2019-08-17 14:29
本发明专利技术提供一种问答数据生成方法及装置、存储介质。该方法包括:对初始数据进行关键词预处理,得到关键词组与问答模板,然后,利用已训练好的第一机器学习模型与第二机器学习模型分别对所述关键词组与问答模板组进行处理,得到第一结果集与第二结果集;所述第一结果集用于指示与各关键词组对应的候选问答模板,所述第二结果集用于指示与各问答模板对应的候选关键词组,从而,对所述第一结果集与所述第二结果集进行匹配互选,得到互选结果,进而,根据所述互选结果,生成问答数据。本发明专利技术的方法降低了主观因素对问答数据的影响,提高了以此为基础的应答准确率,并且,节省了生成问答数据的人力和时间成本。

Question Answer Data Generation Method, Device and Storage Media

【技术实现步骤摘要】
问答数据生成方法及装置、存储介质
本专利技术涉及计算机
,尤其涉及一种问答数据生成方法及装置、存储介质。
技术介绍
问答知识是以文本形式的知识为基础,通过语义分析、内容生成、语法梳理等过程得到的进一步结构化的知识。问答知识作为机器自动应答的基础,能够直接影响机器自动应答的准确程度。目前,问答数据一般依赖于人工编辑的方式生成。也就是,由编辑人员阅读文件,并通过人工手动编写的方式,形成问答数据。但是,人工编辑问答数据带来大量的人力成本及时间成本的浪费,且受到编辑人员的主观影响较大,导致问答数据具备较严重的主观倾向,这导致以此为基础的机器问答存在应答准确度较低的问题。
技术实现思路
本专利技术提供一种问答数据生成方法及装置、存储介质,用以降低主观因素对问答数据的影响,以期提高以此为基础的应答准确率,并且,用以节省生成问答数据的人力和时间成本。第一方面,本专利技术提供一种问答数据生成方法,包括:对初始数据进行关键词预处理,得到关键词组与问答模板;利用已训练好的第一机器学习模型与第二机器学习模型分别对所述关键词组与问答模板组进行处理,得到第一结果集与第二结果集;所述第一结果集用于指示与各关键词组对应的候选问答模板,所述第二结果集用于指示与各问答模板对应的候选关键词组;对所述第一结果集与所述第二结果集进行匹配互选,得到互选结果;根据所述互选结果,生成问答数据。第二方面,本专利技术提供一种问答数据生成装置,包括:预处理模块,用于对初始数据进行关键词预处理,得到关键词组与问答模板;处理模块,用于利用已训练好的第一机器学习模型与第二机器学习模型分别对所述关键词组与问答模板组进行处理,得到第一结果集与第二结果集;所述第一结果集用于指示与各关键词组对应的候选问答模板,所述第二结果集用于指示与各问答模板对应的候选关键词组;匹配模块,用于对所述第一结果集与所述第二结果集进行匹配互选,得到互选结果;生成模块,用于根据所述互选结果,生成问答数据。第三方面,本专利技术提供一种问答数据生成装置,包括:存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。第四方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。本专利技术提供的问答数据生成方法及装置、存储介质,通过训练好的机器学习模型对预处理后的关键词组与问答模板分别进行处理,得到各关键词组对应的候选问答模板与各问答模板对应的候选关键词组,从而,通过双向匹配的方式,得到互选结果并生成问答数据,在该过程中,通过对机器学习的结果进行双向匹配的方式,实现关键词组与问答模板的匹配,具备较高的准确率,既能够避免编辑人员人工干预带来的主观影响,又避免了二次处理的时长,节省了人力和时间成本。因此,本专利技术实施例所提供的技术方案能够降低主观因素对问答数据的影响,提高了以此为基础的应答准确率,并且,节省了生成问答数据的人力和时间成本。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1为本专利技术实施例提供的一种问答数据生成方法的流程示意图;图2为本专利技术实施例提供的另一种问答数据生成方法的流程示意图;图3为本专利技术实施例提供的另一种问答数据生成方法的流程示意图;图4为本专利技术实施例提供的另一种问答数据生成方法的流程示意图;图5为本专利技术实施例提供的一种问答数据生成装置的功能方块图;图6为本专利技术实施例提供的一种问答数据生成装置的实体结构示意图。通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。本专利技术具体的应用场景为问答数据的生成场景。可进一步具体为:机器自动问答前样本数据的生成场景。在这种场景下,如前所述,问答数据一般依赖于人工编辑的方式实现,这就很容易受到人为主观因素的影响,导致问答数据难以统一,具有强烈的主观色彩,从而使得机器问答的准确率较低;并且,人工编辑还导致了人力成本和时间成本的浪费。本专利技术提供的技术方案,旨在解决现有技术的如上技术问题,并提出如下解决思路:通过对问答数据进行关键词预处理,得到关键词组后,由两个机器学习模块分别单独处理槽位和特征关键词并相互选择,取相互均选中的问答模板和特征关键词生成问答知识,这样可以做到并发互选择,省去二次处理的时间,并且机器学习模块经过不断的对错误结果的训练,也提高了生成内容的准确性。下面以具体地实施例对本专利技术的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本专利技术的实施例进行描述。实施例一本专利技术实施例提供了一种问答数据生成方法。请参考图1,该方法包括如下步骤:S102,对初始数据进行关键词预处理,得到关键词组与问答模板。具体的,关键词预处理的方法可以包括但不限于:关键词提取与连词处理。其中,关键词提取是指,利用预设的关键词提取算法,对初始数据进行关键词提取,以得到关键词。其中,关键词提取算法可用于获取数据中特征值高于预设阈值的关键词,也就是,该步骤获取到的关键词具备较高的特征值。此处,所谓的特征值用于描述与预设关键词的接近程度。其中,预设关键词可以根据实际场景自定义设置;例如,在针对通信运营商的自动问答系统中,该预设关键词可以为通信运营商相关的关键词。在具体实现时,前述关键词提取算法可以为神经网络算法,或者,可以通过提取词与各预设关键词的相似度来得到特征值,进而提取出特征值较高的关键词。而连词处理是指,对前述提取出的关键词进行连词,以形成关键词组。在执行该部分操作时,可以通过简单组合的方式,将至少两个关键词进行组合连词,以得到关键词组。或者,还可以通过预设的连词规则进行连词处理,连词规则可以自定义设置。例如,可以根据词性来限制关键词组中各词性的个数,又例如,还可以根据语义关系对任意连词后的关键词组进行二次筛选,以剔除语义矛盾和/或语义无联系的关键词组。通过前述关键词预处理,能够快速将初始数据处理为可参与后续处理的关键词组,避免了现有技术中将初始数据进行预处理后再进行语料清理的繁琐步骤,有利于缩减处理时长,提高处理效率。S104,利用已训练好的第一机器学习模型与第二机器学习模型分别对所述关键词组与问答模板组进行处理,得到第一结果集与第二结果集。其中,第一机器学习模型用于对各关键词处理,以得到所述第一结果集,而所述第一结果集用于指示与各关键词组对应的候选问答模板。第一机器学习模型的输入数据为:至少一个关键词组与各问答模板,输出数据为:每个输入的关键词组匹配的候选问答模板,以及,每个关键词组分别与各候选问本文档来自技高网...

【技术保护点】
1.一种问答数据生成方法,其特征在于,包括:对初始数据进行关键词预处理,得到关键词组与问答模板;利用已训练好的第一机器学习模型与第二机器学习模型分别对所述关键词组与问答模板组进行处理,得到第一结果集与第二结果集;所述第一结果集用于指示与各关键词组对应的候选问答模板,所述第二结果集用于指示与各问答模板对应的候选关键词组;对所述第一结果集与所述第二结果集进行匹配互选,得到互选结果;根据所述互选结果,生成问答数据。

【技术特征摘要】
1.一种问答数据生成方法,其特征在于,包括:对初始数据进行关键词预处理,得到关键词组与问答模板;利用已训练好的第一机器学习模型与第二机器学习模型分别对所述关键词组与问答模板组进行处理,得到第一结果集与第二结果集;所述第一结果集用于指示与各关键词组对应的候选问答模板,所述第二结果集用于指示与各问答模板对应的候选关键词组;对所述第一结果集与所述第二结果集进行匹配互选,得到互选结果;根据所述互选结果,生成问答数据。2.根据权利要求1所述的方法,其特征在于,所述第一结果集包括:各关键词组匹配的候选问答模板,以及,每个关键词组分别与各候选问答模板的第一匹配程度;所述第二结果集包括:各问答模板匹配的候选关键词组,以及,每个问答模板分别与各候选关键词组的第二匹配程度。3.根据权利要求1或2所述的方法,其特征在于,所述对所述第一结果集与所述第二结果集进行匹配互选,得到互选结果,包括:在所述第一结果集与所述第二结果集中,获取双向匹配成功的至少一个第一候选组合;获取各第一候选组合的双向匹配程度;根据所述双向匹配程度,在各所述第一候选组合中确定所述互选结果。4.根据权利要求3所述的方法,其特征在于,所述获取各第一候选组合的双向匹配程度,包括:在所述第一候选组合的集合中,获取各候选组合的第一匹配程度与第二匹配程度之和,以作为所述双向匹配程度;或者,在所述第一候选组合的集合中,获取各候选组合的第一匹配程度与第二匹配程度之间的加权和,以作为所述双向匹配程度。5.根据权利要求1或2所述的方法,其特征在于,所述对所述第一结果集与所述第二结果集进行匹配互选,得到互选结果,包括:在所述第一结果集与所述第二结果集中,获取单向匹配成功但未双向匹配成功的第二候选组合;将单向匹配程度大于或者等于预设匹配度阈值的第二候选...

【专利技术属性】
技术研发人员:刘金财高翔于向丽
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1