问答数据生成方法及装置、存储介质制造方法及图纸

技术编号：21891863 阅读：25 留言：0更新日期：2019-08-17 14:29

本发明专利技术提供一种问答数据生成方法及装置、存储介质。该方法包括：对初始数据进行关键词预处理，得到关键词组与问答模板，然后，利用已训练好的第一机器学习模型与第二机器学习模型分别对所述关键词组与问答模板组进行处理，得到第一结果集与第二结果集；所述第一结果集用于指示与各关键词组对应的候选问答模板，所述第二结果集用于指示与各问答模板对应的候选关键词组，从而，对所述第一结果集与所述第二结果集进行匹配互选，得到互选结果，进而，根据所述互选结果，生成问答数据。本发明专利技术的方法降低了主观因素对问答数据的影响，提高了以此为基础的应答准确率，并且，节省了生成问答数据的人力和时间成本。

Question Answer Data Generation Method, Device and Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
问答数据生成方法及装置、存储介质
本专利技术涉及计算机
，尤其涉及一种问答数据生成方法及装置、存储介质。
技术介绍
问答知识是以文本形式的知识为基础，通过语义分析、内容生成、语法梳理等过程得到的进一步结构化的知识。问答知识作为机器自动应答的基础，能够直接影响机器自动应答的准确程度。目前，问答数据一般依赖于人工编辑的方式生成。也就是，由编辑人员阅读文件，并通过人工手动编写的方式，形成问答数据。但是，人工编辑问答数据带来大量的人力成本及时间成本的浪费，且受到编辑人员的主观影响较大，导致问答数据具备较严重的主观倾向，这导致以此为基础的机器问答存在应答准确度较低的问题。
技术实现思路
本专利技术提供一种问答数据生成方法及装置、存储介质，用以降低主观因素对问答数据的影响，以期提高以此为基础的应答准确率，并且，用以节省生成问答数据的人力和时间成本。第一方面，本专利技术提供一种问答数据生成方法，包括：对初始数据进行关键词预处理，得到关键词组与问答模板；利用已训练好的第一机器学习模型与第二机器学习模型分别对所述关键词组与问答模板组进行处理，得到第一结果集与第二结果集；所述第一结果集用于指示与各关键词组对应的候选问答模板，所述第二结果集用于指示与各问答模板对应的候选关键词组；对所述第一结果集与所述第二结果集进行匹配互选，得到互选结果；根据所述互选结果，生成问答数据。第二方面，本专利技术提供一种问答数据生成装置，包括：预处理模块，用于对初始数据进行关键词预处理，得到关键词组与问答模板；处理模块，用于利用已训练好的第一机器学习模型与第二机器学习模型分别对所述关键词组与问答模板...

【技术保护点】
1.一种问答数据生成方法，其特征在于，包括：对初始数据进行关键词预处理，得到关键词组与问答模板；利用已训练好的第一机器学习模型与第二机器学习模型分别对所述关键词组与问答模板组进行处理，得到第一结果集与第二结果集；所述第一结果集用于指示与各关键词组对应的候选问答模板，所述第二结果集用于指示与各问答模板对应的候选关键词组；对所述第一结果集与所述第二结果集进行匹配互选，得到互选结果；根据所述互选结果，生成问答数据。

【技术特征摘要】
1.一种问答数据生成方法，其特征在于，包括：对初始数据进行关键词预处理，得到关键词组与问答模板；利用已训练好的第一机器学习模型与第二机器学习模型分别对所述关键词组与问答模板组进行处理，得到第一结果集与第二结果集；所述第一结果集用于指示与各关键词组对应的候选问答模板，所述第二结果集用于指示与各问答模板对应的候选关键词组；对所述第一结果集与所述第二结果集进行匹配互选，得到互选结果；根据所述互选结果，生成问答数据。2.根据权利要求1所述的方法，其特征在于，所述第一结果集包括：各关键词组匹配的候选问答模板，以及，每个关键词组分别与各候选问答模板的第一匹配程度；所述第二结果集包括：各问答模板匹配的候选关键词组，以及，每个问答模板分别与各候选关键词组的第二匹配程度。3.根据权利要求1或2所述的方法，其特征在于，所述对所述第一结果集与所述第二结果集进行匹配互选，得到互选结果，包括：在所述第一结果集与所述第二结果集中，获取双向匹配成功的至少一个第一候选组合；获取各第一候选组合的双向匹配程度；根据所述双向匹配程度，在各所述第一候选组合中确定所述互选结果。4.根据权利要求3所述的方法，其特征在于，所述获取各第一候选组合的双向匹配程度，包括：在所述第一候选组合的集合中，获取各候选组合的第一匹配程度与第二匹配程度之和，以作为所述双向匹配程度；或者，在所述第一候选组合的集合中，获取各候选组合的第一匹配程度与第二匹配程度之间的加权和，以作为所述双向匹配程度。5.根据权利要求1或2所述的方法，其特征在于，所述对所述第一结果集与所述第二结果集进行匹配互选，得到互选结果，包括：在所述第一结果集与所述第二结果集中，获取单向匹配成功但未双向匹配成功的第二候选组合；将单向匹配程度大于或者等于预设匹配度阈值的第二候选...

【专利技术属性】
技术研发人员：刘金财，高翔，于向丽，
申请(专利权)人：中国联合网络通信集团有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人