一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号：30652600 阅读：47 留言：0更新日期：2021-11-04 01:15

本发明专利技术公开了一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质，该方法包括：从知识图谱中获取实体关系组合；对实体关系组合中的实体进行随机掩码，抽取掩码后的部分实体关系组合，生成微调数据；利用微调数据对预先训练得到的预训练模型进行微调，得到问题生成模型；基于掩码后的全量实体关系组合和问题生成模型，生成问答数据集。本发明专利技术的方案降低了问答数据集建设成本，确保问答数据集的准确性和质量，通过数据库检索匹配即可实现KBQA任务。KBQA任务。KBQA任务。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质

[0001]本专利技术涉及问答系统领域，尤其涉及一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质。

技术介绍

[0002]知识图谱是下一代问答系统等智能应用的基础设施，如果把问答系统看成一个大脑，那么知识图谱就是大脑中的知识库，它使得机器能够从实体和关系的角度去分析、思考问题。作为对话问答任务模型训练的基础，大规模高质量问答数据集的构建具有重要的意义。
[0003]现有问答数据集的构建方式多采用互联网数据的抓取整合或者是由人工根据知识图谱进行构建。但是传统方法存在不足之处：首先，采用互联网抓取数据的方式无法保证数据集的质量，增加了数据清洗的负担，且互联网数据有着数据隐私、数据确权和数据偏置等问题，存在着一定法律风险和通过数据清洗无法解决的数据质量问题；再者，采用基于知识图谱的人工构建方式建设成本高昂、建设周期长，因此数据集在规模上很难达到问答系统的要求。

技术实现思路

[0004]为了解决现有技术中存在的问题，本专利技术提供了如下技术方案。本专利技术第一方面提供了一种基于知识图谱的问答库生成方法，包括：
[0005]从知识图谱中获取实体关系组合；
[0006]对所述实体关系组合中的实体进行随机掩码，抽取掩码后的部分实体关系组合，生成微调数据；
[0007]利用所述微调数据对预先训练得到的预训练模型进行微调，得到问题生成模型；
[0008]基于掩码后的全量实体关系组合和所述问题生成模型，生成问答...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的问答库生成方法，其特征在于，包括：从知识图谱中获取实体关系组合；对所述实体关系组合中的实体进行随机掩码，抽取掩码后的部分实体关系组合，生成微调数据；利用所述微调数据对预先训练得到的预训练模型进行微调，得到问题生成模型；基于掩码后的全量实体关系组合和所述问题生成模型，生成问答数据集。2.根据权利要求1所述的方法，其特征在于，所述从知识图谱中获取实体关系组合，进一步包括：基于启发式规则来处理知识图谱中的三元组，作为所述实体关系组合；所述启发式规则包括：匹配实体的一度关系的模板；匹配实体的二度关系的模板；和/或将两个实体进行联合且关系为一度的模板。3.根据权利要求1所述的方法，其特征在于，所述预训练模型是按照下述方式预先训练得到的：获取阅读理解语料库和百科语料库；利用所述阅读理解语料库中的段落和答案生成问题得到第一训练数据集；对所述百科语料库中标记有超链接的实体进行掩码预测，得到第二训练数据集；利用所述第一训练数据集和第二训练数据集对特定模型进行预训练得到所述预训练模型。4.根据权利要求1所述的方法，其特征在于，所述生成微调数据，进一步包括：对于所抽取的掩码后的部分实体关系组合，通过人工提问的方式得到问题，然后将每个掩码后的实体关系组合和对其提问的问题作为一条问答数据，生成所述微调数据。5.根据权利要求1所述的方法，其特征在于，所述利用所述微调数据对所述预训练模型进行微调，得到问题生成模型，进一步包括：基于所生成的微调数据，利用掩码后的实体关系组合作为所述预训练模型的编码器端的输入，利用所述微调数据中的问题作为所述预训练模...

【专利技术属性】
技术研发人员：赵撼宇，袁莎，冷佳泓，唐杰，曹岗，
申请(专利权)人：北京智源人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人