一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:30652600 阅读:47 留言:0更新日期:2021-11-04 01:15
本发明专利技术公开了一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质,该方法包括:从知识图谱中获取实体关系组合;对实体关系组合中的实体进行随机掩码,抽取掩码后的部分实体关系组合,生成微调数据;利用微调数据对预先训练得到的预训练模型进行微调,得到问题生成模型;基于掩码后的全量实体关系组合和问题生成模型,生成问答数据集。本发明专利技术的方案降低了问答数据集建设成本,确保问答数据集的准确性和质量,通过数据库检索匹配即可实现KBQA任务。KBQA任务。KBQA任务。

【技术实现步骤摘要】
一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质


[0001]本专利技术涉及问答系统领域,尤其涉及一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质。

技术介绍

[0002]知识图谱是下一代问答系统等智能应用的基础设施,如果把问答系统看成一个大脑,那么知识图谱就是大脑中的知识库,它使得机器能够从实体和关系的角度去分析、思考问题。作为对话问答任务模型训练的基础,大规模高质量问答数据集的构建具有重要的意义。
[0003]现有问答数据集的构建方式多采用互联网数据的抓取整合或者是由人工根据知识图谱进行构建。但是传统方法存在不足之处:首先,采用互联网抓取数据的方式无法保证数据集的质量,增加了数据清洗的负担,且互联网数据有着数据隐私、数据确权和数据偏置等问题,存在着一定法律风险和通过数据清洗无法解决的数据质量问题;再者,采用基于知识图谱的人工构建方式建设成本高昂、建设周期长,因此数据集在规模上很难达到问答系统的要求。

技术实现思路

[0004]为了解决现有技术中存在的问题,本专利技术提供了如下技术方案。本专利技术第一方面提供了一种基于知识图谱的问答库生成方法,包括:
[0005]从知识图谱中获取实体关系组合;
[0006]对所述实体关系组合中的实体进行随机掩码,抽取掩码后的部分实体关系组合,生成微调数据;
[0007]利用所述微调数据对预先训练得到的预训练模型进行微调,得到问题生成模型;
[0008]基于掩码后的全量实体关系组合和所述问题生成模型,生成问答数据集。
[0009]优选地,所述从知识图谱中获取实体关系组合,进一步包括:
[0010]基于启发式规则来处理知识图谱中的三元组,作为所述实体关系组合;
[0011]所述启发式规则进一步包括:
[0012]匹配实体的一度关系的模板;
[0013]匹配实体的二度关系的模板;和/或
[0014]将两个实体进行联合且关系为一度的模板。
[0015]优选地,所述预训练模型是按照下述方式预先训练得到的:
[0016]获取阅读理解语料库和百科语料库;
[0017]利用所述阅读理解语料库中的段落和答案生成问题得到第一训练数据集;
[0018]对所述百科语料库中标记有超链接的实体进行掩码预测,得到第二训练数据集;
[0019]利用所述第一训练数据集和第二训练数据集对特定模型训练得到所述预训练模
型。
[0020]优选地,所述生成微调数据,进一步包括:
[0021]对于所抽取的掩码后的部分实体关系组合,通过人工提问的方式得到问题,然后将每个掩码后的实体关系组合和对其提问的问题作为一条问答数据,生成所述微调数据。
[0022]优选地,所述利用所述微调数据对所述预训练模型进行微调,得到问题生成模型,进一步包括:
[0023]基于所生成的微调数据,利用掩码后的实体关系组合作为所述预训练模型的编码器端的输入,利用所述微调数据中的问题作为所述预训练模型的解码器端的输出,对预训练模型进行端对端的微调,得到从掩码后的实体关系组合生成问题的问题生成模型。
[0024]优选地,所述基于掩码后的全量实体关系组合和所述问题生成模型,生成问答数据集,进一步包括:
[0025]将所述掩码后的全量实体关系组合输入所述问题生成模型的编码器端,对于每个输入的掩码后的实体关系组合,由所述问题生成模型的解码器端输出对应的问题,以每个实体关系组合中被掩码的实体作为答案,将所述问题和答案进行关联,形成所述问答数据集。
[0026]本专利技术另一方面提供了一种基于知识图谱的问答方法,包括:
[0027]接收用户输入的问题;
[0028]根据所述问题在问答语料库中进行检索,得到问答对,所述问答语料库是根据前述第一方面所述的方法基于知识图谱生成的;
[0029]将所述问答对中的答案返回给所述用户。
[0030]本专利技术第三方面提供了一种基于知识图谱的问答库生成装置,其特征在于,包括:
[0031]获取模块,从知识图谱中获取实体关系组合;
[0032]处理模块,对所述实体关系组合中的实体进行随机掩码,抽取掩码后的部分实体关系组合,生成微调数据;
[0033]微调模块,利用所述微调数据对预先训练得到的预训练模型进行微调,得到问题生成模型;
[0034]生成模块,基于掩码后的全量实体关系组合和所述问题生成模型,生成问答数据集。
[0035]本专利技术第四方面提供了一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如上述第一方面的方法。
[0036]本专利技术第五方面提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如上述第一方面的方法。
[0037]本专利技术的有益效果是:
[0038]首先,本专利技术的问答数据库是基于模型自动生成的,相比于传统方案,省略了人工输入问答数据的过程,显著降低了数据集建设成本。
[0039]其次,本专利技术的问答数据集中所生成的问题源于已有的知识图谱,确保了数据集的准确性和高质量。
[0040]第三,基于本专利技术的方法构建的问答语料库能够仅通过简单的数据库检索匹配来实现基于知识库的问答(KBQA)任务,相较于传统KBQA方法,在提升效率的同时还能够提升
问答正确率。
附图说明
[0041]图1为本专利技术所述的基于知识图谱的问答库生成方法的流程图。
[0042]图2为本专利技术所述的从知识图谱中获取知识组的三种启发式规则的流程图。
[0043]图3为本专利技术所述的利用实体掩码构建问答数据库的流程图。
[0044]图4为本专利技术所述的对预训练模型的两项预训练任务的效果示意图。
[0045]图5为本专利技术所述的基于知识图谱的问答库生成方法的流程图。
[0046]图6为本专利技术所述的基于知识图谱的问答库生成装置的框图。
具体实施方式
[0047]为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
[0048]本专利技术提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
[0049]处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
[0050]存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read

Only Memory,ROM)。存储器可用于存储指令、程序、代码、代本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的问答库生成方法,其特征在于,包括:从知识图谱中获取实体关系组合;对所述实体关系组合中的实体进行随机掩码,抽取掩码后的部分实体关系组合,生成微调数据;利用所述微调数据对预先训练得到的预训练模型进行微调,得到问题生成模型;基于掩码后的全量实体关系组合和所述问题生成模型,生成问答数据集。2.根据权利要求1所述的方法,其特征在于,所述从知识图谱中获取实体关系组合,进一步包括:基于启发式规则来处理知识图谱中的三元组,作为所述实体关系组合;所述启发式规则包括:匹配实体的一度关系的模板;匹配实体的二度关系的模板;和/或将两个实体进行联合且关系为一度的模板。3.根据权利要求1所述的方法,其特征在于,所述预训练模型是按照下述方式预先训练得到的:获取阅读理解语料库和百科语料库;利用所述阅读理解语料库中的段落和答案生成问题得到第一训练数据集;对所述百科语料库中标记有超链接的实体进行掩码预测,得到第二训练数据集;利用所述第一训练数据集和第二训练数据集对特定模型进行预训练得到所述预训练模型。4.根据权利要求1所述的方法,其特征在于,所述生成微调数据,进一步包括:对于所抽取的掩码后的部分实体关系组合,通过人工提问的方式得到问题,然后将每个掩码后的实体关系组合和对其提问的问题作为一条问答数据,生成所述微调数据。5.根据权利要求1所述的方法,其特征在于,所述利用所述微调数据对所述预训练模型进行微调,得到问题生成模型,进一步包括:基于所生成的微调数据,利用掩码后的实体关系组合作为所述预训练模型的编码器端的输入,利用所述微调数据中的问题作为所述预训练模...

【专利技术属性】
技术研发人员:赵撼宇袁莎冷佳泓唐杰曹岗
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1