一种问答模型训练方法技术

技术编号：35064540 阅读：17 留言：0更新日期：2022-09-28 11:21

本申请公开了一种问答模型训练方法及存储介质。该方法包括：根据第一三元组更新第一知识图谱，得到更新后的第二知识图谱；从第一知识图谱中选择第二三元组，形成三元组集合；其中，三元组集合中每个三元组中的头实体与第一三元组中的头实体相关；根据三元组集合生成正例样本集合以及负例样本集合，正例样本集合是三元组集合的一个子集，负样本集合中的负例三元组的头实体与所述正例样本集合中的头实体相同、尾实体和/或关系与正例样本三元组的尾实体和/或关系不同；根据所述正例样本集合和所述负例样本集合，更新所述第二知识图谱的表示模型；根据第二知识图谱的表示模型以及问答模型的训练样本集合，对所述问答模型进行训练。练。练。

全部详细技术资料下载

【技术实现步骤摘要】
一种问答模型训练方法

[0001]本申请涉及模型训练
，尤其涉及一种问答模型训练方法。

技术介绍

[0002]知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形(如图1所示)，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱主要的目的是在面对互联网高速发展以及网络数据爆炸增长的时代，增强搜索效率，完善用户体验。知识图谱凭借其卓越的语义处理技术和互联性，为信息智能应用建立基础，广泛运用于搜索、问答、情报分析等方面，促进信息技术从信息服务向知识服务发展。此外，知识图谱并不是一成不变的，随着新的知识不断加入到知识图谱中，以及对于原有不正确的知识进行修改，知识图谱才能逐步的丰富、完整。
[0003]目前，当构建的知识图谱达到一定的规模后，对于新加入的知识，都需要对全部实体和关系进行知识嵌入的更新，这会导致系统开销过大，模型训练时间长，更新的效率低下。
[0004]因此，如何提高问答模型的训练效率，是目前亟需解决的问题。

技术实现思路

[0005]本申请提供了一种问答模型训练方法，用以提高问答模型的训练效率。
[0006]第一方面，提供一种问答模型训练方法，包括：
[0007]根据第一三元组更新第一知识图谱，得到更新后的第二知识图谱；其中，所述第一三元组为待更新到知识图谱中的三元组，所述第一三元组包括头实体、尾实体和关系；从所述第一知识图谱中选择第二三元组，形成三元组集

【技术保护点】

【技术特征摘要】
1.一种问答模型训练方法，其特征在于，包括：根据第一三元组更新第一知识图谱，得到更新后的第二知识图谱；其中，所述第一三元组为待更新到知识图谱中的三元组，所述第一三元组包括头实体、尾实体和关系；从所述第一知识图谱中选择第二三元组，形成三元组集合；其中，所述三元组集合中每个三元组中的头实体与所述第一三元组中的头实体相关；根据所述三元组集合生成正例样本集合以及负例样本集合，所述正例样本集合是所述三元组集合的一个子集，所述负样本集合中的负例三元组的头实体与所述正例样本集合中的头实体相同、尾实体和/或关系与所述正例样本三元组的尾实体和/或关系不同；根据所述正例样本集合和所述负例样本集合，更新所述第二知识图谱的表示模型；根据所述第二知识图谱的表示模型以及问答模型的训练样本集合，对所述问答模型进行训练。2.如权利要求1所述的方法，其特征在于，所述从所述第一知识图谱中选择第二三元组，形成三元组集合，包括：根据所述第一三元组的头实体，从所述第一知识图谱中选择候选三元组，所述候选三元组中的头实体与所述第一三元组的头实体相关；根据所述候选三元组中的头实体与尾实体间的关系所属的关系类别，确定每个关系类别对应的候选三元组的数量；选择最高数量对应的关系类别作为目标关系类别，将关系类别与所述目标关系类别相同的候选三元组，构成所述三元组集合。3.如权利要求2所述的方法，其特征在于，所述三元组集合中至少包括一跳候选三元组和二跳候选三元组；所述根据所述第一三元组的头实体，从所述第一知识图谱中选择候选三元组，至少包括以下步骤：从所述第一知识图谱中选择一跳候选三元组，所述一跳候选三元组中的头实体与所述第一三元组的头实体相同；从所述第一知识图谱中选择二跳候选三元组，所述二跳候选三元组中的头实体与所述一跳候选三元组中的头实体相同。4.如权利要求1所述的方法，其特征在于，所述负例三元组中的尾实体，与所述第一知识图谱中的第三三元组中的尾实体相同；和/或，所述负例三元组中头实体和尾实体间的关系，与所...

【专利技术属性】
技术研发人员：孙永良，李建伟，汪铎，赵峂，苏晓伟，李浩，
申请(专利权)人：青岛海信网络科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人