知识图谱补全模型的训练方法和装置制造方法及图纸

技术编号:36121138 阅读:12 留言:0更新日期:2022-12-28 14:26
本发明专利技术公开了一种知识图谱补全模型的训练方法和装置。方法包括:将三元组查询训练数据集转化为搜索查询训练数据集;构建与每条搜索查询训练数据对应的正例文档和负例文档,得到正例文档集和负例文档集;利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练,以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档;将该多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中,以预测该条三元组查询训练数据的尾实体,并将预测的尾实体与正确尾实体之间的交叉熵作为损失函数优化模型参数,以得到训练好的补全模型。该方法在不可被推理的关系的知识补全中取得了很好的效果,具有较高的鲁棒性。高的鲁棒性。高的鲁棒性。

【技术实现步骤摘要】
知识图谱补全模型的训练方法和装置


[0001]本专利技术涉及人工智能
,尤其涉及一种知识图谱补全模型的训练方法和装置。

技术介绍

[0002]知识图谱将世界知识表示成结构化的三元组形式,是很多人工智能研究的基石。然而,多数已有的知识图谱(如Wikidata等)是通过协同编辑的方式构建的,面临着比较严重的不完备的问题。例如,在超大规模知识图谱Freebase中,有71%的人缺少出生地信息,这限制了知识图谱在下游人工智能任务上的应用。
[0003]为了缓解知识图谱不完备的问题,知识图谱自动补全任务被提出。该任务通常使用知识图谱的schema(模式)信息来确认哪里存在缺失,然后使用知识图谱补全模型对这些缺失的知识做自动补全。在所有的知识图谱补全模型中,表示学习模型最为常见和重要,它们通常将实体和关系表示到向量空间中,并基于向量的运算操作来预测知识图谱中缺失的知识。
[0004]然而,表示学习模型的有效性依赖于一个假设,即知识图谱中缺失的知识可以通过已有的知识推理得到。尽管这个假设对于多数的关系是成立的,但仍然存在一些特例的关系。可以将这些特例的关系称为不可被推理的关系,假设成立的关系被称为可以被推理的关系。例如,死因这个关系就是一个不可被推理的关系,而母语这个关系则是一个可以被推理的关系。已有的表示学习方法在不可被推理的关系上的表现要显著低于可以被推理的关系。
[0005]一个合理的来解决不可被推理关系的方法是从文本中抽取相应的知识,而不是从已有的知识推理得到这些知识。目前已有三类方法可以从文本中抽取信息来补全知识图谱中缺失的知识:一是引入实体描述信息的表示学习模型,代表模型是发表在WWW2021上的StAR模型。这类模型在传统表示学习模型的基础上,进一步引入了实体的描述文本,这些文本中有可能含有缺失知识的信息。但是该类模型无法确保待补全的缺失知识在实体的描述文本中有所体现。即可能会出现比如任务需要预测出生地信息,但对应的描述文本中并没有相关的信息体现。在这种情况下,模型自然无法预测出缺失的知识。二是基于预训练语言模型的知识图谱补全方法,代表模型是发表于ACL 2022的KGT5模型。这类方法可以利用预训练语言模型中的隐含知识来弥补已有知识无法推理出缺失知识的不足。该类模型依赖于预训练语言模型中隐含的知识,例如预训练语言模型隐含了待预测的出生地信息,这类方法便可以很好的进行相应的补全。但是,预训练语言模型的容量是有限的,不能够精准的记住世界上所有的知识。三是基于信息检索和阅读理解的开放域问答模型,代表模型是NeurIPS 2020的RAG模型。这类模型主要服务于开放域问答,而不是知识图谱补全。但它仍然可以适配到知识图谱补全任务上,仅需要将三元组视为自然语言问句即可。但是由于该类模型本是为开放域问答设计的,因而他们的检索模块也是为自然语言问题服务的。在实际的实验中发现,在知识图谱补全任务中,这类方法的检索模块很难检索到有用的信息。

技术实现思路

[0006]为了解决现有技术中存在的问题,本专利技术提供了如下技术方案。
[0007]本专利技术第一方面提供了一种知识图谱补全模型的训练方法,包括:
[0008]构建三元组训练数据集,并将三元组训练数据集转化为三元组查询训练数据集;
[0009]将三元组查询训练数据集转化为搜索查询训练数据集;
[0010]构建与每条搜索查询训练数据对应的正例文档和负例文档,得到正例文档集和负例文档集;
[0011]利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练,以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档;
[0012]将与每条三元组查询训练数据相关的多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中,以得到该条三元组查询训练数据的预测尾实体,并将预测尾实体与正确尾实体之间的交叉熵作为损失函数来优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数,以得到训练好的补全模型。
[0013]优选地,所述将三元组查询训练数据集转化为搜索查询训练数据集包括:
[0014]通过调用转化函数将三元组查询训练数据集转化为搜索查询训练数据集;
[0015]所述三元组查询为:tq=(h,r,?);
[0016]所述转化函数包括:F
L
(tq)=LABEL(h)||LABEL(r);
[0017]其中,h表示头实体,r表示关系,?表示待预测的尾实体,LABEL(x)表示x所对应的标签文本,x代表h或r,||表示拼接。
[0018]优选地,所述转化函数还包括:F
LA
(tq)=TEXT(h)||TEXT(r);
[0019]其中,TEXT(x)表示x的别名所对应的标签文本。
[0020]优选地,所述构建与每条搜索查询训练数据对应的正例文档和负例文档包括:
[0021]对于每条搜索查询训练数据,分别选取设定比例的不同类型的正例,并从中随机选取一个作为最终正例;将使用BM25搜索排序算法检索到的第一个不含有三元组尾实体的文档作为强负例,并将强负例与其他搜索查询训练数据对应的最终正例构成该条搜索查询训练数据对应的最终负例。
[0022]优选地,所述正例包括实体类型正例、远程监督类型正例和答案类型正例,按照45%、45%和10%的比例选取实体类型正例、远程监督类型正例和答案类型正例。
[0023]优选地,所述利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练包括:
[0024]所述知识检索模块包括搜索查询的编码器和文档的编码器;
[0025]采用两个BERT模型作为搜索查询的编码器和文档的编码器;
[0026]使用点积衡量搜索查询和文档之间的相似度为:
[0027]sim(sq,d)=QEnc(sq)
T
·
DEnc(d)
[0028]其中,sq和d分别为搜索查询和文档,QEnc和DEnc分别为搜索查询的编码器和文档的编码器,sim为相似度,QEnc(sq)
T
为搜索查询的编码的转置;
[0029]采用对比学习训练搜索查询的编码器和文档的编码器,训练损失函数为:
[0030][0031]其中,Q为搜索查询训练数据sq的集合,d
+
为搜索查询训练数据sq对应的正例文档,为搜索查询训练数据sq对应的负例文档。
[0032]本专利技术第二方面提供了一种知识图谱补全模型的训练装置,包括:
[0033]三元组查询训练数据集构建模块,用于构建三元组训练数据集,并将三元组训练数据集转化为三元组查询训练数据集;
[0034]三元组查询训练数据集转化模块,用于将三元组查询训练数据集转化为搜索查询训练数据集;
[0035]正例和负例构建模块,用于构建与每条搜索查询训练数据对应的正例文档和负例文档,得到正例文档集和负例文档集;
[0036]知识检索模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱补全模型的训练方法,其特征在于,包括:构建三元组训练数据集,并将三元组训练数据集转化为三元组查询训练数据集;将三元组查询训练数据集转化为搜索查询训练数据集;构建与每条搜索查询训练数据对应的正例文档和负例文档,得到正例文档集和负例文档集;利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练,以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档;将与每条三元组查询训练数据相关的多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中,以得到该条三元组查询训练数据的预测尾实体,并将预测尾实体与正确尾实体之间的交叉熵作为损失函数来优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数,以得到训练好的补全模型。2.如权利要求1所述的知识图谱补全模型的训练方法,其特征在于,所述将三元组查询训练数据集转化为搜索查询训练数据集包括:通过调用转化函数将三元组查询训练数据集转化为搜索查询训练数据集;所述三元组查询为:tq=(h,r,?);所述转化函数包括:F
L
(tq)=LABEL(h)||LABEL(r);其中,h表示头实体,r表示关系,?表示待预测的尾实体,LABEL(x)表示x所对应的标签文本,x代表h或r,||表示拼接。3.如权利要求2所述的知识图谱补全模型的训练方法,其特征在于,所述转化函数还包括:F
LA
(tq)=TEXT(h)||TEXT(r);其中,TEXT(x)表示x的别名所对应的标签文本。4.如权利要求1所述的知识图谱补全模型的训练方法,其特征在于,所述构建与每条搜索查询训练数据对应的正例文档和负例文档包括:对于每条搜索查询训练数据,分别选取设定比例的不同类型的正例,并从中随机选取一个作为最终正例;将使用BM25搜索排序算法检索到的第一个不含有三元组尾实体的文档作为强负例,并将强负例与其他搜索查询训练数据对应的最终正例构成该条搜索查询训练数据对应的最终负例。5.如权利要求4所述的知识图谱补全模型的训练方法,其特征在于,所述正例包括实体类型正例、远程监督类型正例和答案类型正例,按照45%、45%和10%的比例选取实体类型正例、远程监督类型正例和答案类型正例。6.如权利要求1所述的知识图谱补全模型的训练方法,其特征在于,所述利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练包括:所述知识检索模块包括搜索查询的编码器和文档的编码器;采用两个BERT模型作为搜索...

【专利技术属性】
技术研发人员:李涓子吕鑫姚子俊曾开胜张家杰冷佳泓
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1