知识图谱补全模型的训练方法和装置制造方法及图纸

技术编号：36121138 阅读：21 留言：0更新日期：2022-12-28 14:26

本发明专利技术公开了一种知识图谱补全模型的训练方法和装置。方法包括：将三元组查询训练数据集转化为搜索查询训练数据集；构建与每条搜索查询训练数据对应的正例文档和负例文档，得到正例文档集和负例文档集；利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练，以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档；将该多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中，以预测该条三元组查询训练数据的尾实体，并将预测的尾实体与正确尾实体之间的交叉熵作为损失函数优化模型参数，以得到训练好的补全模型。该方法在不可被推理的关系的知识补全中取得了很好的效果，具有较高的鲁棒性。高的鲁棒性。高的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
知识图谱补全模型的训练方法和装置

[0001]本专利技术涉及人工智能
，尤其涉及一种知识图谱补全模型的训练方法和装置。

技术介绍

[0002]知识图谱将世界知识表示成结构化的三元组形式，是很多人工智能研究的基石。然而，多数已有的知识图谱(如Wikidata等)是通过协同编辑的方式构建的，面临着比较严重的不完备的问题。例如，在超大规模知识图谱Freebase中，有71％的人缺少出生地信息，这限制了知识图谱在下游人工智能任务上的应用。
[0003]为了缓解知识图谱不完备的问题，知识图谱自动补全任务被提出。该任务通常使用知识图谱的schema(模式)信息来确认哪里存在缺失，然后使用知识图谱补全模型对这些缺失的知识做自动补全。在所有的知识图谱补全模型中，表示学习模型最为常见和重要，它们通常将实体和关系表示到向量空间中，并基于向量的运算操作来预测知识图谱中缺失的知识。
[0004]然而，表示学习模型的有效性依赖于一个假设，即知识图谱中缺失的知识可以通过已有的知识推理得到。尽管这个假设对于多数的关系是成立的，但仍然...

【技术保护点】

【技术特征摘要】
1.一种知识图谱补全模型的训练方法，其特征在于，包括：构建三元组训练数据集，并将三元组训练数据集转化为三元组查询训练数据集；将三元组查询训练数据集转化为搜索查询训练数据集；构建与每条搜索查询训练数据对应的正例文档和负例文档，得到正例文档集和负例文档集；利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练，以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档；将与每条三元组查询训练数据相关的多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中，以得到该条三元组查询训练数据的预测尾实体，并将预测尾实体与正确尾实体之间的交叉熵作为损失函数来优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数，以得到训练好的补全模型。2.如权利要求1所述的知识图谱补全模型的训练方法，其特征在于，所述将三元组查询训练数据集转化为搜索查询训练数据集包括：通过调用转化函数将三元组查询训练数据集转化为搜索查询训练数据集；所述三元组查询为：tq＝(h,r,？)；所述转化函数包括：F
L
(tq)＝LABEL(h)||LABEL(r)；其中，h表示头实体，r表示关系，？表示待预测的尾实体，LABEL(x)表示x所对应的标签文本，x代表h或r，||表示拼接。3.如权利要求2所述的知识图谱补全模型的训练方法，其特征在于，所述转化函数还包括：F
LA
(tq)＝TEXT(h)||TEXT(r)；其中，TEXT(x)表示x的别名所对应的标签文本。4.如权利要求1所述的知识图谱补全模型的训练方法，其特征在于，所述构建与每条搜索查询训练数据对应的正例文档和负例文档包括：对于每条搜索查询训练数据，分别选取设定比例的不同类型的正例，并从中随机选取一个作为最终正例；将使用BM25搜索排序算法检索到的第一个不含有三元组尾实体的文档作为强负例，并将强负例与其他搜索查询训练数据对应的最终正例构成该条搜索查询训练数据对应的最终负例。5.如权利要求4所述的知识图谱补全模型的训练方法，其特征在于，所述正例包括实体类型正例、远程监督类型正例和答案类型正例，按照45％、45％和10％的比例选取实体类型正例、远程监督类型正例和答案类型正例。6.如权利要求1所述的知识图谱补全模型的训练方法，其特征在于，所述利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练包括：所述知识检索模块包括搜索查询的编码器和文档的编码器；采用两个BERT模型作为搜索...

【专利技术属性】
技术研发人员：李涓子，吕鑫，姚子俊，曾开胜，张家杰，冷佳泓，
申请(专利权)人：北京智源人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人