基于结构化上下文信息的知识图谱预训练方法技术

技术编号：26762798 阅读：17 留言：0更新日期：2020-12-18 23:16

本发明专利技术公开了一种基于结构化上下文信息的知识图谱预训练方法，包括：针对目标三元组，构建由上下文三元组组成的实例，采用三元组整合模块对实例的每个上下文三元组进行编码，得到整合向量；将针对实例的所有上下文三元组的整合向量组成上下文向量序列，采用结构化信息模块对上下文向量序列进行编码得到三元组的结构表示向量；采用通用任务模块对三元组的结构表示向量进行计算，得到三元组的标签预测值，基于三元组的标签预测值与标签真值的交叉熵损失来更新三元组的结构表示向量，直到训练结束为止，得到目标三元组的优化后结构表示向量。该方法获得的三元组的结构表示向量结合了上下文信息。

全部详细技术资料下载

【技术实现步骤摘要】
基于结构化上下文信息的知识图谱预训练方法
本专利技术属于数据存储与处理
，具体涉及一种基于结构化上下文信息的知识图谱预训练方法。
技术介绍
知识图谱(KnowledgeGraph)可以看作是有向标记图，而图中的事实以(头实体、关系、尾实体)的形式表示为三元组，按照英文首字母简写为(h,r,t)。近年来，知识图谱在构建和应用方面都得到了迅速的发展，在语义搜索、信息抽取和问答等人工智能领域有着广泛的应用前景。由于知识图谱中的图结构包含了大量有价值的信息，因此对于各种知识图谱任务，如实体类型化、链接预测、实体对齐等，提取深层的结构信息至关重要。表示学习方法将实体和关系嵌入到连续向量空间中，能自动提取结构特征，并通过代数运算推导出新的三元组，该方法由TransE模型首先提出，有效简化了知识图谱中的数学运算。之后，TransH模型提出一个实体在不同关系下有不同的表示，以克服多关系问题的局限性；TransR模型引入了关系专用空间来解决多关系问题。TransD模型将投影矩阵分解为两个向量的乘积，进一步提升了知识图谱各项任务的效果。针对实体分类、实体对齐、链接预测和推荐等多种不同的知识图谱特定任务，之前的研究中提出了不同的表示学习方法，以适应不同的知识图谱训练任务。在自然语言处理领域，Bert等预训练语言模型在多种自然语言处理下游任务中都取得了显著的改进。预训练语言模型与知识图谱表示学习模型的主要区别在于以下两点：一是语言表示为序列数据，以词上下文为关键信息检测词和句子的语义，而知识图谱表示为结构化图数...

【技术保护点】
1.一种基于结构化上下文信息的知识图谱预训练方法，其特征在于，采用包含三元组整合模块、结构化信息模块以及通用任务模块的预训练模型对知识图谱中的三元组进行训练，具体训练过程包括：/n针对目标三元组，构建由上下文三元组组成的实例，采用三元组整合模块对实例的每个上下文三元组进行编码，得到整合向量；/n将针对实例的所有上下文三元组的整合向量组成上下文向量序列，采用结构化信息模块对上下文向量序列进行编码得到三元组的结构表示向量；/n采用通用任务模块对三元组的结构表示向量进行计算，得到三元组的标签预测值，基于三元组的标签预测值与标签真值的交叉熵损失来更新三元组整合模块参数、结构化信息模块参数、通用任务模块参数以及三元组的结构表示向量，直到训练结束为止，得到目标三元组的优化后结构表示向量。/n

【技术特征摘要】
1.一种基于结构化上下文信息的知识图谱预训练方法，其特征在于，采用包含三元组整合模块、结构化信息模块以及通用任务模块的预训练模型对知识图谱中的三元组进行训练，具体训练过程包括：
针对目标三元组，构建由上下文三元组组成的实例，采用三元组整合模块对实例的每个上下文三元组进行编码，得到整合向量；
将针对实例的所有上下文三元组的整合向量组成上下文向量序列，采用结构化信息模块对上下文向量序列进行编码得到三元组的结构表示向量；
采用通用任务模块对三元组的结构表示向量进行计算，得到三元组的标签预测值，基于三元组的标签预测值与标签真值的交叉熵损失来更新三元组整合模块参数、结构化信息模块参数、通用任务模块参数以及三元组的结构表示向量，直到训练结束为止，得到目标三元组的优化后结构表示向量。

2.如权利要求1所述的基于结构化上下文信息的知识图谱预训练方法，其特征在于，为上下文三元组分配一个三元组标记[TRI]，三元组标记表示k[TRI]与上下文三元组的头实体表示h′、尾实体表示r′、关系表示t′组成表示序列<k[TRI]，h′，r′，t′>作为三元组整合模块的输入，经三元组整合模块计算，将三元组标记k[TRI]对应的输出为整合向量。

3.如权利要求1或2所述的基于结构化上下文信息的知识图谱预训练方法，其特征在于，所述三元组整合模块采用Transformer模型。

4.如权利要求1所述的基于结构化上下文信息的知识图谱预训练方法，其特征在于，上下文向量序列表示为<seqh，seqr，seqt>，其中，seqh，seqr，seqt分别是头实体h，关系r，尾实体t的上下文三元组的序列，具体形式为：

其中，表示头实体h的第i个整合向量，表示关系r的第i个整合向量，表示尾实体t的第i个整合向量。
为seqh，seqr，seqt分配一个头实体标记[HEA]、关系标记[REL]、尾实体标记[TAI]，该seqh，seqr，seqt与头实体标记向量k[HEA]、关系标记向量k[REL]、尾实体标记向量k[TAI]组成序列<k[HEA]，se...

【专利技术属性】
技术研发人员：陈华钧，叶橄强，张文，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人