【技术实现步骤摘要】
一种基于知识图谱的数据处理方法、相关装置及存储介质
[0001]本申请涉及计算机
,尤其涉及一种基于知识图谱的数据处理方法、相关装置及存储介质。
技术介绍
[0002]知识图谱(knowledge graph)是一种基于图的数据结构,由节点和边组成。每个节点表示一个实体,每条边为实体与实体之间的关系。知识图谱把不同种类的信息连接在一起得到一个关系网络,因此,知识图谱提供了从“关系”的角度去分析问题的能力。
[0003]对于知识图谱表示方式提出了多种模型。以翻译(Trans)模型为例,Trans模型假设实体关系三元组满足V_entity1+V_relation=V_entity2。其中,V_entity1表示实体1的语义向量,V_relation表示实体间关系的语义向量,V_entity2表示实体2的语义向量。模型基于上述假设来建立距离模型,关系成立的三元组距离损失越小,否则就会出现模型损失。
[0004]专利技术人发现目前的方案中至少存在如下问题,Trans模型是基于向量减法的方式进行建模的。假设一个三 ...
【技术保护点】
【技术特征摘要】
1.一种基于知识图谱的数据处理方法,其特征在于,包括:基于目标知识图谱构建三元组正样本,其中,所述三元组正样本对应于正样本标签,所述三元组正样本包括第一实体、第一实体关系以及第二实体,所述目标知识图谱包括T类实体关系,每类实体关系对应于一个实体关系向量,所述T为大于或等于1的整数;对所述三元组正样本所包括的所述第一实体以及所述第二实体进行语义编码,得到所述第一实体所对应的第一实体向量以及所述第二实体所对应的第二实体向量;采用至少一个矩阵对所述第一实体向量以及所述第二实体向量进行特征融合,生成三元组正样本所对应的融合语义向量;基于所述三元组正样本所对应的融合语义向量,通过分类网络获取所述三元组正样本所对应的关系预测向量,其中,所述分类网络的模型参数包括所述T类实体关系所对应的T个实体关系向量,所述关系预测向量包括所述T类实体关系中的每类实体关系所对应的预测分值;根据所述三元组正样本所对应的所述关系预测向量以及第一标注向量,对所述分类网络的模型参数、所述第一实体向量以及所述第二实体向量进行更新,得到更新后的T个实体关系向量、更新后的第一实体向量以及更新后的第二实体向量,其中,所述更新后的T个实体关系向量、所述更新后的第一实体向量以及所述更新后的第二实体向量用于提供知识图谱嵌入服务,所述第一标注向量为根据所述第一实体关系以及所述正样本标签生成的向量。2.根据权利要求1所述的数据处理方法,其特征在于,所述第一实体为第一实体名称,所述第二实体为第二实体名称;所述对所述三元组正样本所包括的所述第一实体以及所述第二实体进行语义编码,得到所述第一实体所对应的第一实体向量以及所述第二实体所对应的第二实体向量,包括:基于所述三元组正样本所包括的所述第一实体名称,通过文本编码网络获取所述第一实体向量;基于所述三元组正样本所包括的所述第二实体名称,通过文本编码网络获取所述第二实体向量。3.根据权利要求1所述的数据处理方法,其特征在于,所述第一实体为实体名称,所述第二实体为实体图片;所述对所述三元组正样本所包括的所述第一实体以及所述第二实体进行语义编码,得到所述第一实体所对应的第一实体向量以及所述第二实体所对应的第二实体向量,包括:基于所述三元组正样本所包括的所述实体名称,通过文本编码网络获取所述第一实体向量;基于所述三元组正样本所包括的所述实体图片,通过图像编码网络获取所述第二实体向量。4.根据权利要求1所述的数据处理方法,其特征在于,所述第一实体为实体名称,所述第二实体为实体图片;所述对所述三元组正样本所包括的所述第一实体以及所述第二实体进行语义编码,得到所述第一实体所对应的第一实体向量以及所述第二实体所对应的第二实体向量,包括:基于所述三元组正样本所包括的所述实体名称,通过文本编码网络获取所述第一实体
向量;基于所述三元组正样本所包括的所述实体图片,通过图像识别网络获取第二实体名称;基于所述第二实体名称,通过所述文本编码网络获取所述第二实体向量。5.据权利要求1所述的数据处理方法,其特征在于,所述第一实体为第一实体图片,所述第二实体为第二实体图片;所述对所述三元组正样本所包括的所述第一实体以及所述第二实体进行语义编码,得到所述第一实体所对应的第一实体向量以及所述第二实体所对应的第二实体向量,包括:基于所述三元组正样本所包括的所述第一实体图片,通过图像编码网络获取所述第一实体向量;基于所述三元组正样本所包括的所述第二实体图片,通过所述图像编码网络获取所述第二实体向量。6.据权利要求1所述的数据处理方法,其特征在于,所述第一实体为第一实体图片,所述第二实体为第二实体图片;所述对所述三元组正样本所包括的所述第一实体以及所述第二实体进行语义编码,得到所述第一实体所对应的第一实体向量以及所述第二实体所对应的第二实体向量,包括:基于所述三元组正样本所包括的所述第一实体图片,通过图像识别网络获取第一实体名称;基于所述三元组正样本所包括的所述第二实体图片,通过所述图像识别网络获取第二实体名称;基于所述第一实体名称,通过文本编码网络获取所述第一实体向量;基于所述第二实体名称,通过所述文本编码网络获取所述第二实体向量。7.根据权利要求1所述的数据处理方法,其特征在于,所述至少一个矩阵包括张量矩阵,其中,所述张量矩阵的维度为k*n*m,所述k为大于1的整数,所述n为大于1的整数,所述m为大于1的整数;所述采用至少一个矩阵对所述第一实体向量以及所述第二实体向量进行特征融合,生成三元组正样本所对应的融合语义向量,包括:对所述第一实体向量、所述第二实体向量以及所述张量矩阵进行元素相乘,得到所述三元组正样本所对应的所述三元组正样本所对应的融合语义向量,其中,所述第一实体向量的维度为1*k,所述第二实体向量的维度为1*n,所述三元组正样本所对应的融合语义向量的维度为1*m。8.根据权利要求1所述的数据处理方法,其特征在于,所述至少一个矩阵包括张量矩阵,其中,所述张量矩阵的维度为k*n*m,所述k为大于1的整数,所述n为大于1的整数,所述m为大于1的整数;所述采用至少一个矩阵对所述第一实体向量以及所述第二实体向量进行特征融合,生成三元组正样本所对应的融合语义向量,包括:对所述第一实体向量、所述第二实体向量以及所述张量矩阵进行元素相乘,得到第一融合向量,其中,所述第一实体向量的维度为1*k,所述第二实体向量的维度为1*n,所述第一融合向量的维度为1*m;
对所述第一融合向量以及偏置常数向量进行元素相加,得到所述三元组正样本所对应的所述三元组正样本所对应的融合语义向量,其中,所述偏置常数向量的维度为1*m,所述三元组正样本所对应的融合语义向量的维度为1*m。9.根据权利要求1所述的数据处理方法,其特征在于,所述至少一个矩阵包括第一向量映射矩阵以及第二向量映射矩阵,其中,所述第一向量映射矩阵的维度为k*m,所述第二向量映射矩阵的维度为n*m,所述k为大于1的整数,所述n为大于1的整数,所述m为大于1的整数;所述采用至少一个矩阵对所述第一实体向量以及所述第二实体向量进行特征融合,生成三元组正样本所对应的融合语义向量,包括:对所述第一实体向量以及所述第一向量映射矩阵进行元素相乘,得到第一目标向量,其中,所述第一实体向量的维度为1*k,所述第一目标向量的维度为1*m;对所述第二实体向量以及所述第二向量映射矩阵进行元素相乘,得到第二目标向量,其中,所述第二实体向量的维度为1*n,所述第二目标向量的维度为1*m;对所述第一目标向量以及所述第二目标向量进行元素相乘,得到所述三元组正样本所对应的所述三元组正样本所对应的融合语义向量,其中,所述三元组正样本所对应的融合语义向量的维度为1*m。10.根据权利要求1所述的数据处理方法,其特征在于,所述至少一个矩阵包括第一向量映射矩阵以及第二向量映射矩阵,其中,所述第一向量映射矩阵的维度为k*m,所述第二向量映射矩阵的维度为n*m,所述k为大于1的整数,所述n为大于1的整数,所述m为大于1的整数;所述采用至少一个矩阵对所述第一实体向量以及所述第二实体向量进行特征融合,生成三元组正样本所对应的融合语义向量,包括:对所述第一实体向量以及所述第一向量映射矩阵进行元素相乘,得到第一目标向量,其中,所述第一实体向量的维度为1*k,所述第一目标向量的维度为1*m;对所述第二实体向量以及所述第二向量映射矩阵进行元素相乘,得到第二目标向量,其中,所述第二实体向量的维度为1*n,所述第二目标向量的维度为1*m;对所述第一目标向量以及所述第二目标向量进行元素相乘,得到第二融合向量,其中,所述第二融合向量的维度为1*m;对所述第二融合向量以及偏置常数向量进行元素相加,得到所述三元组正样本所对应的所述三...
【专利技术属性】
技术研发人员:黄剑辉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。