一种文本-图像增强的多模态知识图谱嵌入方法技术

技术编号：35028522 阅读：21 留言：0更新日期：2022-09-24 23:01

本发明专利技术公开了一种文本

全部详细技术资料下载

【技术实现步骤摘要】
一种文本
‑
图像增强的多模态知识图谱嵌入方法

[0001]本专利技术属于知识图谱嵌入
，具体涉及一种文本
‑
图像增强的多模态知识图谱嵌入方法。

技术介绍

[0002]基于平移的方法在知识表示学习(KRL)方面具有有效性和高效率的特点，因此近年来受到了广泛关注。Mikolov等人通过word2vec词表示学习模型发现词向量空间存在平移不变现象。受到该平移不变现象的启发，Border等人提出了TransE模型，将每个事实三元组(h,r,t)中的实体和关系编码到同一低维连续向量空间中,把关系r视为低维空间中从h到t的平移操作即h+r＝t，其中h和t是实体嵌入，r是关系嵌入。TransE具有良好的性能与可扩展性，但是TransE不能对复杂的关系进行建模。
[0003]为了解决TransE模型在处理一对多、多对一、多对多复杂关系时的局限性，TransH模型提出将关系建模为超平面并将头、尾实体投影到关系特定的超平面，让实体在不同的关系下拥有不同的表示。TransR使用关系特定的投影矩阵将实体投影到对应的关系空间中，然后再建立从头实体到尾实体的平移关系。TransM模型允许实体在涉及不同关系时具有不同的嵌入，并为每个事实三元组分配特定的关系权重。
[0004]然而，上述方法只关注三元组中的结构化信息，而没有考虑到丰富的附加信息可以帮助KG的表示学习。

技术实现思路

[0005]本专利技术所要解决的技术问题是针对上述现有技术的不足，提供一种文本
‑r/>图像增强的多模态知识图谱嵌入方法，基于TransE，同时考虑了实体文本描述和实体图像，可实现结构信息和文本信息、图像信息的融合。
[0006]为实现上述技术目的，本专利技术采取的技术方案为：
[0007]一种文本
‑
图像增强的多模态知识图谱嵌入方法，包括：
[0008]步骤1.文本编码器采用Text
‑
CNN对实体的描述性文本进行编码，获得实体的文本表示形式；
[0009]步骤2.图像编器用卷积神经网络提取实体图像的特征，并通过投影矩阵把图像特征从图像空间投影到实体空间，进而得到实体的图像表示形式；
[0010]步骤3.实体关系表示模型使用经典的RL方法基于平移的模型对知识图谱事实三元组进行建模，把关系看作是头实体到尾实体的平移操作，融合实体的文本表示形式和图像表示形式得到实体的结构表示形式并实现关系空间嵌入；
[0011]步骤4.构建损失函数，联合训练实体关系表示模型，优化实体、关系、文本和图像的表示形式及关系空间嵌入。
[0012]为优化上述技术方案，采取的具体措施还包括：
[0013]上述的步骤1所述文本编码器以随机初始化的词向量或word2vec预训练得到的单
词嵌入作为输入，在经过卷积和最大池化后，最终输出实体的文本表示形式向量。
[0014]上述的步骤1所述文本编码器包括以下结构：
[0015]1)输入层：从WordNet语料库的注解文件中提取出实体的文本描述，然后去除实体文本描述中所有的停用词，最后使用预训练的word2vec得到所有词向量{x1，x2，...，x
n
}；
[0016]2)卷积层：将文本描述经过预处理后得到的词向量{x1，x2，...，x
n
}作为卷积层的输入，首先通过一个h词的滑动窗口实现h个词向量的连接，滑动处理的过程如下：
[0017][0018]其中，是连接运算符，是文本中第i个单词的k维词向量；
[0019]将卷积操作应用于句子中每个滑动窗口以生成新特征：
[0020]c
i
＝f(w.x
i：i+h
‑1+b)
[0021]其中c
i
表示从窗口x
i：i+h
‑1中生成的特征，表示卷积核，表示偏置项，f是非线性函数；
[0022]最后，所有滑动窗口{x
1：h
，x
2：h+1
，...，x
n
‑
h+1：n
}生成的特征组成特征图：
[0023]c＝[c1，c2，...，c
n
‑
h+1
][0024]其中，c中的这些特征具有相同的权重；
[0025]上面描述了使用一个卷积核提取一个特征向量的过程，使用多个卷积过滤器来获取多个特征向量(c1，c2，...，c
k
)；
[0026]3)池化层：在特征图上使用最大池化操作：
[0027]m
i
＝max{c
i
}
[0028]其中，m
i
是特征图c
i
中最显著的特征值，即对应于第i个卷积核的特征；
[0029]最后得到对应于k个卷积核的特征向量m＝[m1，m2，...，m
k
]作为实体的文本表示形式。
[0030]上述的步骤2所述图像编码器首先使用经典的卷积神经网络AlexNet作为实体图像的特征提取器，为实体图像构造图像特征，再通过投影矩阵得到实体空间的图像特征，最后计算所有图像特征的平均值并将其作为实体的图像表示形式。
[0031]上述的步骤2具体为：
[0032]1)图像编码器输入每个实体的多个图像{img1，img2，...，img
n
}；
[0033]2)使用深度学习框架PyTorch和预训练的AlexNet来提取实体图像的特征；
[0034]3)使用可训练的共享投影矩阵将图像的特征从图像空间投影到实体空间，得到实体空间的图像特征；
[0035]第i个图像实体空间的图像特征为：
[0036]p
i
＝M
·
f(img
i
)
[0037]其中，f表示AlexNet，是可训练的投影矩阵，d
i
表示图像空间中图像特征的维度，d
s
表示实体的维度；
[0038]4)对实体相应的图像在实体空间的特征表示进行算数平均来获取实体的图像表示形式。
[0039]上述的步骤3基于学习到的文本表示形式和图像表示形式，实体关系表示模型将文本信息和图像视觉信息融入到知识图谱的学习中；
[0040]实体关系表示模型基于传统的基于平移的方法TransE实现，其评分函数定义如下：
[0041]f(h，r，t)＝E
s
+μE
d
+ηE
i
[0042]其中，μ和η是超参数，E
s
代表结构表示形式的评分函数，其与TransE的评分函数||h+r
‑
t||相同，头尾实体都是结构表示形式，即
[0043]E
s
＝||h
s
+r
‑本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本
‑
图像增强的多模态知识图谱嵌入方法，其特征在于，包括：步骤1.文本编码器采用Text
‑
CNN对实体的描述性文本进行编码，获得实体的文本表示形式；步骤2.图像编器用卷积神经网络提取实体图像的特征，并通过投影矩阵把图像特征从图像空间投影到实体空间，进而得到实体的图像表示形式；步骤3.实体关系表示模型使用经典的RL方法基于平移的模型对知识图谱事实三元组进行建模，把关系看作是头实体到尾实体的平移操作，融合实体的文本表示形式和图像表示形式得到实体的结构表示形式并实现关系空间嵌入；步骤4.构建损失函数，联合训练实体关系表示模型，优化实体、关系、文本和图像的表示形式及关系空间嵌入。2.根据权利要求1所述的一种文本
‑
图像增强的多模态知识图谱嵌入方法，其特征在于，步骤1所述文本编码器以随机初始化的词向量或word2vec预训练得到的单词嵌入作为输入，在经过卷积和最大池化后，最终输出实体的文本表示形式向量。3.根据权利要求1所述的一种文本
‑
图像增强的多模态知识图谱嵌入方法，其特征在于，步骤1所述文本编码器包括以下结构：1)输入层：从WordNet语料库的注解文件中提取出实体的文本描述，然后去除实体文本描述中所有的停用词，最后使用预训练的word2vec得到所有词向量{x1，x2，...，x
n
}；2)卷积层：将文本描述经过预处理后得到的词向量{x1，x2，...，x
n
}作为卷积层的输入，首先通过一个h词的滑动窗口实现h个词向量的连接，滑动处理的过程如下：其中，是连接运算符，是文本中第i个单词的k维词向量；将卷积操作应用于句子中每个滑动窗口以生成新特征：c
i
＝f(w.x
i：i+h
‑1+b)其中c
i
表示从窗口x
i：i+h
‑1中生成的特征，表示卷积核，表示偏置项，f是非线性函数；最后，所有滑动窗口{x
1：h
，x
2：h+1
，...，x
n
‑
h+1：n
]生成的特征组成特征图：c＝[c1，c2，...，c
n
‑
h+1
]其中，c中的这些特征具有相同的权重；上面描述了使用一个卷积核提取一个特征向量的过程，使用多个卷积过滤器来获取多个特征向量(c1，c2，...，c
k
)；3)池化层：在特征图上使用最大池化操作：m
i
＝max{c
i
}其中，m
i
是特征图c
i
中最显著的特征值，即对应于第i个卷积核的特征；最后得到对应于k个卷积核的特征向量m＝[m1，m2，...，m
k
]作为实体的文本表示形式。4.根据权利要求1所述的一种文本
‑
图像增强的多模态知识图谱嵌入方法，其特征在于，步骤2所述图像编码器首先使用经典的卷积神经网络AlexNet作为实体图像的特征提取器，为实体图像构造图像特征，再通过投影矩阵得到实体空间的图像特征，最后计算所有图像特征的平均值并将其作为实体的图像表示形式。
5.根据权利要求1所述的一种文本
‑
图像增强的多模态知识图谱嵌入方法，其特征在于，所述步骤2具体为：1)图像编码器输入每个实体的多个图像{img1，img2，...，img
n
}；2)使用深度学习框架PyTorch和预训练的AlexNet来提取实体图像的特征；3)使用可训练的共享投影矩阵将图像的特征从图像空间投影到实体空间，得到实体空间的图像特征；第i个图像实体空间的图像特征为：p
i
＝M
·
f(img
i
)其中，f表示A1exNet，是可训练的投影矩阵，d
i
表示图像空间中图像特征的维度，d
s
表示实体的维度；4)对实体相应的图像在实体空间的特征表示进行算数平均来获取实体的图像表示形式。6.根据权利要求1所述的一种文本
‑
图像增强的多模态知识图谱嵌入方法，其特征在于，所述...

【专利技术属性】
技术研发人员：王立松，肖桂阳，刘绍翰，江国华，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人