当前位置: 首页 > 专利查询>厦门大学专利>正文

多模态关键短语生成方法技术

技术编号:39652621 阅读:14 留言:0更新日期:2023-12-09 11:21
本发明专利技术公开了一种多模态关键短语生成方法,包括:获取图像和文本;根据图像得到对应的视觉特征;对图像进行预处理,得到对应的第一文本语义和第二文本语义,根据文本

【技术实现步骤摘要】
多模态关键短语生成方法


[0001]本专利技术涉及自然语言处理
,特别涉及一种多模态关键短语生成方法

一种计算机设备和一种计算机可读存储介质


技术介绍

[0002]相关技术中,现有的多模态关键短语生成技术首先提取图像中显式的光学字符信息和隐式的属性语义信息,并将其和图像

文本一起作为模型的输入;在多模态信息的融合过程中,引入多头注意力机制对不同模态之间的语义交互进行建模;但是隐式的属性信息过于粗糙,并不能提供有效的对图像的补充信息,并且还会给模型带来更多的噪声;另外,由于社交媒体数据的嘈杂,图像和文本并不总是强相关的,不相关的图像或图像区域将不可避免给模型带来噪声,影响模型性能


技术实现思路

[0003]本专利技术旨在至少在一定程度上解决上述技术中的技术问题之一

为此,本专利技术的一个目的在于提出一种多模态关键短语生成方法,基于视觉实体增强和多粒度图像噪声过滤技术,不仅用外部知识丰富了模型输入,而且还有效地过滤了图像噪声

[0004]本专利技术的第二个目的在于提出一种计算机可读存储介质

[0005]本专利技术的第三个目的在于提出一种计算机设备

[0006]为达到上述目的,本专利技术第一方面实施例提出了一种多模态关键短语生成方法,包括以下步骤:获取图像数据和文本数据;根据所述图像数据得到对应的视觉特征;对所述图像数据进行预处理,以得到对应的第一文本语义信息和第二文本语义信息,以便根据所述文本数据

第一文本语义信息和第二文本语义信息得到对应的全局文本特征;根据所述视觉特征和所述全局文本特征进行图像

文本匹配,以得到匹配分数;将所述视觉特征和所述全局文本特征投影到共享语义空间,并结合所述匹配分数计算得到图像区域

文本的相关性矩阵,以便根据所述相关性矩阵得到过滤后的视觉特征;对所述过滤后的视觉特征和所述全局文本特征进行融合,以得到融合特征,并根据所述融合特征得到关键词短语分类预测结果;采用指针网络,根据所述融合特征和所述关键词短语分类预测结果以序列的形式生成每个关键短语

[0007]根据本专利技术实施例的多模态关键短语生成方法,首先,获取图像数据和文本数据;然后,根据图像数据得到对应的视觉特征;对图像数据进行预处理,以得到对应的第一文本语义信息和第二文本语义信息,以便根据文本数据

第一文本语义信息和第二文本语义信息得到对应的全局文本特征;接着,根据视觉特征和全局文本特征进行图像

文本匹配,以得到匹配分数;将视觉特征和全局文本特征投影到共享语义空间,并结合匹配分数计算得到图像区域

文本的相关性矩阵,以便根据相关性矩阵得到过滤后的视觉特征;再接着,对过滤后的视觉特征和全局文本特征进行融合,以得到融合特征,并根据融合特征得到关键词短语分类预测结果;最后,采用指针网络,根据融合特征和关键词短语分类预测结果以序
列的形式生成每个关键短语;由此,基于视觉实体增强和多粒度图像噪声过滤技术,不仅用外部知识丰富了模型输入,而且还有效地过滤了图像噪声

[0008]另外,根据本专利技术上述实施例提出的多模态关键短语生成方法还可以具有如下附加的技术特征:
[0009]可选地,根据所述图像数据得到对应的视觉特征,包括:将所述图像数据输入到预先训练好的图像模态子编码器,并经过扁平化和线性映射操作,以获得对应的视觉特征

[0010]可选地,对所述图像数据进行预处理,以得到对应的第一文本语义信息和第二文本语义信息,包括:采用图像转文字识别工具对所述图像数据进行识别以得到所述第一文本语义信息;采用百度接口获取与所述图像数据语义相关的视觉实体,以作为所述第二文本语义信息

[0011]可选地,根据所述文本数据

第一文本语义信息和第二文本语义信息得到对应的全局文本特征,包括:将所述文本数据

第一文本语义信息和第二文本语义信息进行拼接,以得到拼接后的文本信息;将所述拼接后的文本信息输入到预先训练好的文本模态子编码器,以得到所述拼接后的文本信息对应的文本特征;采用最大池化运算所述文本特征,以得到全局文本特征

[0012]可选地,根据所述视觉特征和所述全局文本特征进行图像

文本匹配,以得到匹配分数,包括:采用多头交叉注意力函数和全连接层对所述视觉特征和所述全局文本特征进行图像

文本匹配,以得到匹配分数

[0013]可选地,根据以下公式得到过滤后的视觉特征:
[0014][0015][0016]其中,
A
表示图像区域

文本的相关性矩阵;
FFN
表示前馈网络;
W
T

W
I
表示可学习的参数矩阵;
M
T
表示全局文本特征;
H
I
表示视觉特征;
d2表示共享语义空间中向量表示的维度;
J
表示全为1的矩阵;
s
c
表示匹配分数;

表示逐个元素相乘;
Sigmoid
表示激活函数;表示过滤后的视觉特征

[0017]可选地,根据以下公式得到关键词短语分类结果:
[0018][0019]d
cla

Softmax(MLP(H
f
))
[0020]其中,
MultiHead
表示多头交叉注意力函数,
H
f
表示融合特征;
MLP
表示多层感知机;
Softmax
表示激活函数;
d
cla
表示关键词短语分类预测结果

[0021]可选地,根据以下公式得到生成概率,以便根据生成概率生成每个关键短语:
[0022]s
j

GRU(y
j
‑1;
s
j
‑1;
c
j
)
[0023][0024][0025][0026][0027][0028]λ

Sigmoid(W
λ
[y
j
‑1;
s
j

c
j
+H
f
])
[0029]其中,
s
j
表示解码器隐藏层参数;
y
j
‑1表示时间步长为
j
‑1时的输出;
c
j
表示文本向量;
α
j

i...

【技术保护点】

【技术特征摘要】
1.
一种多模态关键短语生成方法,其特征在于,包括以下步骤:获取图像数据和文本数据;根据所述图像数据得到对应的视觉特征;对所述图像数据进行预处理,以得到对应的第一文本语义信息和第二文本语义信息,以便根据所述文本数据

第一文本语义信息和第二文本语义信息得到对应的全局文本特征;根据所述视觉特征和所述全局文本特征进行图像

文本匹配,以得到匹配分数;将所述视觉特征和所述全局文本特征投影到共享语义空间,并结合所述匹配分数计算得到图像区域

文本的相关性矩阵,以便根据所述相关性矩阵得到过滤后的视觉特征;对所述过滤后的视觉特征和所述全局文本特征进行融合,以得到融合特征,并根据所述融合特征得到关键词短语分类预测结果;采用指针网络,根据所述融合特征和所述关键词短语预测分类结果以序列的形式生成每个关键短语
。2.
如权利要求1所述的多模态关键短语生成方法,其特征在于,根据所述图像数据得到对应的视觉特征,包括:将所述图像数据输入到预先训练好的图像模态子编码器,并经过扁平化和线性映射操作,以获得对应的视觉特征
。3.
如权利要求1所述的多模态关键短语生成方法,其特征在于,对所述图像数据进行预处理,以得到对应的第一文本语义信息和第二文本语义信息,包括:采用图像转文字识别工具对所述图像数据进行识别以得到所述第一文本语义信息;采用百度接口获取与所述图像数据语义相关的视觉实体,以作为所述第二文本语义信息
。4.
如权利要求1所述的多模态关键短语生成方法,其特征在于,根据所述文本数据

第一文本语义信息和第二文本语义信息得到对应的全局文本特征,包括:将所述文本数据

第一文本语义信息和第二文本语义信息进行拼接,以得到拼接后的文本信息;将所述拼接后的文本信息输入到预先训练好的文本模态子编码器,以得到所述拼接后的文本信息对应的文本特征;采用最大池化运算所述文本特征,以得到全局文本特征
。5.
如权利要求1所述的多模态关键短语生成方法,其特征在于,根据所述视觉特征和所述全局文本特征进行图像

文本匹配,以得到匹配分数,包括:采用多头交叉注意力函数和全连接层对所述视觉特征和所述全局文本特征进行图像

文本匹配,以得到匹配分数
。6.
如权利要求1所述的多模态关键短语生成方法,其特征在于,根据以下公式得到过滤后的视觉特征:后的视觉特征:其中,
A
表示图像区域

文本的相关性矩阵;
FFN
表示前馈网络;
W
T

W
I
表示可学习的参数矩阵;
M
T
表示全局文本特征;
H
I
表示视觉特征;
d2表示共享语义空间中向量表示的维度;
J

示全为1的矩阵;
s
c
表示匹配分数;

表示逐个元素相乘;
Sigmoid
表示激活函数;表示过滤后的视觉特征
。7.
如权利要求6所述的多模态关键短语生成方法,其特征在于,根据以下公式得到关键词短语分类预测结果:
d
cla
...

【专利技术属性】
技术研发人员:苏劲松董怡帆白飞吴苏航尚钰哲
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1