【技术实现步骤摘要】
基于多模态融合的可控图像描述方法、系统、设备及介质
[0001]本专利技术涉及图像描述
,具体的说,涉及了一种基于多模态融合的可控图像描述方法、系统、设备及介质。
技术介绍
[0002]图像描述模型的数据处理流程通常输入图像特征,输出与图像特征相对应的自然语言文本。由于图像描述模型的输入仅为图像特征,这导致图像描述模型只能根据已经训练好的权重和输入的图像来输出文本描述,该文本描述由图像描述模型定向生成,其输出往往不符合人的预期(一张图像生成一段文本描述,该文本描述可能不是用户想要的结果),因此图像描述模型的输出往往与用户看到图像得到的信息不同。
[0003]为了增强图像描述模型捕获图像关键语义的能力,目前主要采用的方法是改进模型的图像特征处理算法或者增强自然语言输出能力;但是,这些方法只对模型算法进行改进,没有考虑输入其他的信息来源,导致模型的输出不准确;
[0004]虽然现有的一些图像描述方法可以通过改进模型来增强获取图像语义的能力,但上述模型的算法流程本质仍然是通过输入一张图像,输出对应的自然语言, ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态融合的可控图像描述方法,其特征在于,包括以下步骤:获取样本数据集中的样本图像,使用ResNet
‑
101对所述样本图像进行图像特征提取,生成原始图像特征X
ν*
;使用基于Faster R
‑
CNN的目标检测模型对所述样本图像进行处理,生成对象回归框,根据所述对象回归框生成对象回归框特征X
νb
;对所述原始图像特征X
ν*
和所述对象回归框特征X
νb
进行融合,生成样本图像特征X
ν
;获取样本数据集中与所述样本图像关联的标注语言文本,提取所述标注语言文本中的每个单词,并对提取出的单词进行标记和位置编码,生成样本文本描述特征X
w
;获取样本数据集中与所述样本图像关联的鼠标轨迹,按照时间顺序将所述鼠标轨迹进行分段处理,获得多个鼠标轨迹段,根据所述鼠标轨迹段生成轨迹回归框,并基于所述轨迹回归框生成样本轨迹特征X
r
;利用预先构建的TO
‑
Transformer特征融合模型,对所述样本图像特征X
ν
、所述样本文本描述特征X
w
和所述样本轨迹特征X
r
进行特征融合,生成样本融合特征;其中,所述TO
‑
Transformer特征融合模型用于分别将所述样本图像特征X
ν
、所述样本文本描述特征X
w
和所述样本轨迹特征X
r
处理为序列化数据,再进行特征向量位置对齐;基于所述样本融合特征,利用预先构建的输出模型生成可控图像描述模型。2.根据权利要求1所述的基于多模态融合的可控图像描述方法,其特征在于,对所述原始图像特征X
ν*
和所述对象回归框特征X
νb
进行融合,生成样本图像特征X
ν
时,执行:步骤A1,对所述原始图像特征X
ν*
进行特征嵌入及层归一化处理,得到中间图像特征向量Ⅰ;对所述对象回归框特征X
νb
进行特征嵌入及层归一化处理,得到中间图像特征向量Ⅱ;步骤A2,对所述中间图像特征向量Ⅰ和所述中间图像特征向量Ⅱ叠加后再进行层归一化处理,获得所述样本图像特征X
ν
;所述样本图像特征X
ν
的表达式如下:其中,Emd[]表示特征嵌入处理,N[]表示层归一化处理;上式中的对象回归框特征X
νb
的表达式为:其中,(x1,y1)为所述对象回归框的左上角坐标,(x2,y2)为所述对象回归框的右下角坐标,w为所述样本图像的宽,h为所述样本图像的高。3.根据权利要求1所述的基于多模态融合的可控图像描述方法,其特征在于,提取所述标注语言文本中的每个单词,并对提取出的单词进行标记和位置编码,生成样本文本描述特征X
w
时,执行:步骤B1,对提取出的单词进行标记,生成所述标注语言文本的第一标记信息w;其中,所述第一标记信息w表示为w={w1,w2,
…
,w
L
},L表示所述标注语言文本的长度;步骤B2,对所述标注语言文本的长度L与预存的最大句子长度阈值LMAX进行比较,若所述标注语言文本的长度L≥最大句子长度阈值LMAX,则将所述第一标记信息w中w
LMAX
之后的标记符号删除,得到第二标记信息w
′
;若所述标注语言文本的长度L<最大句子长度阈值LMAX,则对所述第一标记信息w进行
填充,得到第二标记信息w
′
;步骤B3,对所述第二标记信息w
′
中的每个标记符号进行位置编码,获得每个标记符号的编码符号PWn;步骤B4,基于所述第二标记信息w
′
和每个标记符号的编码符号PWn,生成所述标注语言文本中每个单词的词向量所述词向量的表达式为:其中,w
n
表示所述第二标记信息w
′
中第n个单词的标记符号,PWn表示所述第二标记信息w
′
中第n个标记符号的编码符号;基于所述标注语言文本中每个单词的词向量生成所述样本文本描述特征X
w
;其中,所述样本文本描述特征X
w
表示为表示为表示第1个单词的词向量,以此类推,表示第LMAX个单词的词向量。4.根据权利要求3所述的基于多模态融合的可控图像描述方法,其特征在于,所述样本轨迹特征X
r
的表达式为:其中,表示根据所述鼠标轨迹段生成的轨迹回归框,PM
n
表示所述轨迹回归框的编码符号,Emd[]表示特征嵌入处理,N[]表示层归一化处理。5.根据权利要求1所述的基于多模态融合的可控图像描述方法,其特征在于,利用预先构建的TO
‑
Transformer特征融合模型,对所述样本图像特征X
ν
、所述样本文本描述特征X
w
和所述样本轨迹特征X
r
进行特征融合,生成样本融合特征时,执行:预先构建的TO
‑
Transformer特征融合模型包括图像特征处理结构MHA
v
、第一前馈神经网络FNN、文本描述特征处理结构轨迹特征处理结构第一特征融合结构第二特征融合结构和第三特征融合结构利用所述图像特征处理结构MHA
v
对所述样本图像特征X
ν
进行图像特征提取后,再利用所述第一前馈神经网络FNN对提取出的图像特征进行图像特征拉平,获得待融合图像特征;使用所述文本描述特征处理结构对所述样本文本描述特征X
w
进行文本特征提取,获得待融合文本特征;基于所述第一特征融合结构对所述待融合图像特征和所述待融合文本特征进行融合,得到图像文本融合特征;通过所述轨迹特征处理结构对所述样本轨迹特征X
r
进行特征提取,获得待融...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。