当前位置: 首页 > 专利查询>顾睿彤专利>正文

用于欲望检测的多模态交叉注意力图网络算法制造技术

技术编号:39575622 阅读:6 留言:0更新日期:2023-12-03 19:27
本发明专利技术涉及多模态欲望分析技术领域,具体为用于欲望检测的多模态交叉注意力图网络算法;本发明专利技术通过连接来自两种模态的对象信息来提高情感和欲望识别的性能,为了增强对视觉信息的捕捉,利用预训练的

【技术实现步骤摘要】
用于欲望检测的多模态交叉注意力图网络算法


[0001]本专利技术涉及多模态欲望分析
,具体为用于欲望检测的多模态交叉注意力图网络算法


技术介绍

[0002]情感分析和识别一直是一个热门研究课题


1990
年代以来,研究者逐渐关注利用计算机自动检测和分析人类情感

随着计算机处理速度的提高和机器学习算法的发展,这一领域在自然语言处理中变得越来越重要

然而,理解驱动情感的人类欲望的基础仍然是一个相对不发达的领域

近年来,大型语言模型的出现重新点燃了人们对人工智能出色性能及其未来潜在方向的兴趣

探索和学习人类情感背后的动机可以极大地增强人工智能理解人类情感和行为的能力

[0003]欲望是一种内在的驱动力,促使个人采取行动并实现他们的目标

在情感研究领域中,欲望是一个重要的主题,因为它可以显著影响我们的情绪

对特定物品或体验的强烈欲望可以引发兴奋和期待,而无法满足这种欲望则可能导致失望和挫败感

因此,在情感研究领域中研究欲望是至关重要的

[0004]人工智能领域的研究主要集中在情感和情绪上

人类情感识别研究可以分为单模态和多模态方法,具体取决于模态数量

单模态方法的问题在于引起情绪波动的方式有很多种,不同的人表达情感的方式也有所不同

多模态研究涉及融合各种单模态数据源,由于研究需要大量数据的支持,选择易于获取和有效的数据对于情感分类和识别模型的开发至关重要

明确表示的数据,例如文本和图像,更易于分析和提取,而声音和生理信号等隐藏特征则需要多个特征提取,并且更难以验证

因此,研究探索文本和图像中的情感信息已变得越来越流行,类似的研究方法可以用于研究欲望


技术实现思路

[0005]本专利技术的目的在于提供用于欲望检测的多模态交叉注意力图网络算法,将视觉和文本信息相结合,以提供更全面和准确的人类欲望表示

[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]本专利技术提供了用于欲望检测的多模态交叉注意力图网络算法,包括以下步骤:
[0008]Ⅰ、
文本模态表示:获取输入句子的嵌入,再将其馈送到
BERT
中的编码器层,以获取最终的文本模态表示;
[0009]Ⅱ、
视觉模态表示:使用
DINO

ViT
提取视觉特征;
[0010]Ⅲ、
融合视觉和文本模态以获得多模态表示:将每个标记和补丁表示为图中的一个节点,并使用交叉注意力学习整个图的表示;
[0011]Ⅳ、
分类:在得到图形后,添加一个最大池化层,然后使用多层感知机,得到分类结果

[0012]本专利技术进一步的设置为:在所述步骤Ⅰ中,具体过程如下:
[0013]按照
BERT
的原始设置,在输入序列的开头和结尾分别添加了
[CLS]和
[SEP]标记;
[0014]然后
BERT
使用多个
Transformer
编码器层来进一步处理输入序列

[0015]本专利技术进一步的设置为:在所述步骤Ⅱ中,所述
DINO

ViT
为由
DINO
训练的预训练
Vision Transformer(ViT)
模型

[0016]本专利技术进一步的设置为:在所述步骤Ⅱ中,使用
DINO

ViT
提取视觉特征的具体过程如下:
[0017]将大小为
L
i
×
L
i
的输入图像
I
分割成一组图像块,每个块的长度和宽度均为
L
p
,则一个图像块表示为式中,
p
j
∈R
Lp
×
Lp
是输入图像的第
j
个图像块,
r

L
i
/L
p
×
L
i
/L
p
是图像块的总数;
[0018]在按照
ViT
的原始设置获取图像块之后,使用可训练的线性投影将每个图像块展平为特征向量;
[0019]将拼接后的矩阵
X
i
输入到
ViT
中,
ViT
由多头注意力机制和前馈神经网络组成,输出每个图像块的特征向量

[0020]本专利技术进一步的设置为:将每个图像块展平为特征向量表示为
X
j

P
j
E
,式中,是第
j
个图像块的向量表示,
[0021]本专利技术进一步的设置为:输出每个图像块的特征向量表示为
Z
i

ViT(X)
,式中,
Z
i
∈R
r
′×
D
作为视觉模态的表示,其中
D
表示
ViT
输出向量的维度

[0022]本专利技术进一步的设置为:在所述步骤Ⅲ中,使用交叉注意力来更新图表示时,包括以下步骤:
[0023]计算每个节点与其相邻节点之间的注意力权重;
[0024]通过加权求和注意力权重,得到每个节点邻居的加权表示;
[0025]将这个加权表示与节点的原始表示进行拼接,以获得节点的新表示

[0026]本专利技术进一步的设置为:在所述步骤Ⅳ中,分类公式为式中,
M
pool
表示最大池化操作,
W1∈R
D
×
h

是权重矩阵
b1∈R
h

是偏置向量,
h
是隐藏层的维度,
ReLU(x)

max(0,x)

W2∈R
h
′×
K
是权重矩阵,
bb2=
R
K
是偏置向量,
softmax(
·
)

softmax
激活函数

[0027]与现有技术相比,本专利技术的有益效果是:
[0028]本专利技术通过连接来自两种模态的对象信息来提高情感和欲望识别的性能,为了增强对视觉信息的捕捉,利用预训练的
DINO ViT
,并采用交叉注本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
用于欲望检测的多模态交叉注意力图网络算法,其特征在于,包括以下步骤:Ⅰ、
文本模态表示:获取输入句子的嵌入,再将其馈送到
BERT
中的编码器层,以获取最终的文本模态表示;Ⅱ、
视觉模态表示:使用
DINO

ViT
提取视觉特征;Ⅲ、
融合视觉和文本模态以获得多模态表示:将每个标记和补丁表示为图中的一个节点,并使用交叉注意力学习整个图的表示;Ⅳ、
分类:在得到图形后,添加一个最大池化层,然后使用多层感知机,得到分类结果
。2.
根据权利要求1中所述的用于欲望检测的多模态交叉注意力图网络算法,其特征在于:在所述步骤Ⅰ中,具体过程如下:按照
BERT
的原始设置,在输入序列的开头和结尾分别添加了
[CLS]

[SEP]
标记;然后
BERT
使用多个
Transformer
编码器层来进一步处理输入序列
。3.
根据权利要求1中所述的用于欲望检测的多模态交叉注意力图网络算法,其特征在于:在所述步骤Ⅱ中,所述
DINO

ViT
为由
DINO
训练的预训练
Vision Transformer(ViT)
模型
。4.
根据权利要求1中所述的用于欲望检测的多模态交叉注意力图网络算法,其特征在于:在所述步骤Ⅱ中,使用
DINO

ViT
提取视觉特征的具体过程如下:将大小为
L
i
×
L
i
的输入图像
I
分割成一组图像块,每个块的长度和宽度均为
L
p
,则一个图像块表示为式中,
p
j
∈R
Lp
×
Lp
是输入图像的第
j
个图像块,
r

L
i
/L
p
×
L
i
/L
p
是图像块的总数;在按照
ViT
的原始设...

【专利技术属性】
技术研发人员:顾睿彤
申请(专利权)人:顾睿彤
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1