【技术实现步骤摘要】
用于欲望检测的多模态交叉注意力图网络算法
[0001]本专利技术涉及多模态欲望分析
,具体为用于欲望检测的多模态交叉注意力图网络算法
。
技术介绍
[0002]情感分析和识别一直是一个热门研究课题
。
自
1990
年代以来,研究者逐渐关注利用计算机自动检测和分析人类情感
。
随着计算机处理速度的提高和机器学习算法的发展,这一领域在自然语言处理中变得越来越重要
。
然而,理解驱动情感的人类欲望的基础仍然是一个相对不发达的领域
。
近年来,大型语言模型的出现重新点燃了人们对人工智能出色性能及其未来潜在方向的兴趣
。
探索和学习人类情感背后的动机可以极大地增强人工智能理解人类情感和行为的能力
。
[0003]欲望是一种内在的驱动力,促使个人采取行动并实现他们的目标
。
在情感研究领域中,欲望是一个重要的主题,因为它可以显著影响我们的情绪
。
对特定物品或体验的强烈欲望可以引发兴奋和期待,而无法满足这种欲望则可能导致失望和挫败感
。
因此,在情感研究领域中研究欲望是至关重要的
。
[0004]人工智能领域的研究主要集中在情感和情绪上
。
人类情感识别研究可以分为单模态和多模态方法,具体取决于模态数量
。
单模态方法的问题在于引起情绪波动的方式有很多种,不同的人表达情感的方式也有所不同
。
...
【技术保护点】
【技术特征摘要】
1.
用于欲望检测的多模态交叉注意力图网络算法,其特征在于,包括以下步骤:Ⅰ、
文本模态表示:获取输入句子的嵌入,再将其馈送到
BERT
中的编码器层,以获取最终的文本模态表示;Ⅱ、
视觉模态表示:使用
DINO
‑
ViT
提取视觉特征;Ⅲ、
融合视觉和文本模态以获得多模态表示:将每个标记和补丁表示为图中的一个节点,并使用交叉注意力学习整个图的表示;Ⅳ、
分类:在得到图形后,添加一个最大池化层,然后使用多层感知机,得到分类结果
。2.
根据权利要求1中所述的用于欲望检测的多模态交叉注意力图网络算法,其特征在于:在所述步骤Ⅰ中,具体过程如下:按照
BERT
的原始设置,在输入序列的开头和结尾分别添加了
[CLS]
和
[SEP]
标记;然后
BERT
使用多个
Transformer
编码器层来进一步处理输入序列
。3.
根据权利要求1中所述的用于欲望检测的多模态交叉注意力图网络算法,其特征在于:在所述步骤Ⅱ中,所述
DINO
‑
ViT
为由
DINO
训练的预训练
Vision Transformer(ViT)
模型
。4.
根据权利要求1中所述的用于欲望检测的多模态交叉注意力图网络算法,其特征在于:在所述步骤Ⅱ中,使用
DINO
‑
ViT
提取视觉特征的具体过程如下:将大小为
L
i
×
L
i
的输入图像
I
分割成一组图像块,每个块的长度和宽度均为
L
p
,则一个图像块表示为式中,
p
j
∈R
Lp
×
Lp
是输入图像的第
j
个图像块,
r
=
L
i
/L
p
×
L
i
/L
p
是图像块的总数;在按照
ViT
的原始设...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。