System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多种关联特征和图关系注意的多模态人格感知方法及装置制造方法及图纸_技高网

多种关联特征和图关系注意的多模态人格感知方法及装置制造方法及图纸

技术编号:44097001 阅读:27 留言:0更新日期:2025-01-21 12:30
本发明专利技术涉及计算机视觉领域,特别是指一种多种关联特征和图关系注意的多模态人格感知方法及装置。所述方法包括:获取待进行人格感知的输入视频;将输入视频输入到数据预处理模块,得到视觉模态输入、音频模态输入以及文本模态输入;将视觉模态输入、音频模态输入以及文本模态输入输入到模态特征提取网络模块,得到场景‑音频关联特征、场景‑描述词关联特征、音频‑描述词关联特征以及文本模态特征;将场景‑音频关联特征、场景‑描述词关联特征、音频‑描述词关联特征以及文本模态特征输入到特征融合模块,得到多模态融合特征;将多模态融合特征输入到感知预测模块,得到人格感知结果。本发明专利技术提出了一种多模态注意融合框架,用于人格感知。

【技术实现步骤摘要】

本专利技术涉及计算机视觉,特别是指一种多种关联特征和图关系注意的多模态人格感知方法及装置


技术介绍

1、通常,人格包括行为、气质、情绪和心理等方面,能够定义一个个体独特的性格。显性人格感知指的是根据他人观察到的行为和外貌来区分一个人的感知,这与实际人格(代表一个人真实的心理特征)显著不同。人格感知旨在识别社交媒体帖子中隐含的人格特征,从而深入了解人类行为、情绪过程和心理健康。人格感知有助于人们更好地理解自己,改善心理健康,并在心理治疗、临床诊断、职业发展以及社会科学研究等领域中发挥重要作用。在人格研究中,研究人员已经开发了心理量表和模型来理解和测量人格特征。例如,五大人格模型通过五个特质来测量人格:开放性(o)、责任心(c)、外向性(e)、宜人性(a)和神经质(n)。作为社交互动的重要组成部分,显性人格感知显著影响人们对他人的反应,因此在人际交互分析、人机交互系统、社交机器人、教育、市场营销和推荐系统等领域中具有重要的应用价值。

2、随着youtube和tiktok等多媒体社交平台的兴起,人们越来越多地使用视频分享他们的生活。为了应对这一趋势,eccv(european conference on computer vision, 欧洲计算机视觉国际会议)和cvpr(conference on computer vision and patternrecognition, 国际计算机视觉与模式识别会议)在2016年和2017年举办了关于人格特质感知的竞赛,生成了第二版印象数据集。因此,从视频中自动感知人格变得更加可行。近年来,预训练在多模态处理中取得了巨大成功。例如,vl(vision-language,视觉-语言)预训练模型在理解任务(如文本-视觉检索)和生成任务(如视频字幕生成)方面表现出优越性能和灵活可伸缩性。音频预训练模型能够表示复杂的音频信息。从头开始学习视觉、文本和音频的通用相关性是非常计算密集的,比如vatt(video-audio-text transformer, 视频-音频-文本转换器)。因此,一个直观的想法是将最先进的视觉语言模型与预训练的音频骨干结合起来。随着多模态大规模预训练模型在各种视觉下游任务中表现出色以及图结构学习方法的出现,将他们引入人格感知任务上必将带来意想不到的效果。

3、根据一些研究,语言和无意识行为,包括音频(声音语调、声学强度)、视觉线索(面部表情、眼神、身体手势)、文本(音频的转录)以及场景信息是人格感知系统的重要组成部分。这些多模态特征对于实际评估人格和情感具有显著贡献。通过利用不同模态信息的互补性,多模态人格感知方法可以显著增强感知的稳健性。因此,基于不同模态的各种方法已经被开发来预测人格特质。尽管这些研究的方法已经取得了成就,但它们仍然面临两个关键挑战:

4、1. 大多数现有方法只专注于提取更多的单模态特征,忽视了不同模态关联特征的重要性。

5、2. 虽然目前已经存在许多多模态特征融合方法,但它们实际效果还有改进空间。


技术实现思路

1、为了解决现有技术存在的忽略了不同模态之间关联特征以及图关系注意网络在抽取关键时序信息的特点的技术问题,本专利技术实施例提供了一种多种关联特征和图关系注意的多模态人格感知方法及装置。所述技术方案如下:

2、一方面,提供了一种多种关联特征和图关系注意的多模态人格感知方法,该方法由多模态人格感知设备实现,该方法包括:

3、s1、获取待进行人格感知的输入视频。

4、s2、将输入视频输入到数据预处理模块,得到视觉模态输入、音频模态输入以及文本模态输入。

5、s3、将视觉模态输入、音频模态输入以及文本模态输入输入到模态特征提取网络模块,得到场景-音频关联特征、场景-描述词关联特征、音频-描述词关联特征以及文本模态特征。

6、s4、将场景-音频关联特征、场景-描述词关联特征、音频-描述词关联特征以及文本模态特征输入到特征融合模块,得到多模态融合特征。

7、s5、将多模态融合特征输入到感知预测模块,得到人格感知结果。

8、可选地,s3中的将视觉模态输入、音频模态输入以及文本模态输入输入到模态特征提取网络模块,得到场景-音频关联特征、场景-描述词关联特征、音频-描述词关联特征以及文本模态特征,包括:

9、s31、将视觉模态输入以及音频模态输入输入到场景-音频关联特征提取模块,得到场景-音频关联特征。

10、s32、将视觉模态输入输入到场景-描述词关联特征提取模块,得到场景-描述词关联特征。

11、s33、将音频模态输入输入到音频-描述词关联特征提取模块,得到音频-描述词关联特征。

12、s34、将文本模态输入输入到roberta模型,得到文本模态特征。

13、可选地,s31中的将视觉模态输入以及音频模态输入输入到场景-音频关联特征提取模块,得到场景-音频关联特征,包括:

14、s311、对视觉模态输入,使用预训练的图像编码器提取得到场景图像特征,根据场景图像特征构建视觉关系图。

15、s312、对音频模态输入进行预处理得到多个梅尔频谱图像,对多个梅尔频谱图像,通过预训练的音频编码器提取得到多个音频特征,根据多个音频特征构建音频关系图。

16、s313、设计图关系注意网络,根据视觉关系图以及图关系注意网络,得到视觉关系图特征;根据音频关系图以及图关系注意网络,得到音频关系图特征。

17、s314、将视觉关系图特征以及音频关系图特征进行拼接,进而得到场景-音频关联特征。

18、可选地,s32中的将视觉模态输入输入到场景-描述词关联特征提取模块,得到场景-描述词关联特征,包括:

19、s321、构建人格描述词列表。

20、s322、根据人格描述词列表以及文本编码器,生成人格描述词嵌入。

21、s323、根据视觉模态输入以及图像编码器,生成场景图像嵌入。

22、s324、计算人格描述词嵌入和场景图像嵌入的点积,进而得到场景-描述词关联特征。

23、可选地,s33中的将音频模态输入输入到音频-描述词关联特征提取模块,得到音频-描述词关联特征,包括:

24、s331、根据人格描述词列表以及文本编码器,生成人格描述词嵌入。

25、s332、根据音频模态输入以及预训练的音频编码器,生成音频嵌入。

26、s333、计算人格描述词嵌入和音频嵌入的点积,进而得到音频-描述词关联特征。

27、可选地,s4中的将场景-音频关联特征、场景-描述词关联特征、音频-描述词关联特征以及文本模态特征输入到特征融合模块,得到多模态融合特征,包括:

28、s41、通过第一注意分数计算模块、第二注意分数计算模块、第三注意分数计算模块以及第四注意分数计算模块,分别对场景-音频关联特征、场景-描述词关联特征、音频-描述词关联特征本文档来自技高网...

【技术保护点】

1.一种多种关联特征和图关系注意的多模态人格感知方法,其特征在于,所述方法包括:

2.根据权利要求1所述的多种关联特征和图关系注意的多模态人格感知方法,其特征在于,所述S3中的将所述视觉模态输入、音频模态输入以及文本模态输入输入到模态特征提取网络模块,得到场景-音频关联特征、场景-描述词关联特征、音频-描述词关联特征以及文本模态特征,包括:

3.根据权利要求2所述的多种关联特征和图关系注意的多模态人格感知方法,其特征在于,所述S31中的将所述视觉模态输入以及音频模态输入输入到场景-音频关联特征提取模块,得到场景-音频关联特征,包括:

4.根据权利要求2所述的多种关联特征和图关系注意的多模态人格感知方法,其特征在于,所述S32中的将所述视觉模态输入输入到场景-描述词关联特征提取模块,得到场景-描述词关联特征,包括:

5.根据权利要求2所述的多种关联特征和图关系注意的多模态人格感知方法,其特征在于,所述S33中的将所述音频模态输入输入到音频-描述词关联特征提取模块,得到音频-描述词关联特征,包括:

6.根据权利要求1所述的多种关联特征和图关系注意的多模态人格感知方法,其特征在于,所述S4中的将所述场景-音频关联特征、场景-描述词关联特征、音频-描述词关联特征以及文本模态特征输入到特征融合模块,得到多模态融合特征,包括:

7.一种多种关联特征和图关系注意的多模态人格感知装置,所述多种关联特征和图关系注意的多模态人格感知装置用于实现如权利要求1-6任一项所述多种关联特征和图关系注意的多模态人格感知方法,其特征在于,所述装置包括:

8.根据权利要求7所述的多种关联特征和图关系注意的多模态人格感知装置,其特征在于,模态特征提取网络模块,用于:

9.一种多模态人格感知设备,其特征在于,所述多模态人格感知设备包括:

10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至6任一项所述的方法。

...

【技术特征摘要】

1.一种多种关联特征和图关系注意的多模态人格感知方法,其特征在于,所述方法包括:

2.根据权利要求1所述的多种关联特征和图关系注意的多模态人格感知方法,其特征在于,所述s3中的将所述视觉模态输入、音频模态输入以及文本模态输入输入到模态特征提取网络模块,得到场景-音频关联特征、场景-描述词关联特征、音频-描述词关联特征以及文本模态特征,包括:

3.根据权利要求2所述的多种关联特征和图关系注意的多模态人格感知方法,其特征在于,所述s31中的将所述视觉模态输入以及音频模态输入输入到场景-音频关联特征提取模块,得到场景-音频关联特征,包括:

4.根据权利要求2所述的多种关联特征和图关系注意的多模态人格感知方法,其特征在于,所述s32中的将所述视觉模态输入输入到场景-描述词关联特征提取模块,得到场景-描述词关联特征,包括:

5.根据权利要求2所述的多种关联特征和图关系注意的多模态人格感知方法,其特征在于,所述s33中的将所述音频模态输入输入到...

【专利技术属性】
技术研发人员:王荣全马惠敏
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1