基于音视频多模态特征融合的人格画像生成方法和系统技术方案

技术编号:34385712 阅读:25 留言:0更新日期:2022-08-03 21:07
本发明专利技术提供一种基于音视频多模态特征融合的人格画像生成方法、系统、存储介质和电子设备,涉及人格预测技术领域。本发明专利技术包括预处理受试者的音视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;将组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息并融合,利用融合信息预测大五人格分值,生成受试者的人格画像。利用无接触的音视频特征多模态融合评估实现了用户人格画像的去量表化测量,可以准确地描绘出受试者的人格画像。画像。画像。

【技术实现步骤摘要】
基于音视频多模态特征融合的人格画像生成方法和系统


[0001]本专利技术涉及人格预测
,具体涉及一种基于音视频多模态特征融合的人格画像生成方法、系统、存储介质和电子设备。

技术介绍

[0002]外向性、友好性、责任心、神经性、开放性,这五种人格特征被统称为“大五人格特征”;大五人格预测多用于电商平台,人力资源招聘过程。
[0003]在测量上,通常的方法多以量表为主,如BFI

2(大五人格问卷第二版本)量表,通过量表评测的方式来获取人格预测的结果,可以有助于人们更加清晰的认识自己。
[0004]但是,上述通过量表评测的方式较为繁琐,评估效率低下。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种基于音视频多模态特征融合的人格画像生成方法、系统、存储介质和电子设备,解决了量表评测的方式较为繁琐的技术问题。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音视频多模态特征融合的人格画像生成方法,其特征在于,包括:S1、获取受试者的音视频数据;S2、预处理视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;S3、将所述组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息;S4、融合所述第一、第二、第三和第四模态人格预测信息,利用融合信息预测大五人格分值,进而生成所述受试者的人格画像。2.如权利要求1所述的人格画像生成方法,其特征在于,所述S2中预处理视频数据包括:将每一个视频按照时间顺序等分为N段,在N段序列帧中各自随机抽取出一帧,在按照时间序列组合成一个新的帧序列。3.如权利要求2所述的人格画像生成方法,其特征在于,所述S2中组合序列特征的获取过程包括:针对所述新的序列帧的每一帧,获取面部运动单元18维序列,归一化后的左右眼在x,y,z眼睛注视方向序列,以及头部姿态在欧拉角roll,pitch,yaw维度序列,将这三种序列进行顺序排序组合成一个27维的序列,最终获取N*27维度的组合序列特征。4.如权利要求2所述的人格画像生成方法,其特征在于,所述S2中帧间运动差分特征的获取过程包括:步骤一:针对所述N段序列帧中每一段,取中间帧前后的15帧,且均提取完全去除背景后的面部图像,组成了N段31帧的序列;步骤二:针对所述N段31帧的序列中每一段,以第1帧为基础,之后的30帧都点对点减去第1帧的像素值;步骤三:将减去后得到的30帧点对点像素值叠加,得到新的一帧;步骤四:将所述新的一帧的所有像素点的像素值进行从大到小排序,选取排序后前百分之三十数量的像素点,将其对应的像素值置为1,其余位置的像素点置0;步骤五:将步骤三获取的N个图像帧按照时间序列排序,组合成一个全新的图像帧序列,作为该视频数据的所述帧间运动差分特征。5.如权利要求1~4任一项所述的人格画像生成方法,其特征在于,所述S2中采用音频分...

【专利技术属性】
技术研发人员:孙晓饶轩衡黄杰张习伟王方兵宋京泽汪萌
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1