基于音视频多模态特征融合的人格画像生成方法和系统技术方案

技术编号:34385712 阅读:11 留言:0更新日期:2022-08-03 21:07
本发明专利技术提供一种基于音视频多模态特征融合的人格画像生成方法、系统、存储介质和电子设备,涉及人格预测技术领域。本发明专利技术包括预处理受试者的音视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;将组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息并融合,利用融合信息预测大五人格分值,生成受试者的人格画像。利用无接触的音视频特征多模态融合评估实现了用户人格画像的去量表化测量,可以准确地描绘出受试者的人格画像。画像。画像。

【技术实现步骤摘要】
基于音视频多模态特征融合的人格画像生成方法和系统


[0001]本专利技术涉及人格预测
,具体涉及一种基于音视频多模态特征融合的人格画像生成方法、系统、存储介质和电子设备。

技术介绍

[0002]外向性、友好性、责任心、神经性、开放性,这五种人格特征被统称为“大五人格特征”;大五人格预测多用于电商平台,人力资源招聘过程。
[0003]在测量上,通常的方法多以量表为主,如BFI

2(大五人格问卷第二版本)量表,通过量表评测的方式来获取人格预测的结果,可以有助于人们更加清晰的认识自己。
[0004]但是,上述通过量表评测的方式较为繁琐,评估效率低下。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种基于音视频多模态特征融合的人格画像生成方法、系统、存储介质和电子设备,解决了量表评测的方式较为繁琐的技术问题。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]一种基于音视频多模态特征融合的人格画像生成方法,包括:
[0010]S1、获取受试者的音视频数据;
[0011]S2、预处理视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;
[0012]S3、将所述组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息;
[0013]S4、融合所述第一、第二、第三和第四模态人格预测信息,利用融合信息预测大五人格分值,进而生成所述受试者的人格画像。
[0014]优选的,所述S2中预处理视频数据包括:将每一个视频按照时间顺序等分为N段,在N段序列帧中各自随机抽取出一帧,在按照时间序列组合成一个新的帧序列。
[0015]优选的,所述S2中组合序列特征的获取过程包括:
[0016]针对所述新的序列帧的每一帧,获取面部运动单元18维序列,归一化后的左右眼在x,y,z眼睛注视方向序列,以及头部姿态在欧拉角roll,pitch,yaw维度序列,将这三种序列进行顺序排序组合成一个27维的序列,最终获取N*27维度的组合序列特征。
[0017]优选的,所述S2中帧间运动差分特征的获取过程包括:
[0018]步骤一:针对所述N段序列帧中每一段,取中间帧前后的15帧,且均提取完全去除背景后的面部图像,组成了N段31帧的序列;
[0019]步骤二:针对所述N段31帧的序列中每一段,以第1帧为基础,之后的30帧都点对点
减去第1帧的像素值;
[0020]步骤三:将减去后得到的30帧点对点像素值叠加,得到新的一帧;
[0021]步骤四:将所述新的一帧的所有像素点的像素值进行从大到小排序,选取排序后前百分之三十数量的像素点,将其对应的像素值置为1,其余位置的像素点置0;
[0022]步骤五:将步骤三获取的N个图像帧按照时间序列排序,组合成一个全新的图像帧序列,作为该视频数据的所述帧间运动差分特征。
[0023]优选的,所述S2中采用音频分析工具包librosa,提取所述音频数据中的梅尔频率倒谱系数音频模态特征。
[0024]优选的,所述S3中:
[0025]将所述组合序列特征输入预先构建好的LSTM学习网络,获取所述第一模态人格预测信息;
[0026]优选的,将所述面部图像特征输入预先构建好的包含TSM模块的基于resnet50的学习网络,获取所述第二模态人格预测信息;
[0027]优选的,将所述帧间运动差分特征输入预先构建好的包含TSM模块的基于resnet50的学习网络,获取所述第三模态人格预测信息;
[0028]优选的,将所述音频模态特征输入预先构建好的GRU学习网络,获取所述第四模态人格预测信息。
[0029]优选的,所述S4具体包括:将所述第一、第二、第三和第四模态人格预测信息进行拼接,将融合的拼接信息通过一个线性回归器利用回归出大五人格的分值,进而生成所述受试者的人格画像。
[0030]一种基于音视频多模态特征融合的人格画像生成系统,包括:
[0031]获取模块,用于获取受试者的音视频数据;
[0032]预处理模块,用于预处理视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;
[0033]学习模块,用于将所述组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息;
[0034]融合模块,用于融合所述第一、第二、第三和第四模态人格预测信息,利用融合信息预测大五人格分值,进而生成所述受试者的人格画像。
[0035]一种存储介质,其存储有用于基于音视频多模态特征融合的人格画像生成的计算机程序,其中,所述计算机程序使得计算机执行如上所述的人格画像生成方法。
[0036]一种电子设备,包括:
[0037]一个或多个处理器;
[0038]存储器;以及
[0039]一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的人格画像生成方法。
[0040](三)有益效果
[0041]本专利技术提供了一种基于音视频多模态特征融合的人格画像生成方法、系统、存储
介质和电子设备。与现有技术相比,具备以下有益效果:
[0042]本专利技术包括获取受试者的音视频数据;预处理视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;将所述组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息;融合所述第一、第二、第三和第四模态人格预测信息,利用融合信息预测大五人格分值,进而生成所述受试者的人格画像。利用无接触的音视频特征多模态融合评估实现了用户人格画像的去量表化测量,可以准确地描绘出受试者的人格画像,与传统的心理学量表方法相比更加便捷,拥有更好的推广性。
附图说明
[0043]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0044]图1为专利技术实施例提供的一种基于音视频多模态特征融合的人格画像生成方法的流程示意图;...

【技术保护点】

【技术特征摘要】
1.一种基于音视频多模态特征融合的人格画像生成方法,其特征在于,包括:S1、获取受试者的音视频数据;S2、预处理视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;S3、将所述组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息;S4、融合所述第一、第二、第三和第四模态人格预测信息,利用融合信息预测大五人格分值,进而生成所述受试者的人格画像。2.如权利要求1所述的人格画像生成方法,其特征在于,所述S2中预处理视频数据包括:将每一个视频按照时间顺序等分为N段,在N段序列帧中各自随机抽取出一帧,在按照时间序列组合成一个新的帧序列。3.如权利要求2所述的人格画像生成方法,其特征在于,所述S2中组合序列特征的获取过程包括:针对所述新的序列帧的每一帧,获取面部运动单元18维序列,归一化后的左右眼在x,y,z眼睛注视方向序列,以及头部姿态在欧拉角roll,pitch,yaw维度序列,将这三种序列进行顺序排序组合成一个27维的序列,最终获取N*27维度的组合序列特征。4.如权利要求2所述的人格画像生成方法,其特征在于,所述S2中帧间运动差分特征的获取过程包括:步骤一:针对所述N段序列帧中每一段,取中间帧前后的15帧,且均提取完全去除背景后的面部图像,组成了N段31帧的序列;步骤二:针对所述N段31帧的序列中每一段,以第1帧为基础,之后的30帧都点对点减去第1帧的像素值;步骤三:将减去后得到的30帧点对点像素值叠加,得到新的一帧;步骤四:将所述新的一帧的所有像素点的像素值进行从大到小排序,选取排序后前百分之三十数量的像素点,将其对应的像素值置为1,其余位置的像素点置0;步骤五:将步骤三获取的N个图像帧按照时间序列排序,组合成一个全新的图像帧序列,作为该视频数据的所述帧间运动差分特征。5.如权利要求1~4任一项所述的人格画像生成方法,其特征在于,所述S2中采用音频分...

【专利技术属性】
技术研发人员:孙晓饶轩衡黄杰张习伟王方兵宋京泽汪萌
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1