一种基于深度学习的跨模态视频情感处理方法技术

技术编号:38941289 阅读:31 留言:0更新日期:2023-09-25 09:40
本发明专利技术公开一种基于深度学习的跨模态视频情感处理方法,包括将视频数据的语音、视觉信息同步分离;提取语谱图空间特征、脸谱图空间特征和MFCC时序特征;对语谱图和脸谱图空间特征自注意力赋权;将赋权语谱图和脸谱图空间特征跨模态融合并交叉注意力赋权;将赋权跨模态空间融合特征与语谱图和脸谱图空间特征融合并全连接处理;对MFCC时序特征多头注意力赋权;将赋权MFCC时序特征与MFCC时序特征融合并全连接处理;将空间与时序特征的全连接向量融合;对融合全连接向量分类预测、获得概率向量。本发明专利技术关注了模态内与模态间的重要特征,可靠排除了情感识别的干扰性因素,能够获得较高准确性的预测结果。确性的预测结果。确性的预测结果。

【技术实现步骤摘要】
一种基于深度学习的跨模态视频情感处理方法


[0001]本专利技术涉及人工智能技术,具体是一种基于深度学习的跨模态视频情感处理方法。

技术介绍

[0002]随着人口老龄化的趋势,老年人的需求和问题也日益突出。老年人需要有人陪伴、关心和照顾,但是由于各种原因,很多老年人无法得到家庭和社会的充分支持。在这种情况下,人工智能陪伴系统

机器人作为一种新型的陪护方案,引起了越来越多的关注和研究。
[0003]人工智能陪伴机器人是指具有人工智能技术的家庭陪伴型机器人,可以通过语音、图像、触觉等方式与人类进行交互,模仿和学习人类的行为和情感,提供各种服务和帮助。人工智能陪伴机器人与老年人陪护的主要目的是为了提高老年人的生活质量和幸福感,缓解他们的孤独、无助和焦虑,增强他们的自信和自尊,促进他们的身心健康。
[0004]在人工智能陪伴机器人的研究中,情感识别是关键一环。情感识别作为人工智能的重要分支,是以计算机对从传感器采集来的视频数据信号进行分析和处理,从而得出对方正处在的情感状态,由此可见,情感识别的准确与否直接关系着人工智能陪伴机器人的陪护效果。
[0005]近年来随着深度学习算法的发展,通过深度学习方式提取特征代替人工提取特征成为情感识别的主流方法。当前,对于情感识别的处理,主要是以语言信息与非语言信息(面部表情、姿势等)的直接融合实现的,例如中国专利文献公开的名称为“一种面向机器人的多模态融合情感计算方法及系统”(公开号CN108960191A,公开日2018年12月07日)、“一种基于长短时记忆机制的多模态个性化情感的处理方法”(公开号CN111222009A,公开日2020年06月02日)、“一种情感计算中多模态生理信号的特征级融合方法”(公开号CN114548262A,公开日2022年05月27日)等技术。这些技术在对语言信息与非语言信息的融合处理中,并未考虑周围环境的干扰性因素,比如噪音、非人脸等,或者采用单一注意力机制排除干扰性因素,使得所获得的预测结果准确性较低,不利于人工智能陪伴机器人的推广应用。

技术实现思路

[0006]本专利技术的技术目的在于:针对上述情感识别的特殊性以及现有技术的不足,提供一种基于深度学习、能够获得较高准确性预测结果的跨模态视频情感处理方法。
[0007]本专利技术的技术目的通过下述技术方案实现,一种基于深度学习的跨模态视频情感处理方法,所述处理方法包括:获取原始视频数据;将视频数据中的语音信息和视觉信息进行同步分离,并分别存入对应的缓冲队列内;将每批同步的语音片段序列与视觉图像序列,按照算法策略从对应缓冲队列内提
出,作为输入数据;采用残差神经网络,分别进行语音信息的基础语谱图空间特征、视觉信息的基础脸谱图空间特征的提取;同时,采用长短时记忆网络进行语音信息的基础MFCC时序特征的提取;采用自注意力机制,对提取的基础语谱图空间特征和基础脸谱图空间特征分别进行自注意力赋权,获得赋权语谱图空间特征和赋权脸谱图空间特征;将赋权语谱图空间特征和赋权脸谱图空间特征进行跨模态融合,并采用交叉注意力机制对一次跨模态空间融合特征进行交叉注意力赋权,获得赋权一次跨模态空间融合特征;将赋权一次跨模态空间融合特征与基础语谱图空间特征和基础脸谱图空间特征进行融合,获得二次跨模态空间融合特征;将二次跨模态空间融合特征进行全连接处理,获得空间特征全连接向量;采用多头注意力机制,对提取的基础MFCC时序特征进行多头注意力赋权,获得赋权MFCC时序特征;将赋权MFCC时序特征与基础MFCC时序特征进行融合,获得时序融合特征;将时序融合特征进行全连接处理,获得时序特征全连接向量;将空间特征全连接向量与时序特征全连接向量进行融合,获得融合全连接向量;采用softmax函数,对融合全连接向量进行分类预测处理,获得概率向量。
[0008]所述视频数据中的语音信息和视觉信息,通过pydub系统进行同步分离及片段序列划分;划分后的语音片段序列为:SegList=[Seg1,Seg2,

,Seg
t
,

,Seg
N
];其中,Seg
t
=[start_t,end_t],Seg
t
表示第t段语音片段;start_t表示第t段语音片段的开始时间,end_t表示第t段语音片段的结束时间,时间单位为ms,且end_t

start_t<=Tms;t={0,1,

N},N表示语音片段的个数;划分语音片段的时间间隔T表示为:T=3R/100;R表示视频数据的帧速率,R取值为25~35/s;划分后的视觉图像序列为:FrameList=[Frame1,Frame2,

,Frame
i
,

,Frame
M
];其中,i={0,1,

M},M表示视觉图像的帧数;对视觉图像序列中的每一视频帧进行人脸定位;人脸定位过程是:;其中,第一个分支表示不能定位到人脸的视频帧;第二个分支表示能够定位到人脸的视频帧;i表示第i视频帧;
表示第i视频帧的Frame
i
视觉图像对应的面部表情图像;j表示当前面部表情图像按尾部追加方式加入到面部表情图像所构成的列表FaceList中的序号,且FaceList=[Face1,Face2,

,Face
j
];对定位有人脸的视频帧处理为:FrameList1=[Frame11,Frame12,

,Frame1
i
,

,Frame1
M
];其中,Frame1
i
表示定位有人脸的视频帧;i={0,1,

M},M表示视觉图像的帧数;同步分离获得的语音片段序列,按先进先出缓存在语音片段队列Q2中,语音片段序列在语音片段队列Q2中的缓存满足如下关系式:;式中,m表示队列Q2中的位置序号,m={0,1,

9};n表示语音片段的实际序号;同步分离并经人脸定位处理后的视觉图像FrameList1,按先进先出缓存在面部表情队列Q1中,在面部表情队列Q1中的缓存满足如下关系式:;式中,p表示队列Q1中的位置序号,p={0,1,

9};q表示中的位置序号;所述面部表情队列Q1和所述语音片段队列Q2的长度相同,均为10。
[0009]所述每批同步的语音片段序列与视觉图像序列,以面部表情队列Q1内的视觉图像序列提取为基准提取语音片段队列Q2内的语音片段序列;所述面部表情队列Q1内的视觉图像序列按顺序依次提取;所述语音片段队列Q2内语音片段序列提取,满足如下关系式:;式中,Q2_n1表示当前队首的语音片段开始时间位置对应的视频帧序号;Q2_n2表示当前队首的语音片段结束时间位置对应的视频帧序号;则;式中,input表示从队列中取出的送入到计算模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的跨模态视频情感处理方法,其特征在于,所述处理方法包括:获取原始视频数据;将视频数据中的语音信息和视觉信息进行同步分离,并分别存入对应的缓冲队列内;将每批同步的语音片段序列与视觉图像序列,按照算法策略从对应缓冲队列内提出,作为输入数据;采用残差神经网络,分别进行语音信息的基础语谱图空间特征、视觉信息的基础脸谱图空间特征的提取;同时,采用长短时记忆网络进行语音信息的基础MFCC时序特征的提取;采用自注意力机制,对提取的基础语谱图空间特征和基础脸谱图空间特征分别进行自注意力赋权,获得赋权语谱图空间特征和赋权脸谱图空间特征;将赋权语谱图空间特征和赋权脸谱图空间特征进行跨模态融合,并采用交叉注意力机制对一次跨模态空间融合特征进行交叉注意力赋权,获得赋权一次跨模态空间融合特征;将赋权一次跨模态空间融合特征与基础语谱图空间特征和基础脸谱图空间特征进行融合,获得二次跨模态空间融合特征;将二次跨模态空间融合特征进行全连接处理,获得空间特征全连接向量;采用多头注意力机制,对提取的基础MFCC时序特征进行多头注意力赋权,获得赋权MFCC时序特征;将赋权MFCC时序特征与基础MFCC时序特征进行融合,获得时序融合特征;将时序融合特征进行全连接处理,获得时序特征全连接向量;将空间特征全连接向量与时序特征全连接向量进行融合,获得融合全连接向量;采用softmax函数,对融合全连接向量进行分类预测处理,获得概率向量。2.根据权利要求1所述基于深度学习的跨模态视频情感处理方法,其特征在于,所述视频数据中的语音信息和视觉信息,通过pydub系统进行同步分离及片段序列划分;划分后的语音片段序列为:SegList=[Seg1,Seg2,

,Seg
t
,

,Seg
N
];其中,Seg
t
=[start_t,end_t],Seg
t
表示第t段语音片段;start_t表示第t段语音片段的开始时间,end_t表示第t段语音片段的结束时间,时间单位为ms,且end_t

start_t<=Tms;t={0,1,

N},N表示语音片段的个数;划分语音片段的时间间隔T表示为:T=3R/100;R表示视频数据的帧速率,R取值为25~35/s;划分后的视觉图像序列为:FrameList=[Frame1,Frame2,

,Frame
i
,

,Frame
M
];其中,i={0,1,

M},M表示视觉图像的帧数;对视觉图像序列中的每一视频帧进行人脸定位;人脸定位过程是:;其中,第一个分支表示不能定位到人脸的视频帧;
第二个分支表示能够定位到人脸的视频帧;i表示第i视频帧;表示第i视频帧的Frame
i
视觉图像对应的面部表情图像;j表示当前面部表情图像按尾部追加方式加入到面部表情图像所构成的列表FaceList中的序号,且FaceList=[Face1,Face2,

,Face
j
];对定位有人脸的视频帧处理为:FrameList1=[Frame11,Frame12,

,Frame1
i
,

,Frame1
M
];其中,Frame1
i
表示定位有人脸的视频帧;i={0,1,

M},M表示视觉图像的帧数;同步分离获得的语音片段序列,按先进先出缓存在语音片段队列Q2中,语音片段序列在语音片段队列Q2中的缓存满足如下关系式:;式中,m表示队列Q2中的位置序号,m={0,1,

9};n表示语音片段的实际序号;同步分离并经人脸定位处理后的视觉图像FrameList1,按先进先出缓存在面部表情队列Q1中,在面部表情队列Q1中的缓存满足如下关系式:;式中,p表示队列Q1中的位置序号,p={0,1,

9};q表示中的位置序号;所述面部表情队列Q1和所述语音片段队列Q2的长度相同,均为10。3.根据权利要求2所述基于深度学习的跨模态视频情感处理方法,其特征在于,所述每批同步的语音片段序列与视觉图像序列,以面部表情队列Q1内的视觉图像序列提取为基准提取语音片段队列Q2内的语音片段序列;所述面部表情队列Q1内的视觉图像序列按顺序依次提取;所述语音片段队列Q2内语音片段序列提取,满足如下关系式:式中,Q2_n1表示当前队首的语音片段开始时间位置对应的视频帧序号;Q2_n2表示当前队首的语音片段结束时间位置对应的视频帧序号;则;式中,input表示从队列中取出的送入到计算模型的数据;第一个分支表示当前语音片段队列Q2的队首元素的音频片段所对应视频帧序号范围内,无脸图像,单提取语音片段队列Q2队首元素对应的语音片段作为计算模型的输入数据;第二个分支表示当前只有脸部图像,无语音信息;
第三个分支表示既有脸图像、又有语音信息;第四个分支表示其它情况,输入数据为空。4.根据权利要求1所述基于深度学习的跨模态视频情感处理方法,其特征在于,所述基础语谱图空间特征,采用ResNet50残差神经网络提取,满足如下关系式:Y=[Y1,Y2,

,Y
θ
];式中,Y表示基础语谱图空间特征;Y
θ
表示基础语谱图空间的第θ个特征,θ表示语谱图空间特征的序号;所述基础脸谱图空间特征,采用ResNet50残差神经网络提取,满足如下关系式:X=[X1,X2,

,X
μ
];式中,X表示基础脸谱图空间特征;X
μ
表示基础脸谱图空间的第μ个特征,μ表示基础脸谱图空间特征的序号;所述基础MFCC时序特征,采用LSTM长短时记忆网络提取,满足如下关系式:Z=[Z1,Z2,

,Z
g
];式中,Z表示基础MFCC时序特征;Z
g
表示基础MFCC时序的第g个特征;g表示基础MFCC时序特征的序号。5.根据权利要求1所述基于深度学习的跨模态视频情感处理方法,其特征在于,所述采用自注意力机制对基础语谱图空间特征进行自注意力的赋权中,注意力计算满足如下关系式:;当注意力计算关系式中的Key_y...

【专利技术属性】
技术研发人员:陈虹君罗福强考铭堃杨安李瑞林魏一鹏马磊赵力衡杜立峰李瑶高扬余磊鋆
申请(专利权)人:成都锦城学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1