一种基于视频和生理信号的多模态情感识别方法及系统技术方案

技术编号:26147647 阅读:37 留言:0更新日期:2020-10-31 11:46
本发明专利技术提供一种基于视频和生理信号的多模态情感识别方法及系统,所述方法包括:接收用户视频图像和皮肤电生理信号数据;分别对所述视频图像和皮肤电生理信号数据进行特征提取;利用深度信念网络对所述视频图像特征和皮肤电生理信号特征进行特征选择和融合,得到多模态融合特征;以及利用支持向量机对所述多模态融合特征进行分类,从而得到最终的情绪识别结果。本发明专利技术针对多模态情感识别,采用深度信念网络实现了特征选择过程的自动化,减少了特征选择对人工经验和实验次数的依赖性,对多模态情感识别提供了新思路。

【技术实现步骤摘要】
一种基于视频和生理信号的多模态情感识别方法及系统
本专利技术涉及信号处理、情感识别
,具体而言涉及一种基于视频和生理信号的多模态情感识别方法及系统。
技术介绍
情感识别的目的在于通过计算机对用户的生理信号进行分析和处理,得出用户的情感状态。目前针对语音或者生理信号的单模式情感识别技术已经相对成熟,但存在信息单一识别的结果不够可靠、准确的缺点。因此,利用不同性质的多模态特征的多模态情感识别技术值得进一步研究。多模态情感识别的主要步骤包括信息特征提取和分类器设计。分类器主要有支持向量机、神经网络、K近邻算法、贝叶斯方法等等。国内外研究人员在解决多模态情感识别问题时,大部采用这些分类算法。这类多模态情感识别方法极大地依赖于对情感特征的抽取,而目前采用的特征抽取方法大都是人工设计的,再通过特征选择算法剔除冗余或者不相关的特征,得出最优或者次优特征子集,这一步骤的目的是为了提高识别准确率和降低特征维度。这一过程极大地依赖人工专家的经验和反复实验,既需要大量的人力与计算资源,又很难得到最优的情感特征表达,从而影响了情感识别的最终效果。本专利技术针对现有多模态情感识别技术中特征提取方法的不足,利用深度信念网络在自动提取特征方面的优势,结合多模态情感识别技术,实现一种基于视频和生理信号的多模态情感识别方法。既利用了多模态特征的相关性和互补性,实现更加可靠稳定的情感识别,又能通过深度信念网络的非线性结构更好地学习复杂数据的结构和分布,自动提取更高级的特征然后分类,减少了情感特征提取对人的依赖性。专
技术实现思路
针对现有技术的不足,本专利技术提出一种基于视频和生理信号的多模态情感识别方法,所述方法包括:步骤S101:接收用户视频图像和皮肤电生理信号数据;步骤S102:分别对所述视频图像和皮肤电生理信号数据进行特征提取;步骤S103:利用深度信念网络对所述视频图像特征和皮肤电生理信号特征进行特征选择和融合,得到多模态融合特征;以及步骤S104:利用分类器对所述多模态融合特征进行分类,从而得到最终的情绪识别结果。示例性地,所述步骤S102包括:针对所述视频图像,检测人脸并标记面部区域关键点,计算所述面部区域各关键点的位置与面部区域关键点平均位置的距离,并针对面部区域各关键点提取尺度不变特征变换(SIFT)特征,以得到视频图像特征向量;以及针对所述皮肤电生理信号,通过低通滤波进行去噪预处理,然后分别计算原始信号及其一阶微分、二阶微分的均值、中值、标准差、最大值、最小值共计五类特征,以得到皮肤电生理信号特征向量。示例性地,所述步骤S103包括:针对所述视频图像特征向量,利用深度信念网络进行特征选择和融合,得到所述视频图像的高层特征;针对所述皮肤电生理信号特征向量,利用深度信念网络进行特征选择和融合,得到所述皮肤电生理信号的高层特征;以及针对所述视频图像的高层特征和所述皮肤电生理信号的高层特征,利用深度信念网络进行特征选择和融合,得到所述用户的多模态融合特征。根据本专利技术的一个实施例,所述步骤S104中的分类器为基于径向基函数的支持向量机。另一方面,本专利技术还提供一种基于视频和生理信号的多模态情感识别系统,所述系统包括:数据接收模块,用于接收用户视频图像和皮肤电生理信号数据;特征提取模块,用于提取用户视频图像特征和皮肤电生理信号特征;特征融合模块,用于对所述视频图像特征和皮肤电生理信号特征进行特征选择和融合,以得到多模态融合特征;以及情绪识别模块,用于对所述多模态融合特征进行分类,从而得到最终的情绪识别结果。示例性地,所述特征提取模块通过如下方法实现:针对用户视频图像,检测人脸并标记面部区域关键点,计算所述面部区域各关键点的位置与面部区域关键点平均位置的距离,并针对面部区域各关键点提取尺度不变特征变换(SIFT)特征,以得到视频图像特征向量;以及针对用户皮肤电生理信号,通过低通滤波进行去噪预处理,然后分别计算原始信号及其一阶微分、二阶微分的均值、中值、标准差、最大值、最小值共计五类特征,以得到皮肤电生理信号特征向量。示例性地,所述特征融合模块通过如下方法实现:针对所述视频图像特征向量,利用深度信念网络进行特征选择和融合,得到所述视频图像的高层特征;针对所述皮肤电生理信号特征向量,利用深度信念网络进行特征选择和融合,得到所述皮肤电生理信号的高层特征;以及针对所述视频图像的高层特征和所述皮肤电生理信号的高层特征,利用深度信念网络进行特征选择和融合,得到所述用户的多模态融合特征。根据本专利技术的实施例,所述情绪识别模块中的分类器为基于径向基函数的支持向量机。本专利技术提供的基于视频和生理信号的多模态情感识别方法及系统,采用深度信念网络实现了特征选择过程的自动化,减少了特征选择对人工经验和实验次数的依赖性,对多模态情感识别提供了新思路。附图说明本专利技术的下列附图在此作为本专利技术的一部分用于理解本专利技术。附图中示出了本专利技术的实施例及其描述,用来解释本专利技术的原理。附图中:图1示出了根据本专利技术的实施例的一种基于视频和生理信号的多模态情感识别方法100的流程图;以及图2示出了根据本专利技术的实施例的一种基于视频和生理信号的多模态情感识别系统200的结构框图。具体实施方式在下文的描述中,给出了大量具体的细节以便提供对本专利技术更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本专利技术可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本专利技术发生混淆,对于本领域公知的一些技术特征未进行描述。应当理解的是,本专利技术能够以不同形式实施,而不应当解释为局限于这里提出的实施例。相反地,提供这些实施例将使公开彻底和完全,并且将本专利技术的范围完全地传递给本领域技术人员。在此使用的术语的目的仅在于描述具体实施例并且不作为本专利技术的限制。在此使用时,单数形式的“一”、“一个”和“所述/该”也意图包括复数形式,除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”,当在该说明书中使用时,确定所述特征、整数、步骤、操作、元件和/或部件的存在,但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时,术语“和/或”包括相关所列项目的任何及所有组合。为了彻底理解本专利技术,将在下列的描述中提出详细的步骤以及详细的结构,以便阐释本专利技术的技术方案。本专利技术的较佳实施例详细描述如下,然而除了这些详细描述外,本专利技术还可以具有其他实施方式。本专利技术提出一种基于视频和生理信号的多模态情感识别方法及系统,其通过捕捉说话人的视频图像和皮肤电生理信号数据来检测说话人的情绪状态。本专利技术提供的基于视频和生理信号的多模态情感识别方法及系统仅需要普通的摄像装置、皮肤电采集装置以及相应的软件系统即可实现。图1示出了根据本专利技术实施例的一种基于视频和生理信号的多模态情感识别方法100的流程图。下面参照图1来具体描述根据本专利技术实施例的一种基于视频和生理信号的多模态情感识别方法100。根据本专利技术的实施例的,基于视频和生理信号本文档来自技高网
...

【技术保护点】
1.一种基于视频和生理信号的多模态情感识别方法,其特征在于,所述方法包括:/n步骤S101:接收用户视频图像和皮肤电生理信号数据;/n步骤S102:分别对所述视频图像和皮肤电生理信号数据进行特征提取;/n步骤S103:利用深度信念网络对所述视频图像特征和皮肤电生理信号特征进行特征选择和融合,得到多模态融合特征;以及/n步骤S104:利用分类器对所述多模态融合特征进行分类,从而得到最终的情绪识别结果。/n

【技术特征摘要】
1.一种基于视频和生理信号的多模态情感识别方法,其特征在于,所述方法包括:
步骤S101:接收用户视频图像和皮肤电生理信号数据;
步骤S102:分别对所述视频图像和皮肤电生理信号数据进行特征提取;
步骤S103:利用深度信念网络对所述视频图像特征和皮肤电生理信号特征进行特征选择和融合,得到多模态融合特征;以及
步骤S104:利用分类器对所述多模态融合特征进行分类,从而得到最终的情绪识别结果。


2.如权利要求1所述的基于视频和生理信号的多模态情感识别方法,其特征在于,所述步骤S102包括:
针对所述视频图像,检测人脸并标记面部区域关键点,计算所述面部区域各关键点的位置与面部区域关键点平均位置的距离,并针对面部区域各关键点提取尺度不变特征变换(SIFT)特征,以得到视频图像特征向量;以及
针对所述皮肤电生理信号,通过低通滤波进行去噪预处理,然后分别计算原始信号及其一阶微分、二阶微分的均值、中值、标准差、最大值、最小值共计五类特征,以得到皮肤电生理信号特征向量。


3.如权利要求1所述的基于视频和生理信号的多模态情感识别方法,其特征在于,所述步骤S103包括:
针对所述视频图像特征向量,利用深度信念网络进行特征选择和融合,得到所述视频图像的高层特征;
针对所述皮肤电生理信号特征向量,利用深度信念网络进行特征选择和融合,得到所述皮肤电生理信号的高层特征;以及
针对所述视频图像的高层特征和所述皮肤电生理信号的高层特征,利用深度信念网络进行特征选择和融合,得到所述用户的多模态融合特征。


4.如权利要求1所述的基于视频和生理信号的多模态情感识别方法,其特征在于,所述步骤S104中的分类器为基于径向基函数的支持向量机。


5....

【专利技术属性】
技术研发人员:王春雷尉迟学彪毛鹏轩
申请(专利权)人:北京入思技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1