一种跨模态情感迁移方法及装置制造方法及图纸

技术编号:26066686 阅读:31 留言:0更新日期:2020-10-28 16:39
本发明专利技术提供一种跨模态情感迁移方法及装置,所述方法包括:接收用户语音信号和视频图像;基于所述语音信号和视频图像分别进行用户语音情绪识别和面部表情识别;比对所述语音情绪识别结果和面部表情识别结果是否一致,如果一致则将用户语音信号和原始视频图像直接输出,否则根据所述语音情绪识别结果对所述用户视频图像进行相应的面部表情修正,并将用户语音信号和经过面部表情修正后的用户视频图像作为最终输出。本发明专利技术提出的跨模态情感迁移方法及装置,能够根据用户的语音情绪状况,对该用户的视频图像进行相应的表情修正,从而让用户的表情看上去更加生动而富有感染力,可有效提升在线视频聊天或者在线教学的趣味性和互动性。

【技术实现步骤摘要】
一种跨模态情感迁移方法及装置
本专利技术涉及视频图像处理
,具体而言涉及一种跨模态情感迁移方法及装置。
技术介绍
人的情感表达有多种方式,比如面部的喜怒哀乐表情,说话声音的音量音调,以及语言文字的运用等。因此,为了更加全面的描述和刻画一个月的情绪状态,当前业界通常会采取多通道情绪识别的方式,实现对一个人情绪状态的综合判定。通常而言,人们更倾向于在说话语音里表达更多的情绪状态细节,而在面部表情、肢体动作等方面相对收敛和保守,难以捕获足够多的情绪细节。加之在实际应用场景中,由于面部表情伪装、口罩遮掩、光线角度等因素,通过面部表情、肢体动作等方式去描述和反映一个人的情绪状态更是存在一定的局限性。基于上述局限性,有必要设计一种跨模态情感迁移技术,能够根据用户的语音情绪状况,对该用户的面部表情进行相应的修正或者增强,从而让用户的表情看上去更加生动而富有感染力,可有效提升在线视频聊天或者在线教学的趣味性和互动性。
技术实现思路
本专利技术提出一种跨模态情感迁移方法,所述方法包括:步骤S101:接收用户当前的语音信号和视频图像;步骤S102:基于所述语音信号和视频图像分别进行用户语音情绪识别和面部表情识别;步骤S103:比对所述语音情绪识别结果和面部表情识别结果是否一致,如果一致则将用户语音信号和视频图像进行直接输出,否则转至步骤S104;以及步骤S104:根据所述语音情绪识别结果对所述用户视频图像进行相应的面部表情修正,并将用户语音信号和经过面部表情修正后的视频图像作为最终输出。示例性地,所述步骤S104中的面部表情修正包括:从预先构建的所述用户基本表情特征向量库Vs中选取所述语音情绪识别结果所对应的相应表情人脸关键点特征向量Vsi,其中i为所述表情类别;计算用于表情修正的人脸关键点特征向量V,即V=w*Vsi+(1-w)*Vr,其中w为预先设定的权值,Vr为基于所述用户视频图像所提取的人脸关键点特征向量;基于所述V,对最所述视频图像中的人脸区域进行相应的拉伸或收缩,从而生成所述经过面部表情修正后的视频图像。示例性地,在所述步骤S101之前,还包括:获取所述用户的愉快、惊讶、厌恶、愤怒、恐惧、悲伤六种基本表情所对应的视频图像;针对所述六种基本表情所对应的视频图像,分别提取人脸关键点特征向量Vsi(1≤i≤6),以此构建所述用户的基本表情特征向量库Vs。另一方面,本专利技术还提供一种跨模态情感迁移装置,所述装置包括:音视频接收模块,用于接收用户当前的语音信号和视频图像;情绪识别模块,基于所述语音信号和视频图像分别进行用户语音情绪识别和面部表情识别;表情修正模块,用于根据所述语音情绪识别结果对所述视频图像进行相应的面部表情修正;音视频输出模块,用于用户最终的语音信号和视频图像的输出;以及基本表情特征向量库模块,用于存储所述用户六种基本表情所对应的人脸关键点特征向量。示例性地,所述表情修正模块通过如下方法实现:从基本表情特征向量库Vs中选取所述语音情绪识别结果所对应的相应表情人脸关键点特征向量Vsi,其中i为所述表情类别;计算用于表情修正的人脸关键点特征向量V,即V=w*Vsi+(1-w)*Vr,其中w为预先设定的权值,Vr为基于所述用户视频图像所提取的人脸关键点特征向量;基于所述V,对最所述视频图像中的人脸区域进行相应的拉伸或收缩,从而生成经过所述面部表情修正后的视频图像。示例性地,所述基本表情特征向量库Vs通过如下方法构建:获取所述用户的愉快、惊讶、厌恶、愤怒、恐惧、悲伤六种基本表情所对应的视频图像;针对所述六种基本表情所对应的视频图像,分别提取人脸关键点特征向量Vsi(1≤i≤6),以此构建所述用户的基本表情特征向量库Vs。本专利技术提供的跨模态情感迁移方法及装置能够根据用户的语音情绪状况,对该用户的视频图像进行相应的表情修正,从而让用户的表情看上去更加生动而富有感染力,可有效提升在线视频聊天或者在线教学的趣味性和互动性。附图说明本专利技术的下列附图在此作为本专利技术的一部分用于理解本专利技术。附图中示出了本专利技术的实施例及其描述,用来解释本专利技术的原理。附图中:图1示出了根据本专利技术的实施例的一种跨模态情感迁移方法100的流程图;图2示出了根据本专利技术的实施例的一种跨模态情感迁移装置的功能模块组成图。具体实施方式在下文的描述中,给出了大量具体的细节以便提供对本专利技术更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本专利技术可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本专利技术发生混淆,对于本领域公知的一些技术特征未进行描述。应当理解的是,本专利技术能够以不同形式实施,而不应当解释为局限于这里提出的实施例。相反地,提供这些实施例将使公开彻底和完全,并且将本专利技术的范围完全地传递给本领域技术人员。在此使用的术语的目的仅在于描述具体实施例并且不作为本专利技术的限制。在此使用时,单数形式的“一”、“一个”和“所述/该”也意图包括复数形式,除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”,当在该说明书中使用时,确定所述特征、整数、步骤、操作、元件和/或部件的存在,但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时,术语“和/或”包括相关所列项目的任何及所有组合。为了彻底理解本专利技术,将在下列的描述中提出详细的步骤以及详细的结构,以便阐释本专利技术的技术方案。本专利技术的较佳实施例详细描述如下,然而除了这些详细描述外,本专利技术还可以具有其他实施方式。本专利技术提出一种跨模态情感迁移方法及装置,能够根据用户的语音情绪状况,对该用户的视频图像进行相应的表情修正。本专利技术提供的跨模态情感迁移方法及装置仅需要普通的音视频捕捉设备加上软件系统即可实现。图1示出了根据本专利技术实施例的一种跨模态情感迁移方法100的流程图。下面参照图1来具体描述根据本专利技术实施例的一种跨模态情感迁移方法100。根据本专利技术的实施例,跨模态情感迁移方法100包括如下步骤:步骤S101:接收用户当前的语音信号和视频图像。示例性地,本步骤中用户的语音信号可通过录音笔或者手机麦克风进行采集,用户的视频图像可以通过普通的基于可见光的彩色或灰度摄像装置进行采集,所述摄像装置例如普通摄像头、网络摄像头、手机的前置摄像头等。步骤S102:基于所述语音信号和视频图像分别进行用户语音情绪识别和面部表情识别。示例性的,针对所述语音信号,提取音频特征向量Sr,并将其输入训练好的语音情绪分类器进行所述语音信号的情绪识别;针对所述视频图像,进行人脸检测和定位,并提取人脸关键点特征向量Vr,并将其输入训练好的人脸表情分类器进行所述视频图像的表情识别。步骤S103:比对所述语音情绪识别结果和面部表情识别结果是否一致,如果一致则将用户语音信号和视频图像进行直接输出,否则转至步骤S104。步骤S104:根据所述语音情绪识别结果对所述用户视频图像进行相应的面部表情修正,并将用户语音信号和经过面部表情修正本文档来自技高网...

【技术保护点】
1.一种跨模态情感迁移方法,其特征在于,所述方法包括:/n步骤S101:接收用户当前的语音信号和视频图像;/n步骤S102:基于所述语音信号和视频图像分别进行用户语音情绪识别和面部表情识别;/n步骤S103:比对所述语音情绪识别结果和面部表情识别结果是否一致,如果一致则将用户语音信号和视频图像进行直接输出,否则转至步骤S104;以及/n步骤S104:根据所述语音情绪识别结果对所述用户视频图像进行相应的面部表情修正,并将用户语音信号和经过面部表情修正后的视频图像作为最终输出。/n

【技术特征摘要】
1.一种跨模态情感迁移方法,其特征在于,所述方法包括:
步骤S101:接收用户当前的语音信号和视频图像;
步骤S102:基于所述语音信号和视频图像分别进行用户语音情绪识别和面部表情识别;
步骤S103:比对所述语音情绪识别结果和面部表情识别结果是否一致,如果一致则将用户语音信号和视频图像进行直接输出,否则转至步骤S104;以及
步骤S104:根据所述语音情绪识别结果对所述用户视频图像进行相应的面部表情修正,并将用户语音信号和经过面部表情修正后的视频图像作为最终输出。


2.如权利要求1所述的跨模态情感迁移方法,其特征在于,所述步骤S104中的面部表情修正包括:
从预先构建的所述用户基本表情特征向量库Vs中选取所述语音情绪识别结果所对应的相应表情人脸关键点特征向量Vsi,其中i为所述表情类别;
计算用于表情修正的人脸关键点特征向量V,即V=w*Vsi+(1-w)*Vr,其中w为预先设定的权值,Vr为基于所述用户视频图像所提取的人脸关键点特征向量;
基于所述V,对最所述视频图像中的人脸区域进行相应的拉伸或收缩,从而生成所述经过面部表情修正后的视频图像。


3.如权利要求1所述的跨模态情感迁移方法,其特征在于,在所述步骤S101之前,还包括:
获取所述用户的愉快、惊讶、厌恶、愤怒、恐惧、悲伤六种基本表情所对应的视频图像;
针对所述六种基本表情所对应的视频图像,分别提取人脸关键点特征向量Vsi(1≤i≤6),以此构建所述用户的基本表情...

【专利技术属性】
技术研发人员:王春雷尉迟学彪毛鹏轩
申请(专利权)人:北京入思技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1