一种跨模态情感迁移方法及装置制造方法及图纸

技术编号：26066686 阅读：31 留言：0更新日期：2020-10-28 16:39

本发明专利技术提供一种跨模态情感迁移方法及装置，所述方法包括：接收用户语音信号和视频图像；基于所述语音信号和视频图像分别进行用户语音情绪识别和面部表情识别；比对所述语音情绪识别结果和面部表情识别结果是否一致，如果一致则将用户语音信号和原始视频图像直接输出，否则根据所述语音情绪识别结果对所述用户视频图像进行相应的面部表情修正，并将用户语音信号和经过面部表情修正后的用户视频图像作为最终输出。本发明专利技术提出的跨模态情感迁移方法及装置，能够根据用户的语音情绪状况，对该用户的视频图像进行相应的表情修正，从而让用户的表情看上去更加生动而富有感染力，可有效提升在线视频聊天或者在线教学的趣味性和互动性。

全部详细技术资料下载

【技术实现步骤摘要】
一种跨模态情感迁移方法及装置
本专利技术涉及视频图像处理
，具体而言涉及一种跨模态情感迁移方法及装置。
技术介绍
人的情感表达有多种方式，比如面部的喜怒哀乐表情，说话声音的音量音调，以及语言文字的运用等。因此，为了更加全面的描述和刻画一个月的情绪状态，当前业界通常会采取多通道情绪识别的方式，实现对一个人情绪状态的综合判定。通常而言，人们更倾向于在说话语音里表达更多的情绪状态细节，而在面部表情、肢体动作等方面相对收敛和保守，难以捕获足够多的情绪细节。加之在实际应用场景中，由于面部表情伪装、口罩遮掩、光线角度等因素，通过面部表情、肢体动作等方式去描述和反映一个人的情绪状态更是存在一定的局限性。基于上述局限性，有必要设计一种跨模态情感迁移技术，能够根据用户的语音情绪状况，对该用户的面部表情进行相应的修正或者增强，从而让用户的表情看上去更加生动而富有感染力，可有效提升在线视频聊天或者在线教学的趣味性和互动性。
技术实现思路
本专利技术提出一种跨模态情感迁移方法，所述方法包括：步骤S101：接收用户当前的语音信号和视频图像；步骤S102：基于所述语音信号和视频图像分别进行用户语音情绪识别和面部表情识别；步骤S103：比对所述语音情绪识别结果和面部表情识别结果是否一致，如果一致则将用户语音信号和视频图像进行直接输出，否则转至步骤S104；以及步骤S104：根据所述语音情绪识别结果对所述用户视频图像进行相应的面部表情修正，并将用户语音信号和经过面部表情修正后的视频图像作为最终输出。示例性地...

【技术保护点】
1.一种跨模态情感迁移方法，其特征在于，所述方法包括：/n步骤S101：接收用户当前的语音信号和视频图像；/n步骤S102：基于所述语音信号和视频图像分别进行用户语音情绪识别和面部表情识别；/n步骤S103：比对所述语音情绪识别结果和面部表情识别结果是否一致，如果一致则将用户语音信号和视频图像进行直接输出，否则转至步骤S104；以及/n步骤S104：根据所述语音情绪识别结果对所述用户视频图像进行相应的面部表情修正，并将用户语音信号和经过面部表情修正后的视频图像作为最终输出。/n

【技术特征摘要】
1.一种跨模态情感迁移方法，其特征在于，所述方法包括：
步骤S101：接收用户当前的语音信号和视频图像；
步骤S102：基于所述语音信号和视频图像分别进行用户语音情绪识别和面部表情识别；
步骤S103：比对所述语音情绪识别结果和面部表情识别结果是否一致，如果一致则将用户语音信号和视频图像进行直接输出，否则转至步骤S104；以及
步骤S104：根据所述语音情绪识别结果对所述用户视频图像进行相应的面部表情修正，并将用户语音信号和经过面部表情修正后的视频图像作为最终输出。

2.如权利要求1所述的跨模态情感迁移方法，其特征在于，所述步骤S104中的面部表情修正包括：
从预先构建的所述用户基本表情特征向量库Vs中选取所述语音情绪识别结果所对应的相应表情人脸关键点特征向量Vsi，其中i为所述表情类别；
计算用于表情修正的人脸关键点特征向量V，即V＝w*Vsi+(1-w)*Vr，其中w为预先设定的权值，Vr为基于所述用户视频图像所提取的人脸关键点特征向量；
基于所述V，对最所述视频图像中的人脸区域进行相应的拉伸或收缩，从而生成所述经过面部表情修正后的视频图像。

3.如权利要求1所述的跨模态情感迁移方法，其特征在于，在所述步骤S101之前，还包括：
获取所述用户的愉快、惊讶、厌恶、愤怒、恐惧、悲伤六种基本表情所对应的视频图像；
针对所述六种基本表情所对应的视频图像，分别提取人脸关键点特征向量Vsi(1≤i≤6)，以此构建所述用户的基本表情...

【专利技术属性】
技术研发人员：王春雷，尉迟学彪，毛鹏轩，
申请(专利权)人：北京入思技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人