基于多模态交互信息的虚拟人表情个性化生成方法技术

技术编号:38018090 阅读:10 留言:0更新日期:2023-06-30 10:45
本发明专利技术公开了基于多模态交互信息的虚拟人表情个性化生成方法,包括当用户与数字人对话,提出问题或聊天时,将用户语音发送到ASR服务,提取音频特征后转化为文字信息,利用NLP对语音转文字的结果进行分析,通过深度学习模型解析出句子的逻辑结构和内容含义,抽取事件元素,在配置好的知识库中查找匹配,命中问题后给出回答文本。本发明专利技术提出新的多模融合网络,根据目标用户朗读视频提取目标用户的表情神态特征,输出带有目标用户个人表情特征的数据来驱动数字人,对于不同目标用户,数字人可以展现出不同的、个性化的表现。个性化的表现。个性化的表现。

【技术实现步骤摘要】
基于多模态交互信息的虚拟人表情个性化生成方法


[0001]本专利技术涉及人工智能领域,特别涉及基于多模态交互信息的虚拟人表情个性化生成方法。

技术介绍

[0002]在人工智能、虚拟现实等新技术浪潮的带动下,虚拟数字人制作过程得到有效简化,各方面性能获得飞跃式提升,开始从角色形象的数字化逐渐向行为交互化、思想智能化深入。以虚拟主播、虚拟员工等为代表的数字人成功进入大众视野,并以多元的姿态在影视、游戏、传媒、文旅、金融等众多领域大放异彩。以数字人为主角来制作图片、视频已能达到以假乱真的效果,但在交互场景中,考虑到硬件算力与用户体验,如何让数字人在实时交互时也拥有逼真的表现力成为很多应用场景的刚性需求。本文从合成人面部表现的角度入手,主要介绍融合多模态数据特征分析、个性化驱动的3D数字人唇部动作与面部表情的技术方案。
[0003]视觉表征在人类的言语感知中起着重要作用,例如在看电影时,如果角色的口型与声音不对应,会给观众带来“出戏”感。现有技术中,主流音频驱动的三维唇动算法主要针对通用模型,通过驱动面部的表情基或嘴唇部位相关的模型顶点来模拟说话时的口型,在这个过程中,会丢失包括韵律与情感在内的很多信息,数字人只能机械地展现音素对应的口型。面部表情也主要通过制作表情基动画,随机或按照固定顺序播放动画来驱动。上述方案中,缺乏对内容与情感的理解是数字人在对话时表现呆滞、僵硬的一个重要原因,导致数字人容易陷入恐怖谷效应。

技术实现思路

[0004]本专利技术的目的在于提供基于多模态交互信息的虚拟人表情个性化生成方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:基于多模态交互信息的虚拟人表情个性化生成方法,包括以下步骤:
[0006]步骤一:当用户与数字人对话,提出问题或聊天时,将用户语音发送到ASR服务,提取音频特征后转化为文字信息;
[0007]步骤二:利用NLP对语音转文字的结果进行分析,通过深度学习模型解析出句子的逻辑结构和内容含义,抽取事件元素,在配置好的知识库中查找匹配,命中问题后给出回答文本;
[0008]步骤三:NLP的回答文本首先送到TTS服务,经过语言学分析,由Tacotron2语音合成模型生成文字对应的波形并拼接成完整的音频片段;
[0009]步骤四:对于每一句音频片段,结合该句的上下文,由TextRCNN情感特征模型分析该段对体现什么情绪,同时用CRNN音频特征提取模型处理音频,得到音频特征,通过预训练好的唇动与面部表情生成模型计算出一组基础唇部顶点位移和表情基数据;
[0010]步骤五:取一段目标用户朗读的视频,由CNN+FC表情特征模型提取出目标用户的表情特征,表情特征与上一步计算得到的基础唇部顶点位移和表情基数据进行融合,得到具有目标用户表情特征的个性化唇部顶点位移与表情基数据;
[0011]步骤六:用个性化的唇部顶点位移和表情基数据驱动数字人,使数字人能够一边说话一边做出对应的口型和表情,给予用户反馈。
[0012]优选的,在步骤一中,提取音频特征时,由DNN

CTC声学模型解析出字词,语言模型调整声学模型得到的不合逻辑的结果,转为一段通顺的文字后继续发送给NLP服务。
[0013]优选的,在步骤五中,通过目标用户的朗读视频提取表情特征可以预先操作,将提取好的表情特征作为参数配置记录下来,节约个性化表情迁移的时间,更快与基础唇部顶点位移与表情基融合。
[0014]优选的,当用户与数字人对话还可以提取情感特征和表情特征。
[0015]优选的,在输入情感特征、表情特征和音频特征时,训练数据集由成对的面部运动3D顶点数据和与之对齐的音频片段、以及对应的情感特征和表情特征组成;训练数据的采集与处理过程如下:需要准备内容涵盖多种情绪的文本,文本情绪识别网络提取不同情感特征,邀请多位被摄对象,请被摄对象有感情地朗读这些文本,用摄像头同时记录被摄对象朗读时的视频与音频,采集到的音视频数据通过上述情感特征提取网络、表情特征提取网络与音频特征提取网络分别提取出情感特征、表情特征与音频特征,再将视频图像通过2D跟踪与3D映射,将视频中被摄对象的面部肌肉运动对应到头部3D标准模型上,得到面部3D顶点位置数据,经过上述一系列处理后,将原始数据转化为训练数据集。
[0016]优选的,模型训练的位置损失函数定义为:
[0017][0018]速度损失函数定义为:
[0019][0020]其中X代表视频帧中头部3D模型的顶点位置,K是数据集中视频帧数量,T为无表情头部3D标准模型顶点位置,D代表模型输出,由一组唇部顶点位移数据和面部表情基数据组成。为了更精准地展现口型,唇部动作由模型嘴部区域每个顶点的位移来控制;对于面部表情来说,表情基比顶点驱动更具有通用性,且多个表情基结合足以展现某种情绪下对应的表情,因此本技术方案采用了唇部顶点位移与面部表情基数据结合的方式。
[0021]本专利技术的技术效果和优点:
[0022]本专利技术提出新的多模融合网络,能够融合情感特征、表情特征、音频特征等多模态数据,使网络在学习音频与唇部顶点关系的同时能够学习面部顶点如何适当变化来展现细腻的表情,模型输出由唇部顶点位置变化与面部表情基组合,既能保证口型的准确性,又能使表情丰富生动的同时节约性能,提高通用性,根据目标用户朗读视频提取目标用户的表情神态特征,输出带有目标用户个人表情特征的数据来驱动数字人,对于不同目标用户,数字人可以展现出不同的、个性化的表现。
附图说明
[0023]图1为本专利技术的网络架构图。
[0024]图2为本专利技术情感特征提取网络架构图。
[0025]图3为本专利技术表情特征提取网络架构图。
[0026]图4为本专利技术音频特征提取网络架构图。
[0027]图5为本专利技术的系统流程图。
[0028]图6为本专利技术的DNN

CTC模型。
[0029]图7为本专利技术的深度学习模型图。
[0030]图8为本专利技术的Tacotron2模型。
[0031]图9为本专利技术的TextRCNN模型。
[0032]图10为本专利技术的CRNN模型。
[0033]图11为本专利技术的CNN+FC模型图。
具体实施方式
[0034]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0035]本专利技术提供了如图1

11所示的基于多模态交互信息的虚拟人表情个性化生成方法,包括:
[0036]进行网络输入:网络输入由三部分组成,分别为音频信号提取到的音频特征、音频文本上下文提取的情感特征与目标用户朗读视频中提取到的表情特征。输出为3D唇部顶点位移与面部本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多模态交互信息的虚拟人表情个性化生成方法,其特征在于,包括以下步骤:步骤一:当用户与数字人对话,提出问题或聊天时,将用户语音发送到ASR服务,提取音频特征后转化为文字信息;步骤二:利用NLP对语音转文字的结果进行分析,通过深度学习模型解析出句子的逻辑结构和内容含义,抽取事件元素,在配置好的知识库中查找匹配,命中问题后给出回答文本;步骤三:NLP的回答文本首先送到TTS服务,经过语言学分析,由Tacotron2语音合成模型生成文字对应的波形并拼接成完整的音频片段;步骤四:对于每一句音频片段,结合该句的上下文,由TextRCNN情感特征模型分析该段对体现什么情绪,同时用CRNN音频特征提取模型处理音频,得到音频特征,通过预训练好的唇动与面部表情生成模型计算出一组基础唇部顶点位移和表情基数据;步骤五:取一段目标用户朗读的视频,由CNN+FC表情特征模型提取出目标用户的表情特征,表情特征与上一步计算得到的基础唇部顶点位移和表情基数据进行融合,得到具有目标用户表情特征的个性化唇部顶点位移与表情基数据;步骤六:用个性化的唇部顶点位移和表情基数据驱动数字人,使数字人能够一边说话一边做出对应的口型和表情,给予用户反馈。2.根据权利要求1所述的基于多模态交互信息的虚拟人表情个性化生成方法,其特征在于,在步骤一中,提取音频特征时,由DNN

CTC声学模型解析出字词,语言模型调整声学模型得到的不合逻辑的结果,转为一段通顺的文字后继续发送给NLP服务。3.根据权利要求1所述的基于多模态交互信息的虚拟人表情个性化生成方法,其特征在于,在步骤五中,通过目标用户的朗读视频提取表情特征可以预先操作,将提取好的表情特征...

【专利技术属性】
技术研发人员:王欣艳房玉东魏永锋孙宁
申请(专利权)人:应急管理部大数据中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1