基于多模态交互信息的虚拟人表情个性化生成方法技术

技术编号：38018090 阅读：10 留言：0更新日期：2023-06-30 10:45

本发明专利技术公开了基于多模态交互信息的虚拟人表情个性化生成方法，包括当用户与数字人对话，提出问题或聊天时，将用户语音发送到ASR服务，提取音频特征后转化为文字信息，利用NLP对语音转文字的结果进行分析，通过深度学习模型解析出句子的逻辑结构和内容含义，抽取事件元素，在配置好的知识库中查找匹配，命中问题后给出回答文本。本发明专利技术提出新的多模融合网络，根据目标用户朗读视频提取目标用户的表情神态特征，输出带有目标用户个人表情特征的数据来驱动数字人，对于不同目标用户，数字人可以展现出不同的、个性化的表现。个性化的表现。个性化的表现。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态交互信息的虚拟人表情个性化生成方法

[0001]本专利技术涉及人工智能领域，特别涉及基于多模态交互信息的虚拟人表情个性化生成方法。

技术介绍

[0002]在人工智能、虚拟现实等新技术浪潮的带动下，虚拟数字人制作过程得到有效简化，各方面性能获得飞跃式提升，开始从角色形象的数字化逐渐向行为交互化、思想智能化深入。以虚拟主播、虚拟员工等为代表的数字人成功进入大众视野，并以多元的姿态在影视、游戏、传媒、文旅、金融等众多领域大放异彩。以数字人为主角来制作图片、视频已能达到以假乱真的效果，但在交互场景中，考虑到硬件算力与用户体验，如何让数字人在实时交互时也拥有逼真的表现力成为很多应用场景的刚性需求。本文从合成人面部表现的角度入手，主要介绍融合多模态数据特征分析、个性化驱动的3D数字人唇部动作与面部表情的技术方案。
[0003]视觉表征在人类的言语感知中起着重要作用，例如在看电影时，如果角色的口型与声音不对应，会给观众带来“出戏”感。现有技术中，主流音频驱动的三维唇动算法主要针对通用模型，通过驱动面部的表情基或嘴唇部位相关的模型顶点来模拟说话时的口型，在这个过程中，会丢失包括韵律与情感在内的很多信息，数字人只能机械地展现音素对应的口型。面部表情也主要通过制作表情基动画，随机或按照固定顺序播放动画来驱动。上述方案中，缺乏对内容与情感的理解是数字人在对话时表现呆滞、僵硬的一个重要原因，导致数字人容易陷入恐怖谷效应。

技术实现思路

[0004]本专利技术的目的在于提供基于多模态交互信息的虚拟人表情个性化...

【技术保护点】

【技术特征摘要】
1.基于多模态交互信息的虚拟人表情个性化生成方法，其特征在于，包括以下步骤：步骤一：当用户与数字人对话，提出问题或聊天时，将用户语音发送到ASR服务，提取音频特征后转化为文字信息；步骤二：利用NLP对语音转文字的结果进行分析，通过深度学习模型解析出句子的逻辑结构和内容含义，抽取事件元素，在配置好的知识库中查找匹配，命中问题后给出回答文本；步骤三：NLP的回答文本首先送到TTS服务，经过语言学分析，由Tacotron2语音合成模型生成文字对应的波形并拼接成完整的音频片段；步骤四：对于每一句音频片段，结合该句的上下文，由TextRCNN情感特征模型分析该段对体现什么情绪，同时用CRNN音频特征提取模型处理音频，得到音频特征，通过预训练好的唇动与面部表情生成模型计算出一组基础唇部顶点位移和表情基数据；步骤五：取一段目标用户朗读的视频，由CNN+FC表情特征模型提取出目标用户的表情特征，表情特征与上一步计算得到的基础唇部顶点位移和表情基数据进行融合，得到具有目标用户表情特征的个性化唇部顶点位移与表情基数据；步骤六：用个性化的唇部顶点位移和表情基数据驱动数字人，使数字人能够一边说话一边做出对应的口型和表情，给予用户反馈。2.根据权利要求1所述的基于多模态交互信息的虚拟人表情个性化生成方法，其特征在于，在步骤一中，提取音频特征时，由DNN
‑
CTC声学模型解析出字词，语言模型调整声学模型得到的不合逻辑的结果，转为一段通顺的文字后继续发送给NLP服务。3.根据权利要求1所述的基于多模态交互信息的虚拟人表情个性化生成方法，其特征在于，在步骤五中，通过目标用户的朗读视频提取表情特征可以预先操作，将提取好的表情特征...

【专利技术属性】
技术研发人员：王欣艳，房玉东，魏永锋，孙宁，
申请(专利权)人：应急管理部大数据中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人