一种具有视听感知能力的实时对话型数字分身生成方法技术

技术编号：40227573 阅读：3 留言：0更新日期：2024-02-02 22:30

本发明专利技术属于图像语音生成领域，提出一种具有视听感知能力的实时对话型数字分身生成方法：在训练和预处理阶段录制真人原型的音视频素材并进行预处理，使用音视频素材训练语音合成模型、唇形生成模型和面部增强模型；在数字分身生成阶段建立缓冲区，经过感知与回答、唇形同步、面部增强和音视频输出四个步骤，生成实时对话的数字分身。本发明专利技术能够合成高保真的数字分身，实现与用户的实时交互对话。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像语音生成领域，尤其涉及一种具有视听感知能力的实时对话型数字分身的生成方法。

技术介绍

1、数字分身指形象与真人原型高度相似、具有交互能力的虚拟人系统。实时对话型数字分身生成任务是指在对话场景中，数字分身通过感知用户的语音、动作等交互输入，实时地合成回复的语音内容，并生成形象真实、唇形动作与语音内容同步、肢体动作符合语义信息的虚拟人形象图像序列，输出音视频内容，以实现数字分身与真人的实时对话。在人工智能、虚拟现实等技术浪潮的带动下，数字分身生成越来越受到关注，并广泛应用于人机交互、影视制作、虚拟主播、智能员工等领域。具有视听感知能力的实时对话型数字分身技术侧重于用户服务功能，以情景对话的形式为用户奉上贴心服务，具有一定的民生意义。

2、然而，受限于人脸结构的复杂性、唇部运动的多样性、肢体动作的复杂性，具有感知功能的对话型数字分身生成成为计算机视听感知领域研究的重点和难点之一。目前，实时对话型数字分身生成存在以下几个问题：1)感知能力弱：强而准确的感知能力是数字分身具有良好交互体验的保障，现有的数字分身方案通常只具有文字感知或简单的视听感知，单一或不准确的感知能力将严重影响数字分身的交互效率和体验。例如，视听感知要求准确定位用户在摄像头前的位置，并快速识别用户的基本手势动作，而用户位置的随意性以及手势动作的多样性，给视听感知带来了一定的挑战，现有简单的视听感知并不能准确地进行用户定位和动作识别；2)形象真实感低：数字分身形象的保真度和清晰度是影响用户体验的重要因素，现有的数字分身方案普遍存在画面清晰度差

技术实现思路

1、本申请提供了一种数字分身生成方法，用于解决实时对话型数字分身生成任务中存在的感知能力弱、手势动作单一、语音与唇部运动不一致以及实时性较差的问题。本专利技术采用的技术方案流程如下：

2、一种具有视听感知能力的实时对话型数字分身生成方法，其特征在于包括如下步骤：

3、在训练和预处理阶段录制音视频素材并进行预处理，使用音视频素材训练语音合成模型、唇形生成模型和面部增强模型；

4、在数字分身生成阶段建立缓冲区，经过感知与回答、唇形同步、面部增强和音视频输出四个步骤，生成实时对话的数字分身。

5、如上所述的方法，其特征在于，在训练和预处理阶段，录制音视频素材并进行预处理，包括：

6、在相同的硬件条件和环境下录制数字分身的真人原型人物的音视频素材，包括语音音频、驱动视频、动作视频和训练音视频，其中，所述语音音频为一段该真人原型朗读预先准备的文本语料的音频内容，驱动视频为一段该真人原型人物在自然状态下无大幅度面部动作且双手保持在身体指定位置的视频，所述动作视频为多段所述真人原型人物表现各种手势动作的视频，其中的手势动作将作为动作插入时的预置动作，每段动作的开始和结束时刻该人物的双手均需保持在所述驱动视频中双手保持的指定位置处，以便于与驱动视频过渡，所述训练音视频为一段或多段该真人原型人物在自然状态下进行朗读的音视频；

7、预处理包括：

8、指定视频帧率，并将所有视频素材调整至该帧率；

9、使用现有的插帧模型，以驱动视频的最后一帧为起始帧，驱动视频的第一帧为终止帧进行插帧，获得一组由插帧模型合成的、能够使驱动视频首尾自然过渡的合成帧，并按时间顺序置入驱动视频的尾部，具体地，假设驱动视频的最后一帧为第n帧，则将起始帧至终止帧间插帧得到的共k帧合成帧依次视为第n+1至n+k帧；

10、定义一组肢体动作的触发关键词，确定各个关键词所对应的动作视频；

11、定义一组动作-回答关系，确定当数字分身系统接收到用户各种肢体动作交互输入时，所对应的固定回答的语音的文本。

12、如上所述的方法，其特征在于，在训练和预处理阶段，使用音视频素材训练语音合成模型、唇形生成模型和面部增强模型，包括：

13、使用所述语音音频和所述文本语料对现有的经公开大型语音数据集预训练的语音合成模型进行微调，得到所述语音合成模型，该语音合成模型的输入为文本，输出为文本对应的音频和音频的梅尔频谱；

14、提取训练音视频的音频，将该音频转化为帧率与所述视频帧率相同的梅尔频谱特征，使用所述训练音视频的rgb帧和训练音视频中音频的梅尔频谱特征对现有的经公开的大量音视频数据预训练的音频驱动的唇形同步模型进行微调，得到所述唇形生成模型；

15、将所述训练音视频中音频的梅尔频谱和驱动视频输入所述唇形生成模型，得到低分辨率、与训练音视频中音频同步的合成视频，使用该合成视频和训练音视频中的视频，分别作为源数据和目标数据训练现有的人脸替换网络，得到所述面部增强模型。

16、如上所述的方法，其特征在于，在数字分身生成阶段建立缓冲区，包括：

17、提取驱动视频的所有rgb帧，并按时间先后顺序从小到大标记序号；

18、建立肢体动作视频帧队列、待增强队列、音频队列、梅尔频谱队列、音频标记队列和输出队列作为缓冲区，其中肢体动作视频帧队列存放肢体动作视频帧，待增强队列存放待进行面部增强的视频帧，音频队列存放待播放的音频，梅尔频谱队列存放待播放音频的梅尔频谱特征，音频标记队列用于存放指示是否应开始播放音频的布尔标记，输出队列存放经面部增强后用于最终输出的视频帧。

19、如上所述的方法，其特征在于，在数字分身生成阶段的感知与回答步骤的具体过程，包括：

20、监听获取实时的音频数据，摄像头采集用户的视频数据，根据音频响度判断音频数据中是否存在语音交互信息，根据现有的人体关键点识别模型判断视频数据中是否存在交互动作及识别交互动作的种类：

21、1)若存在所述语音交互信息或交互动作：

22、根据语音交互信息或交互动作进行文本回复，获得数字分身的回答文本；

23、将所述回答文本输入经训练得到的所述语音合成模型，合成回答的音频和音频的梅尔频谱，将所合成的回答音频置入音频队列，按照所述视频帧率切分得到与驱动视频帧长相同的音频帧，将各音频帧的梅尔频谱特征依次置入梅尔频谱队列，建立音频标记序列，序列长度为音频帧的帧数，其中首个标记的值为真，用于表示该标记所对应的时刻为音频起始时刻，其余标记的值为假，将本文档来自技高网...

【技术保护点】

1.一种具有视听感知能力的实时对话型数字分身生成方法，其特征在于，步骤如下：

2.根据权利1所述的数字分身生成方法，其特征在于，训练和预处理阶段录制音视频素材并进行预处理，包括：

3.根据权利1所述的数字分身生成方法，其特征在于，使用音视频素材训练语音合成模型、唇形生成模型和面部增强模型，包括：

4.根据权利1所述的数字分身生成方法，其特征在于，在数字分身生成阶段建立缓冲区，包括：

5.根据权利1所述的数字分身生成方法，其特征在于，感知与回答，包括：

6.根据权利1所述的数字分身生成方法，其特征在于，唇形同步，包括：

7.根据权利1所述的数字分身生成方法，其特征在于，面部增强，包括：

8.根据权利1所述的数字分身生成方法，其特征在于，音视频输出，包括：

9.根据权利5所述的数字分身生成方法，其特征在于，根据语音交互信息或交互动作进行文本回复，获得数字分身的回答文本，包括：

10.根据权利5所述的数字分身生成方法，其特征在于，根据分词结果进行肢体动作插入，获得肢体动作视频帧序列，包括：

...

【技术特征摘要】

1.一种具有视听感知能力的实时对话型数字分身生成方法，其特征在于，步骤如下：

2.根据权利1所述的数字分身生成方法，其特征在于，训练和预处理阶段录制音视频素材并进行预处理，包括：

3.根据权利1所述的数字分身生成方法，其特征在于，使用音视频素材训练语音合成模型、唇形生成模型和面部增强模型，包括：

4.根据权利1所述的数字分身生成方法，其特征在于，在数字分身生成阶段建立缓冲区，包括：

5.根据权利1所述的数字分身生成方法，其特征在于，感知与回答，包括：...

【专利技术属性】
技术研发人员：百晓，李嘉禾，吴禹辰，郑锦，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人