用于虚拟形象的数据处理方法及装置、电子设备和介质制造方法及图纸

技术编号：44699181 阅读：31 留言：0更新日期：2025-03-19 20:50

本公开提供了一种用于虚拟形象的数据处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品，涉及人工智能领域，尤其涉及深度学习、图像处理、数字人技术领域。实现方案为：获取音频数据、包括目标对象脸部的第一目标图像；对第一目标图像进行脸部关键点提取以获得第一脸部关键点图像；基于音频数据进行音频特征提取，以获得音频特征；将第一脸部关键点图像和音频特征输入预设的关键点生成网络模型，以获得与音频数据相对应的脸部关键点图像序列；基于脸部关键点图像序列和第一目标图像获得基于第一目标图像生成的与音频数据相对应的视频。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能领域，尤其涉及深度学习、图像处理、数字人，具体涉及一种用于虚拟形象的数据处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

1、人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

2、随着人工智能技术的发展，虚拟数字人已经广泛应用于直播、新闻播报、语音提示等领域。通常需要基于想要播报的音频驱动虚拟数字人做出和该音频同步的动作、表情等，得到该音频驱动的视频。通过音频驱动，从单张人脸图像生成逼真且富有表现力的人像视频，具有广泛的应用前景，涵盖了从数字媒体到游戏、影视创作等多个领域。

技术实现思路

1、本公开提供了一种用于虚拟形象的数据处理方法、...

【技术保护点】

1.一种用于虚拟形象的数据处理方法，包括：

2.如权利要求1所述的方法，其中，所述预设的关键点生成网络模型包括：自注意力层和交叉注意力层，其中，将所述第一脸部关键点图像和所述音频特征输入预设的关键点生成网络模型，以获得与所述音频数据相对应的脸部关键点图像序列包括：

3.如权利要求1所述的方法，其中，基于所述脸部关键点图像序列和所述第一目标图像，获得基于所述第一目标图像生成的与所述音频数据相对应的视频包括：

4.如权利要求2所述的方法，其中，将所述第一图像特征和所述音频特征输入预设的交叉注意力层，以获得与所述音频数据相对应的脸部关键点

【技术特征摘要】

1.一种用于虚拟形象的数据处理方法，包括：

4.如权利要求2所述的方法，其中，将所述第一图像特征和所述音频特征输入预设的交叉注意力层，以获得与所述音频数据相对应的脸部关键点图像序列包括：

5.如权利要求4所述的方法，其中，所述交叉注意力层包括第一交叉注意力层、第二交叉注意力层和第三交叉注意力层，并且其中，将所述第二图像特征、所述第一图像特征和所述音频特征输入预设的交叉注意力层，以获得与所述音频数据相对应的脸部关键点图像序列包括：

6.如权利要求3所述的方法，其中，基于所述表情图像序列和所述第一目标图像，获得基于所述第一目标图像生成的与所述音频数据相对应的视频包括：

7.如权利要求6所述的方法，其中，所述扩散模型包括图像生成模块和视频合成模块，其中，将所述第三图像特征和所述第四图像特征序列输入预设的扩散模型以获得第五图像特征序列包括：

8.如权利要求6或7所述的方法，其中，

9.如权利要求6或7所述的方法，其中，对所述表情图像序列中的表情图像进行图像特征提取，以获得第四图像特征序列包括：

10.一种模型训练方法，包括：

11.如权利要求10所述的方法，其中，所述关键点生成网络模型包括：自注意力层和交叉注意力层，其中，将所述第二脸部关键点图像和所述音频特征输入关键点生成网络模型，以获得与所述音频帧相对应的第三脸部关键点图像包括：

12.如权利要求10所述的方法，其中，基于所述第三脸部关键点图像和所述第一目标图像，通过视频生成模型获得基于所述第一目标图像生成的与所述音频帧相对应的第二图像包括：

13.如权利要求11所述的方法，其中，将所述第一图像特征和所述音频特征输入交叉注意力层，以获得与所述音频帧相对应的第三脸部关键点图像包括：

14.如权利要求13所述的...

【专利技术属性】
技术研发人员：王志强，顾宝轩，秦勤，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人