图像生成模型的训练方法、图像生成方法、装置和设备制造方法及图纸

技术编号：41261295 阅读：6 留言：0更新日期：2024-05-11 09:19

本公开提供了一种图像生成模型的训练方法、图像生成方法、装置和设备，涉及增强现实AR、虚拟现实VR、计算机视觉、深度学习等技术领域。该训练方法包括：从样本参考图像中提取人物的参考关键点；基于待训练模型，采用样本音频数据和参考关键点进行运动估计得到与所述样本音频数据匹配的预测关键点；采用参考关键点和预测关键点进行参数估计得到预测关键点的运动参数，并采用预测关键点的运动参数进行先验运动估计得到非关键像素点的光流；采用样本参考图像和稠密光流进行图像预测得到与样本音频数据匹配的预测图像数据；采用预测图像数据和所述标注图像数据进行模型训练得到图像生成模型。通过上述技术方案能够提高图像生成的效率和质量。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机领域，尤其涉及人工智能，具体为增强现实ar、虚拟现实vr、计算机视觉、深度学习等，可应用于元宇宙、虚拟数字人等场景。具体涉及一种图像生成模型的训练方法、图像生成方法、装置和设备。

技术介绍

1、虚拟人又称数字人，指具有数字化外形的虚拟人物，将依赖显示设备存在，并且拥有人的相貌、人的举止(能说话、能举手)以及人的思想。虚拟人生成是元宇宙、智能客服电商等场景中的重要技术，其核心是生成连续逼真的数字人图像，有着广泛的应用场景和商业需求。

2、如何生成数字人图像十分重要。

技术实现思路

1、本公开提供了一种图像生成模型的训练方法、图像生成方法、装置和设备。

2、根据本公开的一方面，提供了一种图像生成模型的训练方法，包括：

3、获取样本音频数据、样本参考图像和标注图像数据，并从样本参考图像中提取人物的参考关键点；

4、基于待训练模型，采用样本音频数据和参考关键点进行运动估计得到与所述样本音频数据匹配的预测关键点；

5、基于所述待训练模型，采用参考关键点和预测关键点进行参数估计得到预测关键点的运动参数，并采用预测关键点的运动参数进行先验运动估计得到非关键像素点的光流；

6、基于所述待训练模型，采用样本参考图像和稠密光流进行图像预测得到与样本音频数据匹配的预测图像数据；其中，稠密光流包括预测关键点的光流和非关键像素点的光流；

7、采用所述预测图像数据和所述标注图像数据进行模型训练得到图像生成模型。

8、根据本公开的一方面，提供了一种图像生成方法，包括：

9、获取目标音频数据和目标参考图像，并从目标参考图像中提取人物的参考关键点；

10、基于图像生成模型，采用目标音频数据和参考关键点进行运动估计得到与所述目标音频数据匹配的预测关键点；

11、基于所述图像生成模型，采用参考关键点和预测关键点进行参数估计得到预测关键点的运动参数，并采用预测关键点的运动参数进行先验运动估计得到非关键像素点的光流；

12、基于所述图像生成模型，采用目标参考图像和稠密光流进行图像预测得到与目标音频数据匹配的预测图像数据；其中，稠密光流包括预测关键点的光流和非关键像素点的光流。

13、根据本公开的一方面，提供了一种图像生成模型的训练装置，包括：

14、参考关键点模块，用于获取样本音频数据、样本参考图像和标注图像数据，并从样本参考图像中提取人物的参考关键点；

15、预测关键点模块，用于基于待训练模型，采用样本音频数据和参考关键点进行运动估计得到与所述样本音频数据匹配的预测关键点；

16、光流估计模块，用于基于所述待训练模型，采用参考关键点和预测关键点进行参数估计得到预测关键点的运动参数，并采用预测关键点的运动参数进行先验运动估计得到非关键像素点的光流；

17、图像预测模块，用于基于所述待训练模型，采用样本参考图像和稠密光流进行图像预测得到与样本音频数据匹配的预测图像数据；其中，稠密光流包括预测关键点的光流和非关键像素点的光流；

18、模型训练模块，用于采用所述预测图像数据和所述标注图像数据进行模型训练得到图像生成模型。

19、根据本公开的一方面，提供了一种图像生成装置，包括：

20、参考关键点模块，用于获取目标音频数据和目标参考图像，并从目标参考图像中提取人物的参考关键点；

21、预测关键点模块，用于基于图像生成模型，采用目标音频数据和参考关键点进行运动估计得到与所述目标音频数据匹配的预测关键点；

22、光流估计模块，用于基于所述图像生成模型，采用参考关键点和预测关键点进行参数估计得到预测关键点的运动参数，并采用预测关键点的运动参数进行先验运动估计得到非关键像素点的光流；

23、图像预测模块，用于基于所述图像生成模型，采用目标参考图像和稠密光流进行图像预测得到与目标音频数据匹配的预测图像数据；其中，稠密光流包括预测关键点的光流和非关键像素点的光流。

24、根据本公开的另一方面，提供了一种电子设备，该电子设备包括：

25、至少一个处理器；以及

26、与所述至少一个处理器通信连接的存储器；其中，

27、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任意实施例所提供的方法。

28、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行本公开任意实施例所提供的方法。

29、根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开任意实施例所提供的方法。

30、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种图像生成模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，基于所述待训练模型，采用参考关键点和预测关键点进行参数估计得到预测关键点的运动参数，并采用预测关键点的运动参数进行先验运动估计得到非关键像素点的光流，包括：

3.根据权利要求2所述的方法，其中，采用预测关键点的光流进行参数估计得到预测关键点的运动参数，从预测关键点中为非关键像素点选择辅助关键点，并采用辅助关键点的光流和运动参数进行先验运动估计得到非关键像素点的光流，包括：

4.根据权利要求3所述的方法，所述得到非关键像素点的光流之后，还包括：

5.根据权利要求3或4所述的方法，所述得到非关键像素点的光流之后，还包括：

6.根据权利要求1所述的方法，其中，从样本参考图像中提取人物的参考关键点，包括：从样本参考图像中提取参考关键点、参考人像和背景图像，并对所述背景图像进行补充得到经补充的背景图像；

7.根据权利要求1或6所述的方法，其中，基于所述待训练模型，采用样本参考图像和稠密光流进行图像预测得到与样本音频数据匹配的预测图像数据，包括：

8.根据权利要求1所述的方法，其中，基于待训练模型，采用样本音频数据和参考关键点进行运动估计得到与所述样本音频数据匹配的预测关键点，包括：

9.一种图像生成方法，包括：

10.根据权利要求9所述的方法，其中，基于图像生成模型，采用参考关键点和预测关键点进行参数估计得到预测关键点的运动参数，并采用预测关键点的运动参数进行先验运动估计得到非关键像素点的光流，包括：

11.根据权利要求10所述的方法，其中，采用预测关键点的光流进行参数估计得到预测关键点的运动参数，从预测关键点中为非关键像素点选择辅助关键点，并采用辅助关键点的光流和运动参数进行先验运动估计得到非关键像素点的光流，包括：

12.根据权利要求11所述的方法，所述得到非关键像素点的光流之后，还包括：

13.根据权利要求11或12所述的方法，所述得到非关键像素点的光流之后，还包括：

14.根据权利要求9所述的方法，其中，从目标参考图像中提取人物的参考关键点，包括：从目标参考图像中提取参考关键点和参考人像；

15.根据权利要求14所述的方法，还包括：

16.根据权利要求9所述的方法，其中，基于图像生成模型，采用目标音频数据和参考关键点进行运动估计得到与所述目标音频数据匹配的预测关键点，包括：

17.根据权利要求9或16所述的方法，还包括：

18.一种图像生成模型的训练装置，包括：

19.一种图像生成装置，包括：

20.一种电子设备，包括：

21.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-17中任一项所述的方法。

22.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-17中任一项所述的方法。

...

【技术特征摘要】

1.一种图像生成模型的训练方法，包括：

4.根据权利要求3所述的方法，所述得到非关键像素点的光流之后，还包括：

5.根据权利要求3或4所述的方法，所述得到非关键像素点的光流之后，还包括：

9.一种图像生成方法，包括：

10.根据权利要求9所述的方法，其中，基于图像生成模型，采用参考关键点和预测关键点进行参数估计得到预测关键点的运动...

【专利技术属性】
技术研发人员：杜宗财，赵亚飞，范锡睿，陈毅，王志强，秦勤，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人