视频生成方法、装置、设备、介质及程序产品制造方法及图纸

技术编号：42060422 阅读：22 留言：0更新日期：2024-07-19 16:46

本公开涉及视频处理技术领域，公开了视频生成方法、装置、设备、介质及程序产品，该方法包括：获取目标音频数据，以及目标对象的第一视频数据；获取第二视频数据，第二视频数据是对目标对象的视频数据中的唇部区域进行掩膜处理得到的；基于目标多模态模型对目标音频数据进行特征处理，得到目标音频特征，目标多模态模型是基于成对的样本音频以及样本视频进行样本音频特征与样本视频特征的同步对齐训练得到的；对第一视频数据以及第二视频数据进行特征提取，得到待处理特征；基于目标音频特征以及待处理特征，对第二视频数据中的唇部区域进行预测，确定与目标音频数据对应的目标视频。本公开能够提高语音驱动视频的唇形驱动效果。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及视频处理，具体涉及视频生成方法、装置、设备、介质及程序产品。

技术介绍

1、目前，主要利用图像生成模型将目标语音生成对应的唇形，然后将所生成的唇形与人脸进行合成，从而生成与目标语音对应的说话视频。但是，这种唇形驱动方式所生成的视频的不同视频帧之间唇形过渡突兀，造成语音驱动视频的唇形驱动效果较差。

技术实现思路

1、有鉴于此，本公开提供了一种视频生成方法、装置、设备、介质及程序产品，以解决语音驱动视频的唇形驱动效果较差的问题。

2、第一方面，本公开提供了一种视频生成方法，所述方法包括：

3、获取目标音频数据，以及目标对象的第一视频数据；

4、获取第二视频数据，所述第二视频数据是对所述目标对象的视频数据中的唇部区域进行掩膜处理得到的；

5、基于目标多模态模型对所述目标音频数据进行特征处理，得到目标音频特征，所述目标多模态模型是基于成对的样本音频以及样本视频进行样本音频特征与样本视频特征的同步对齐训练得到的；

6、对所述第一视...

【技术保护点】

1.一种视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标多模态模型的确定方式包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标音频特征以及所述待处理特征，对所述第二视频数据中的唇部区域进行预测，确定与所述目标音频数据对应的目标视频，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标图像生成模型的确定方式包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述第一视频特征输入预设图像生成模型中进行迭代加噪处理，得到目标加噪结果，包括：

6.根据权利要求5所述的...

【技术特征摘要】

1.一种视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标多模态模型的确定方式包括：

4.根据权利要求3所述的方法，其特征在于，所述目标图像生成模型的确定方式包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述第一视频特征输入预设图像生成模型中进行迭代加噪处理，得到目标加噪结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述样本音频特...

【专利技术属性】
技术研发人员：林泽一，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人