视频合成方法、装置、设备及存储介质制造方法及图纸

技术编号：35275601 阅读：16 留言：0更新日期：2022-10-19 10:55

本公开涉及一种视频合成方法、装置、设备及存储介质。该方法包括：得到音频帧序列中每个音频帧对应的多个音频特征图；得到人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图；针对每个音频帧，基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图，得到该音频帧对应的多个融合图像帧，对多个融合图像帧进行拼接处理，得到该音频帧对应的图像帧；将每个音频帧和与其对应的图像帧合成，得到音频帧序列对应的视频帧序列。根据本公开实施例能够提高推理出的图像帧的合理性和平滑性，避免出现抖动的问题，还可使图像帧语义信息更加丰富，纹理和细节更加逼真，有利于提高视频合成质量。视频合成质量。视频合成质量。

全部详细技术资料下载

【技术实现步骤摘要】
视频合成方法、装置、设备及存储介质

[0001]本公开涉及图像处理
，尤其涉及一种视频合成方法、装置、设备及存储介质。

技术介绍

[0002]视频合成方法技术可以基于音频生成人物在描述该段音频内容的讲话视频，因此，广泛应用在诸如天气播报，新闻播报，虚拟老师，虚拟主播等领域。
[0003]现阶段，视频合成方法技术主要包括基于3D的视频合成方法和基于2D的视频合成方法，其中，基于2D的视频合成方法具有推理合成效率高的优点，因此受到广泛应用。基于2D的视频合成方法在训练模型时，通常先将音频和人脸图像对齐，然后将单个音频帧输入音频对应的编码器，并且将单张人脸图像帧输入图像对应的编码器，然后融合两者信息监督训练，训练完成后即可将音频输入模型，使用模型推理合成视频，但是，基于2D的视频合成方法合成的视频会出现抖动问题，导致合成效果不佳。

技术实现思路

[0004]为了解决上述技术问题，本公开提供了一种视频合成方法、装置、设备及存储介质。
[0005]第一方面，本公开提供了一种视频合成方法，该方法包括：
[0006]获取音频帧序列和人脸图像帧序列，其中，音频帧序列与人脸图像帧序列在时间上对齐；
[0007]利用视频合成模型，对音频帧序列进行多个第一预设尺度的下采样，得到音频帧序列中每个音频帧对应的多个音频特征图；
[0008]利用视频合成模型，对人脸图像帧序列进行多个第二预设尺度的下采样，得到人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图；
[0009]...

【技术保护点】

【技术特征摘要】
1.一种视频合成方法，其特征在于，包括：获取音频帧序列和人脸图像帧序列，其中，所述音频帧序列与所述人脸图像帧序列在时间上对齐；利用视频合成模型，对所述音频帧序列进行多个第一预设尺度的下采样，得到所述音频帧序列中每个音频帧对应的多个音频特征图；利用所述视频合成模型，对所述人脸图像帧序列进行多个第二预设尺度的下采样，得到所述人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图；针对每个音频帧，利用所述视频合成模型，基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图，得到该音频帧对应的多个融合图像帧，并对所述多个融合图像帧进行拼接处理，得到该音频帧对应的图像帧；将每个音频帧和与其对应的图像帧合成，得到所述音频帧序列对应的视频帧序列。2.根据权利要求1所述的方法，其特征在于，所述对所述音频帧序列进行多个第一预设尺度的下采样，得到所述音频帧序列中每个音频帧对应的多个音频特征图包括：针对每个音频帧，基于所述第一预设尺度修改该音频帧的采样个数、采样位数和/或通道数，得到所述音频特征图。3.根据权利要求1所述的方法，其特征在于，所述对所述人脸图像帧序列进行多个第二预设尺度的下采样，得到所述人脸图像序列中每个人脸图像帧对应的多个人脸图像特征图包括：针对每个人脸图像帧，每间隔第一预设行、第一预设列采集关键点，得到所述人脸图像特征图，其中，所述第一预设行和所述第一预设列与所述第二预设尺度对应。4.根据权利要求1
‑
3中任一项所述的方法，其特征在于，所述针对每个音频帧，利用所述视频合成模型，基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图，得到该音频帧对应的多个融合图像帧，包括：针对音频帧对应的多个音频特征图中的每个音频特征图，将该音频特征图和与其尺度不同的一音频特征图基于采样和卷积进行融合处理，得到该音频特征图对应的音频融合特征图；针对音频帧对应的多个人脸图像特征图中的每个人脸图像特征图，将该人脸图像特征图和与其尺度不同的一人脸图像特征图基于采样和卷积进行融合处理，得到该音频特征图对应的人脸图像融合特征图；将每个音频帧对应的多个音频融合特征图和多个人脸图像融合特征图中具有相同尺度的音频融合特征图和人脸图像融合特征图进行融合处理，以得到所述多个融合图像帧。5.根据权利要求1
‑
3中任一项所述的方法，其特征在于，所述对所述多个融合图像帧进行拼接处理，得到所述音频帧对应的图像帧，包括：针对所述多个融合图像帧，重复执行以下操作直至尺寸最大的融合图像帧完成拼接：将所述多...

【专利技术属性】
技术研发人员：郎彦，王鹏程，冀志龙，
申请(专利权)人：北京世纪好未来教育科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人