目标视频生成方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：42567508 阅读：31 留言：0更新日期：2024-08-29 00:34

本申请涉及人工智能技术领域，提供了一种目标视频生成方法、装置、电子设备及可读存储介质，该方法包括：对第一参考图像和第二参考图像分别进行潜空间特征提取，并进行加权融合处理，得到对应的参考图像的多个第一融合特征图；对第一参考图像和第二参考图像分别进行视觉特征提取并进行加权拼接处理，得到对应的参考图像的多个第二融合特征图；基于各个第一融合特征图、各个第二融合特征图、第一参考图像的视觉特征图和第二参考图像的视觉特征图进行扩散处理，生成目标视频的多个视频帧的特征图；根据目标视频的多个视频帧的特征图，生成目标视频，解决现有技术中视频生成最后一帧图像不可控的问题，提高目标视频的准确性和流畅性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种目标视频生成方法、装置、电子设备及可读存储介质。

技术介绍

1、随着人工智能技术的发展，视频生成模型通过对人工智能的训练，可以根据给定的图像或视频等数据，自动生成符合提示的、高保真的视频内容。现有的视频生成扩散模型（video diffusion model）具有优秀的视频生成能力，能够根据提供的第一帧图片（reference image）作为图片提示，引导视频扩散生成，生成具有创新性和多样性的视频。但将第一帧图片作为提示进行视频生成时，只能控制生成的视频的初始帧图片，但生成的视频的结尾帧图片是不可控的。

技术实现思路

1、有鉴于此，本申请实施例提供了一种目标视频生成方法、装置、电子设备及可读存储介质，以解决现有技术中视频生成最后一帧图像不可控的问题。

2、本申请实施例的第一方面，提供了一种目标视频生成方法，包括：获取用于生成目标视频的第一参考图像和第二参考图像，第一参考图像为目标视频的第一帧图像，第二参考图像为目标视频的最后一帧图像；将第一参考...

【技术保护点】

1.一种目标视频生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一参考图像的潜空间特征图和第二参考图像的潜空间特征图进行加权融合处理，得到对应的参考图像的多个第一融合特征图，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述第一参考图像的视觉特征图和所述第二参考图像的视觉特征图进行加权拼接处理，得到对应的参考图像的多个第二融合特征图，包括：

4.根据权利要求1所述的方法，其特征在于，所述视频生成模型包括多个扩散处理层和多个时间注意力层，所述基于各个所述第一融合特征图、各个所述第二融合特征图、所述第一参考图像...

【技术特征摘要】

1.一种目标视频生成方法，其特征在于，包括：

4.根据权利要求1所述的方法，其特征在于，所述视频生成模型包括多个扩散处理层和多个时间注意力层，所述基于各个所述第一融合特征图、各个所述第二融合特征图、所述第一参考图像的视觉特征图和所述第二参考图像的视觉特征图进行扩散处理，生成目标视频的多个视频帧的特征图，包括：

5.根据权利要求4所述的方法，其特征在于，所述视频生成模型包括第一扩散处理层和第一时间注意力层，所述通过各个时间注意力层将所述第一参考图像的视觉特征图和所述第二参考图像的视觉特征图，融合至对应的各个所述扩散处理层输出的目标视频的多个初始视频帧的扩散...

【专利技术属性】
技术研发人员：袁振钊，谢树雷，马志远，郑元春，丁宁，
申请(专利权)人：北京衔远有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人