视频生成方法、装置、计算机可读存储介质及电子设备制造方法及图纸

技术编号：40528830 阅读：26 留言：0更新日期：2024-03-01 13:49

本申请涉及一种视频生成方法、装置、计算机可读存储介质及电子设备，该视频生成方法包括：获取目标对象图像及其目标描述文本、目标动作视频；将目标对象图像和目标描述文本分别编码为目标图像特征向量和目标文本特征向量；根据目标文本特征向量对目标图像特征向量进行多步加噪处理得到扩散反向轨迹；根据扩散反向轨迹对目标无条件嵌入进行优化得到优化后无条件嵌入；根据最后一步加噪处理后的噪声向量、优化后无条件嵌入、目标描述文本以及目标动作视频中视频帧的骨骼点数据，利用具有时序感知和姿态注入功能的视频生成模型生成目标对象执行目标动作的视频，从而能够实现准确的原图重建以及视频中动作的定制化，以提高用户体验感。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种视频生成方法、装置、计算机可读存储介质及电子设备。

技术介绍

1、视频生成任务在当下aigc(artificial intelligence generated content，人工智能内容生成)市场里有广泛的应用场景，而它受到缺乏成对视频标题数据集和视频生成先验模型的限制。目前，img2video(图像到视频)技术仍停留在理论层面，现有技术是将img(图像)编码成对应的text-embedding(文本嵌入)然后生成视频。

2、然而，现有技术存在难以重建原图、且动作不可控的问题。

技术实现思路

1、本申请实施例提供一种视频生成方法、装置、计算机可读存储介质及电子设备，以解决基于图像生成视频时存在的难以重建原图、且动作不可控的问题。

2、本申请实施例提供了一种视频生成方法，包括：

3、获取目标图像、第一目标视频以及目标图像的目标描述文本，目标图像包括目标对象的图像，第一目标视频包括目标动作的视频；

4、将目标图像...

【技术保护点】

1.一种视频生成方法，其特征在于，包括：

2.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述扩散反向轨迹中最后一步所述加噪处理后的目标噪声向量、所述优化后无条件嵌入、所述目标描述文本以及所述第一目标视频中视频帧的骨骼点数据，利用具有时序感知功能和姿态注入功能的视频生成模型生成第二目标视频，具体包括：

3.根据权利要求2所述的视频生成方法，其特征在于，所述根据所述优化后无条件嵌入、所述目标描述文本以及所述第一目标视频中所述多个视频帧的骨骼点数据，对所述目标噪声向量进行去噪处理，以得到具有时序关系的多个目标视频帧，具体包括：

>4.根据权利要求1...

【技术特征摘要】

1.一种视频生成方法，其特征在于，包括：

4.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述扩散反向轨迹对目标无条件嵌入进行优化，以得到优化后无条件嵌入，具体包括：

5.根据权利要求1所述的视频生成方法，其特征在于，在所述根据所述扩散反向轨迹中最后一步所述加噪处理后的目标噪声向量、所述优化后无条件嵌入、所述目标描述文本以及所述第一目标视频中视频帧的骨骼点数据，利用具有时序感知功能和姿态注入功能的视频生成模型生成第二目标视频之前，所述方法还包括：

...

【专利技术属性】
技术研发人员：王凡祎，苏婧文，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人