视频生成方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号：41314576 阅读：3 留言：0更新日期：2024-05-13 14:56

本发明专利技术实施例公开了一种视频生成方法、装置、电子设备和可读存储介质，通过在获取源动作视频数据和文本数据后，对所述源动作视频数据进行特征提取，获取对应的包含时序信息的动作特征，对所述文本数据进行特征提取，获取对应的文本特征，将所述动作特征、所述文本特征和随机噪声输入时序扩散模型中进行融合处理，生成目标动作视频，其中，所述文本数据用于描述目标动作视频中的对象信息。由此，使得通过时序扩散模型生成的目标动作视频，考虑了动作特征中的时序信息，由此，提升了生成的视频中人物动作的流畅度，避免了人物的动作闪烁。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像，具体涉及一种视频生成方法、装置、电子设备和可读存储介质。

技术介绍

1、随着图像技术的发展，生成人体的动作模式引起了各个研究领域越来越多的关注。人体动作生成的目标是生成自然、逼真且多样化的人体动作。目前，以人为中心的视频生成和动画制作大多是独立处理每一帧视频，这会导致生成的视频中人物的动作闪烁。

技术实现思路

1、有鉴于此，本专利技术实施例提供一种视频生成方法、装置、电子设备和可读存储介质，以提升生成的视频中人物动作的流畅度，避免人物的动作闪烁。

2、第一方面，提供一种视频生成方法，所述方法包括：

3、获取源动作视频数据和文本数据，所述文本数据用于描述目标动作视频中的对象信息；

4、对所述源动作视频数据进行特征提取，获取对应的动作特征，所述动作特征包含时序信息；

5、对所述文本数据进行特征提取，获取对应的文本特征；

6、将所述动作特征、所述文本特征和随机噪声输入时序扩散模型中进行融合处理，生成目标动作视频。

7、在一些实施例中，所述将所述动作特征、所述文本特征和随机噪声输入时序扩散模型中进行融合处理，生成目标动作视频，包括：

8、根据所述文本特征和所述随机噪声确定目标动作视频中的对象信息，所述对象信息包含背景信息和/或目标人物；

9、对所述动作特征和所述对象信息进行融合，以确定融合信息；

10、对所述融合信息进行解码，生成目标动作视频。

11、

12、获取图像文件，所述图像文件包括目标人物；

13、对所述图像文件进行特征提取，获取目标人物特征；

14、所述将所述动作特征、所述文本特征和随机噪声输入时序扩散模型中进行融合处理，生成目标动作视频包括：

15、将所述动作特征、所述文本特征、随机噪声和目标人物特征输入时序扩散模型中进行融合处理，生成目标动作视频。

16、在一些实施例中，所述将所述动作特征、所述文本特征、随机噪声和目标人物特征输入时序扩散模型中进行融合处理，生成目标动作视频，包括：

17、根据所述文本特征、所述随机噪声和所述目标人物特征确定目标动作视频中的对象信息；

18、对所述动作特征和所述对象信息进行融合，以确定融合信息；

19、对所述融合信息进行解码，生成目标动作视频。

20、在一些实施例中，所述方法包括：

21、通过导向工具对输入所述时序扩散模型中的动作特征进行控制，以调整目标动作视频中对应的对象的动作。

22、在一些实施例中，所述对所述源动作视频数据进行特征提取，包括：

23、对源动作视频进行人体的关键点识别，获取对应人体的关键点坐标；

24、基于所述关键点坐标提取动作特征。

25、在一些实施例中，所述对所述文本数据进行特征提取，包括：

26、通过文本特征提取模型对所述文本数据进行特征提取。

27、第二方面，提供一种视频生成装置，所述装置包括：

28、获取模块，被配置为获取源动作视频数据和文本数据，所述文本数据用于描述目标动作视频中的对象信息；

29、第一提取模块，被配置对所述源动作视频数据进行特征提取，获取对应的动作特征，所述动作特征包含时序信息；

30、第二提取模块，被配置为对所述文本数据进行特征提取，获取对应的文本特征；

31、生成模块，被配置为将所述动作特征、所述文本特征和随机噪声输入时序扩散模型中进行融合处理，生成目标动作视频。

32、第三方面，提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。

33、第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法。

34、本专利技术实施例在获取源动作视频数据和文本数据后，对所述源动作视频数据进行特征提取，获取对应的包含时序信息的动作特征，对所述文本数据进行特征提取，获取对应的文本特征，将所述动作特征、所述文本特征和随机噪声输入时序扩散模型中进行融合处理，生成目标动作视频，其中，所述文本数据用于描述目标动作视频中的对象信息。由此，使得通过时序扩散模型生成的目标动作视频，考虑了动作特征中的时序信息，由此，提升了生成的视频中人物动作的流畅度，避免了人物的动作闪烁。

本文档来自技高网...

【技术保护点】

1.一种视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述动作特征、所述文本特征和随机噪声输入时序扩散模型中进行融合处理，生成目标动作视频，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述动作特征、所述文本特征、随机噪声和目标人物特征输入时序扩散模型中进行融合处理，生成目标动作视频，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述源动作视频数据进行特征提取，包括：

7.根据权利要求1所述的方法，其特征在于，所述对所述文本数据进行特征提取，包括：

8.一种视频生成装置，其特征在于，所述装置包括：

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。

10.一种计

...

【技术特征摘要】

1.一种视频生成方法，其特征在于，所述方法包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法包括：

6.根据权利要求1所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：邬欣诺，唐旻杰，孙瑜博，李梅，
申请(专利权)人：上海墨百意信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人