System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 视频生成方法、装置、电子设备及存储介质制造方法及图纸_技高网

视频生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40963234 阅读:4 留言:0更新日期:2024-04-18 20:42
本公开实施例提供一种视频生成方法、装置、电子设备及存储介质。该方法包括:获取待处理视频和描述文本,待处理视频包括多个视频帧,每个视频帧均包括目标对象;所述多个视频帧按时间顺序依次排列;将多个视频帧平均划分为一个或多个视频帧组,将多个视频帧中的第一个视频帧添加至各个视频帧组中,作为各个视频帧组的第一个视频帧;针对每一视频帧组,将视频帧组和描述文本输入至视频风格转换模型中,基于视频帧组中的第一个视频帧中的目标对象的对象特征对各个视频帧进行风格转换处理,生成目标视频帧;根据各个视频帧组对应的除第一个目标视频帧以外的其他目标视频帧生成目标视频。该方法可以提升生成视频的时序稳定性。

【技术实现步骤摘要】

本公开涉及计算机,具体而言,涉及一种视频生成方法、视频生成装置、电子设备以及计算机可读存储介质。


技术介绍

1、随着多媒体技术和视频平台的快速发展,越来越多的用户通过视频平台分享视频作品。现实生活中,用户在将视频作品上传至视频平台之前,通常会通过终端设备对拍摄的原视频进行处理,例如通过终端设备对拍摄的原视频进行风格转换处理。

2、相关技术中,在对拍摄的原视频进行处理时,通常是对原视频中的每一视频帧分别进行处理,由此得到的处理后的每一视频帧之间可能存在较大差异,导致视频的时序稳定性较差;例如对拍摄的原视频中的每一视频帧分别进行风格转换处理,由此得到的风格转换后的每一视频帧中的目标对象的差异较大,导致生成的视频的时序稳定性较差。


技术实现思路

1、本公开实施例提供一种视频生成方法、视频生成装置、电子设备以及计算机可读存储介质,该方法可以提升生成视频的时序稳定性。

2、本公开实施例提供一种视频生成方法,该方法包括:获取待处理视频和描述文本,所述待处理视频包括多个视频帧,每个视频帧均包括目标对象;所述多个视频帧按时间顺序依次排列;将所述多个视频帧平均划分为一个或多个视频帧组,并将所述多个视频帧中的第一个视频帧添加至各个视频帧组中,作为各个视频帧组的第一个视频帧;针对每一视频帧组,将所述视频帧组和所述描述文本输入至视频风格转换模型中,基于所述视频帧组中的第一个视频帧中的目标对象的对象特征,对所述视频帧组中的各个视频帧进行风格转换处理,生成所述视频帧组对应的风格转换后的各个目标视频帧;根据各个视频帧组对应的除第一个目标视频帧以外的其他目标视频帧,生成符合所述描述文本的目标视频。

3、在本公开的一些示例性实施例中,所述视频风格转换模型包括扩散模块和多个控制网络模块,所述扩散模块和所述多个控制网络模块连接;其中,针对每一视频帧组,将所述视频帧组和所述描述文本输入至视频风格转换模型中,基于所述视频帧组中的第一个视频帧中的目标对象的对象特征对所述视频帧组中的各个视频帧进行风格转换处理,生成所述视频帧组对应的风格转换后的各个目标视频帧,包括:对所述视频帧组中的各个视频帧进行条件转化处理,得到各个视频帧对应的条件图;将各个视频帧对应的条件图分别输入至所述多个控制网络模块,生成各个视频帧对应的中间特征向量;将所述描述文本、所述视频帧组中的各个视频帧及其对应的中间特征向量输入至所述扩散模块,基于所述视频帧组中的第一个视频帧中的目标对象的对象特征对所述视频帧组中的各个视频帧进行风格转换处理,生成与各个视频帧对应的风格转换后的各个目标视频帧。

4、在本公开的一些示例性实施例中,基于所述视频帧组中的第一个视频帧中的目标对象的对象特征,对所述视频帧组中的各个视频帧进行风格转换处理,生成与各个视频帧对应的风格转换后的各个目标视频帧,包括:确定所述视频帧组中的各个视频帧对应的键矩阵、值矩阵和查询矩阵,其中,所述键矩阵和所述值矩阵用于表示所述目标对象的对象特征,所述查询矩阵用于表示所述目标对象的空间特征;针对所述视频帧组中的每一当前视频帧,基于所述当前视频帧的查询矩阵、所述第一个视频帧的键矩阵和所述第一个视频帧的值矩阵,确定所述当前视频帧的自注意力权重矩阵;根据所述视频帧组中的各个视频帧的自注意力权重矩阵,生成与各个视频帧对应的风格转换后的各个目标视频帧。

5、在本公开的一些示例性实施例中,根据所述视频帧组中的各个视频帧的自注意力权重矩阵,生成与各个视频帧对应的各个目标视频帧,包括:根据所述视频帧组中的各个视频帧的自注意力权重矩阵和所述描述文本,确定各个视频帧的交叉注意力权重矩阵;根据各个视频帧的交叉注意力权重矩阵,生成与各个视频帧对应的各个目标视频帧。

6、在本公开的一些示例性实施例中,基于所述当前视频帧的查询矩阵、所述第一个视频帧的键矩阵和所述第一个视频帧的值矩阵,确定所述当前视频帧的自注意力权重矩阵,包括:将所述第一个视频帧的键矩阵的转置矩阵和所述当前视频帧的查询矩阵进行点积运算处理,得到所述当前视频帧的中间矩阵;基于所述当前视频帧的中间矩阵和所述第一个视频帧的值矩阵,确定所述当前视频帧的自注意力权重矩阵。

7、在本公开的一些示例性实施例中,所述条件转化处理包括多种类型的条件转化处理,所述多种类型的条件转化处理和所述多个控制网络模块一一对应。

8、在本公开的一些示例性实施例中,根据各个视频帧组对应的除第一个目标视频帧以外的其他目标视频帧,生成符合所述描述文本的目标视频,包括:将各个视频帧组中的第一个目标视频帧移除,将各个视频帧组中除所述第一个目标视频帧以外的其他目标视频帧按顺序拼接,生成符合所述描述文本的目标视频。

9、本公开实施例提供一种视频生成装置,包括:获取模块,被配置为执行获取待处理视频和描述文本,所述待处理视频包括多个视频帧,每个视频帧均包括目标对象;所述多个视频帧按时间顺序依次排列;划分模块,被配置为执行将所述多个视频帧平均划分为一个或多个视频帧组,并将所述多个视频帧中的第一个视频帧添加至各个视频帧组中,作为各个视频帧组的第一个视频帧;生成模块,被配置为执行针对每一视频帧组,将所述视频帧组和所述描述文本输入至视频风格转换模型中,基于所述视频帧组中的第一个视频帧中的目标对象的对象特征对所述视频帧组中的各个视频帧进行风格转换处理,生成所述视频帧组对应的风格转换后的各个目标视频帧;所述生成模块还被配置为执行根据各个视频帧组对应的除第一个目标视频帧以外的其他目标视频帧,生成符合所述描述文本的目标视频。

10、在本公开的一些示例性实施例中,所述视频风格转换模型包括扩散模块和多个控制网络模块,所述扩散模块和各个控制网络模块连接;其中,所述生成模块630还被配置为执行:对所述视频帧组中的各个视频帧进行条件转化处理,得到各个视频帧对应的条件图;将各个视频帧对应的条件图输入至各个控制网络模块,生成各个视频帧对应的中间特征向量;将所述描述文本、所述视频帧组中的各个视频帧及其对应的中间特征向量输入至所述扩散模块,基于所述视频帧组中的第一个视频帧中的目标对象的对象特征对所述视频帧组中的各个视频帧进行处理,生成与各个视频帧对应的各个目标视频帧。

11、在本公开的一些示例性实施例中,所述生成模块还被配置为执行:确定所述视频帧组中的各个视频帧对应的键矩阵、值矩阵和查询矩阵,其中,所述键矩阵和所述值矩阵用于表示所述目标对象的对象特征,所述查询矩阵用于表示所述目标对象的空间特征;针对所述视频帧组中的每一当前视频帧,基于所述当前视频帧的查询矩阵、所述第一个视频帧的键矩阵和所述第一个视频帧的值矩阵,确定所述当前视频帧的自注意力权重矩阵;根据所述视频帧组中的各个视频帧的自注意力权重矩阵,生成与各个视频帧对应的各个目标视频帧。

12、在本公开的一些示例性实施例中,所述生成模块还被配置为执行:根据所述视频帧组中的各个视频帧的自注意力权重矩阵和所述描述文本,确定各个视频帧的交叉注意力权重矩阵;根据各个视频帧的交叉注意力权重矩阵,生成与各本文档来自技高网...

【技术保护点】

1.一种视频生成方法,其特征在于,包括:

2.根据权利要求1所述的视频生成方法,其特征在于,所述视频风格转换模型包括扩散模块和多个控制网络模块,所述扩散模块和所述多个控制网络模块连接;

3.根据权利要求2所述的视频生成方法,其特征在于,所述基于所述视频帧组中的第一个视频帧中的目标对象的对象特征,对所述视频帧组中的各个视频帧进行风格转换处理,生成与各个视频帧对应的风格转换后的各个目标视频帧,包括:

4.根据权利要求3所述的视频生成方法,其特征在于,所述根据所述视频帧组中的各个视频帧的自注意力权重矩阵,生成与各个视频帧对应的各个目标视频帧,包括:

5.根据权利要求3所述的视频生成方法,其特征在于,所述基于所述当前视频帧的查询矩阵、所述第一个视频帧的键矩阵和所述第一个视频帧的值矩阵,确定所述当前视频帧的自注意力权重矩阵,包括:

6.根据权利要求3所述的视频生成方法,其特征在于,所述条件转化处理包括多种类型的条件转化处理,所述多种类型的条件转化处理和所述多个控制网络模块一一对应。

7.根据权利要求1所述的视频生成方法,其特征在于,所述根据各个视频帧组对应的除第一个目标视频帧以外的其他目标视频帧,生成符合所述描述文本的目标视频,包括:

8.一种视频生成装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的视频生成方法。

...

【技术特征摘要】

1.一种视频生成方法,其特征在于,包括:

2.根据权利要求1所述的视频生成方法,其特征在于,所述视频风格转换模型包括扩散模块和多个控制网络模块,所述扩散模块和所述多个控制网络模块连接;

3.根据权利要求2所述的视频生成方法,其特征在于,所述基于所述视频帧组中的第一个视频帧中的目标对象的对象特征,对所述视频帧组中的各个视频帧进行风格转换处理,生成与各个视频帧对应的风格转换后的各个目标视频帧,包括:

4.根据权利要求3所述的视频生成方法,其特征在于,所述根据所述视频帧组中的各个视频帧的自注意力权重矩阵,生成与各个视频帧对应的各个目标视频帧,包括:

5.根据权利要求3所述的视频生成方法,其特征在于,所述基于所述当前视频帧的查询矩阵、所述第一个视...

【专利技术属性】
技术研发人员:刘兆阳高远赵松涛黄海斌马重阳万鹏飞
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1