一种视频生成方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:31229981 阅读:17 留言:0更新日期:2021-12-08 10:00
本申请提供了一种视频生成方法、装置、设备及计算机可读存储介质;涉及人工智能技术;该方法包括:获取当前时间步对应的历史视频帧序列;对历史视频帧序列中的最后一个视频帧进行特征编码,得到最后一个视频帧对应的图形特征;依据历史视频帧序列,预测出当前时间步对应的位置特征;对位置特征和图形特征进行特征对准处理,得到待解码特征;其中,待解码特征描述了当前时间步时移动对象的出现区域,以及移动对象的外观在最后一个视频帧中的出现区域;对待解码特征进行特征解码,得到当前时间步的预测视频帧。通过本申请,能够提高生成的视频的质量。的质量。的质量。

【技术实现步骤摘要】
一种视频生成方法、装置、设备及计算机可读存储介质


[0001]本申请涉及人工智能领域的计算机视觉技术,尤其涉及一种视频生成方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]视频生成是人工智能的一个重要方向。视频生成可以分为两个类别:确定性视频生成和随机视频生成。随机视频生成可以生成多个未来状态各不相同,且运动合理的视频序列,其通过引入隐变量来解释视频序列中复杂的随机现象。
[0003]然而,相关技术中,随机视频生成可能会出现特征错位,即使得视频中的移动对象的外观丢失,从而构建出的未来时间步的外观特征会存在模糊,最终导致生成的视频的质量较低。

技术实现思路

[0004]本申请实施例提供一种视频生成方法、装置、设备及计算机可读存储介质,能够提高生成的视频的质量。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种视频生成方法,包括:
[0007]获取当前时间步对应的历史视频帧序列;
[0008]对所述历史视频帧序列中的最后一个视频帧进行特征编码,得到所述最后一个视频帧对应的图形特征;
[0009]依据所述历史视频帧序列,预测出所述当前时间步对应的位置特征;
[0010]对所述位置特征和所述图形特征进行特征对准处理,得到待解码特征;其中,所述待解码特征描述了所述当前时间步时移动对象的出现区域,以及所述移动对象的外观在所述最后一个视频帧中的出现区域;
[0011]对所述待解码特征进行特征解码,得到所述当前时间步的预测视频帧。
[0012]本申请实施例提供一种视频生成方法,包括:
[0013]获取训练观测帧序列、训练真值帧序列、初始先验分布推测模型、初始特征预测模型、后验分布推测模型、以及所述训练观测帧序列中的训练预设帧所对应的训练图形特征;
[0014]利用所述后验分布推测模型,对所述训练真值帧序列经过特征编码后所得到的训练真值特征进行后验分布的推测,得到近似后验分布;
[0015]对所述训练观测帧序列进行特征编码,得到所述训练观测帧序列对应的训练观测特征;
[0016]基于所述近似后验分布和所述训练观测特征,对所述初始先验分布推测模型进行训练,直至达到训练停止条件时,得到预设先验分布推测模型;所述预设先验分布推测模型用于学习历史视频帧序列的时序信息;
[0017]依据所述近似后验分布、所述训练观测特征以及所述训练图形特征,对所述初始
特征预测模型进行训练,直至达到训练停止条件时,得到预设特征预测模型;所述预设特征预测模型用于预测未知特征的模型。
[0018]本申请实施例提供一种视频生成装置,包括:
[0019]信息获取模块,用于获取当前时间步对应的历史视频帧序列;
[0020]特征编码模块,用于对所述历史视频帧序列中的最后一个视频帧进行特征编码,得到所述最后一个视频帧对应的图形特征;
[0021]特征预测模块,用于依据所述历史视频帧序列,预测出所述当前时间步对应的位置特征;
[0022]特征对准模块,用于对所述位置特征和所述图形特征进行特征对准处理,得到待解码特征;其中,所述待解码特征描述了所述当前时间步时移动对象的出现区域,以及所述移动对象的外观在所述最后一个视频帧中的出现区域;
[0023]特征解码模块,用于对所述待解码特征进行特征解码,得到所述当前时间步的预测视频帧。
[0024]在本申请的一些实施例中,所述特征对准模块,还用于基于所述位置特征和所述图形特征,构建出注意力图;依据所述注意力图和所述位置特征,确定出用于描述所述移动对象所在的区域的上下文信息的对准特征;利用所述对准特征、所述位置特征和所述图形特征,融合成所述待解码特征。
[0025]在本申请的一些实施例中,所述特征对准模块,还用于将所述位置特征映射到第一预设特征空间,得到第一映射特征图,以及将所述图形特征映射到所述第一预设特征空间,得到第二映射特征图;针对所述第一映射特征图中的每个空间位置,从所述第一映射特征图中提取第一空间向量;对所述第二映射特征图中,与所述每个空间位置对应的多个目标位置进行空间向量的提取,得到多个第二空间向量;依据所述第一空间向量分别与所述多个第二空间向量的相似程度,构建出所述注意力图。
[0026]在本申请的一些实施例中,所述特征对准模块,还用于将所述第一空间向量分别和所述多个第二空间向量进行相似度计算,得到所述多个第二空间向量对应的多个相似度分数;对所述多个相似度分数分别进行归一化,得到所述多个第二空间向量对应的多个归一化分数;利用所述多个归一化分数,组成所述每个空间位置对应的注意力向量;利用所述每个空间位置对应的注意力向量,形成所述注意力图。
[0027]在本申请的一些实施例中,所述特征对准模块,还用于将所述位置特征映射到第二预设特征空间,得到第三映射特征图;针对所述第三映射特征图中的每个像素位置,从所述第三映射特征图中抽出多个第三空间向量;利用所述多个第三空间向量,组成所述每个像素位置对应的特征集合;对所述特征集合和所述注意力图进行矩阵运算,得到用于描述所述移动对象所在的区域的上下文信息的所述对准特征。
[0028]在本申请的一些实施例中,所述特征对准模块,还用于对所述第三映射特征图中与所述每个像素位置处于同行同列的位置进行筛选,得到多个待抽取位置;对所述多个待抽取位置进行空间向量的抽取,得到所述每个像素位置对应的所述多个第三空间向量。
[0029]在本申请的一些实施例中,所述特征对准模块,还用于利用所述第二预设特征空间对应的卷积核,对所述位置特征进行卷积操作实现映射,得到所述第三映射特征图。
[0030]在本申请的一些实施例中,所述特征预测模块,还用于对所述历史视频帧序列进
行特征编码,得到历史视频特征;利用预设先验分布推测模型,从所述历史视频特征中学习出所述当前时间步对应的先验分布;所述预设先验分布推测模型为经过训练的用于学习所述历史视频帧序列的时序信息的先验分布的模型;从所述先验分布中采样出所述当前时间步对应的预测隐变量;利用预设特征预测模型,对所述预测隐变量和所述历史视频特征进行特征预测,得到所述当前时间步对应的所述位置特征;所述预设特征预测模型为经过训练的用于预测未知特征的模型。
[0031]本申请的实施例提供一种视频生成装置,包括:
[0032]数据获取模块,用于获取训练观测帧序列、训练真值帧序列、初始先验分布推测模型、初始特征预测模型、后验分布推测模型、以及所述训练观测帧序列中的训练预设帧所对应的训练图形特征;
[0033]分布推测模块,用于利用所述后验分布推测模型,对所述训练真值帧序列经过特征编码后所得到的训练真值特征进行后验分布的推测,得到近似后验分布;
[0034]训练编码模块,用于对所述训练观测帧序列进行特征编码,得到所述训练观测帧序列对应的训练观测特征;
[0035]模型训练模块,用于基于所述近似后验分布和所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法,其特征在于,包括:获取当前时间步对应的历史视频帧序列;对所述历史视频帧序列中的最后一个视频帧进行特征编码,得到所述最后一个视频帧对应的图形特征;依据所述历史视频帧序列,预测出所述当前时间步对应的位置特征;对所述位置特征和所述图形特征进行特征对准处理,得到待解码特征;其中,所述待解码特征描述了所述当前时间步时移动对象的出现区域,以及所述移动对象的外观在所述最后一个视频帧中的出现区域;对所述待解码特征进行特征解码,得到所述当前时间步的预测视频帧。2.根据权利要求1所述的方法,其特征在于,所述对所述位置特征和所述图形特征进行特征对准处理,得到待解码特征,包括:基于所述位置特征和所述图形特征,构建出注意力图;依据所述注意力图和所述位置特征,确定出用于描述所述移动对象所在的区域的上下文信息的对准特征;利用所述对准特征、所述位置特征和所述图形特征,融合成所述待解码特征。3.根据权利要求2所述的方法,其特征在于,所述基于所述位置特征和所述图形特征,构建出注意力图,包括:将所述位置特征映射到第一预设特征空间,得到第一映射特征图,以及将所述图形特征映射到所述第一预设特征空间,得到第二映射特征图;针对所述第一映射特征图中的每个空间位置,从所述第一映射特征图中提取第一空间向量;对所述第二映射特征图中,与所述每个空间位置对应的多个目标位置进行空间向量的提取,得到多个第二空间向量;依据所述第一空间向量分别与所述多个第二空间向量的相似程度,构建出所述注意力图。4.根据权利要求3所述的方法,其特征在于,所述依据所述第一空间向量分别与所述多个第二空间向量的相似程度,构建出所述注意力图,包括:将所述第一空间向量分别和所述多个第二空间向量进行相似度计算,得到所述多个第二空间向量对应的多个相似度分数;对所述多个相似度分数分别进行归一化,得到所述多个第二空间向量对应的多个归一化分数;利用所述多个归一化分数,组成所述每个空间位置对应的注意力向量;利用所述每个空间位置对应的注意力向量,形成所述注意力图。5.根据权利要求3或4所述的方法,其特征在于,所述多个目标位置包括:与所述每个空间位置处于同一行的各个位置,以及与所述每个空间位置处于同一列的各个位置。6.根据权利要求2至4任一项所述的方法,其特征在于,所述依据所述注意力图和所述位置特征,确定出用于描述所述移动对象所在的区域的上下文信息的对准特征,包括:将所述位置特征映射到第二预设特征空间,得到第三映射特征图;针对所述第三映射特征图中的每个像素位置,从所述第三映射特征图中抽出多个第三
空间向量;利用所述多个第三空间向量,组成所述每个像素位置对应的特征集合;对所述特征集合和所述注意力图进行矩阵运算,得到用于描述所述移动对象所在的区域的上下文信息的所述对准特征。7.根据权利要求6所述的方法,其特征在于,所述针对所述第三映射特征图中的每个像素位置,从所述第三映射特征图中抽出多个第三空间向量,包括:对所述第三映射特征图中与所述每个像素位置处于同行同列的位置进行筛选,得到多个待抽取位置;对所述多个待抽取位置进行空间向量的抽取,得到所述每个像素位置对应的所述多个第三空间向量。8.根据权利要求6所述的方法,其特征在于,所述将所述位置特征映射到第二预设特征空间,得到第三映射特征图,包括:利用所述第二预设特征空间对应的卷积核,对所述位置特征进行卷积操作实现映射,得到所述第三映射特征图。9.根据权利要求1至4任一项所述的方法,其特征在于,所述依据所述历史视频帧序列,预测出所述当前时间步对应的位置特征,包括:对所述历史视频帧序列进行特征编码,得到历史视频特征;利用预设先验分布推测模型,从所述历史视频特征中学习出所...

【专利技术属性】
技术研发人员:李毛毛李志鋒刘威王珏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1