当前位置: 首页 > 专利查询>斯纳普公司专利>正文

经由多模态条件的视频合成制造技术

技术编号:42868032 阅读:28 留言:0更新日期:2024-09-27 17:29
一种多模态视频生成框架(MMVID),其受益于联合地或单独地作为输入提供的文本和图像。视频的量化表示与具有多个模态的双向转换器一起用作预测离散视频表示的输入。使用利用自学习训练的新视频令牌和用于对视频令牌进行采样的改进的掩模预测算法来改进视频质量和一致性。文本增强被用来提高文本表示的鲁棒性和生成的视频的多样性。框架结合不同视觉模态,诸如分割掩模、绘图和部分遮挡的图像。此外,MMVID提取由文本提示建议的视觉信息。

【技术实现步骤摘要】
【国外来华专利技术】

本公开总体上涉及图像和视频处理,包括视频合成。


技术介绍

1、图像和视频合成是各自根据噪声生成内容的相关领域。这些领域的重点包括图像合成方法,其产生能够实现改进的分辨率和渲染以及图像内容中的更宽变化的基于图像的模型。


技术实现思路

【技术保护点】

1.一种条件视频合成方法,所述方法包括:

2.根据权利要求1所述的方法,其中,所述多模态输入信号包括视觉控制和文本控制。

3.根据权利要求2所述的方法,其中,所述MMVID是包括第一阶段和第二阶段的两阶段视频生成框架,所述方法还包括:

4.根据权利要求3所述的方法,其中,所述预训练的自动编码器包括编码器和解码器,并且所述方法还包括:使用所述预训练的自动编码器获取图像的量化表示。

5.根据权利要求4所述的方法,其中,所述预训练的双向转换器是非自回归的。

6.根据权利要求5所述的方法,还包括:

7.根据权利要求4所述的方...

【技术特征摘要】
【国外来华专利技术】

1.一种条件视频合成方法,所述方法包括:

2.根据权利要求1所述的方法,其中,所述多模态输入信号包括视觉控制和文本控制。

3.根据权利要求2所述的方法,其中,所述mmvid是包括第一阶段和第二阶段的两阶段视频生成框架,所述方法还包括:

4.根据权利要求3所述的方法,其中,所述预训练的自动编码器包括编码器和解码器,并且所述方法还包括:使用所述预训练的自动编码器获取图像的量化表示。

5.根据权利要求4所述的方法,其中,所述预训练的双向转换器是非自回归的。

6.根据权利要求5所述的方法,还包括:

7.根据权利要求4所述的方法,其中,所述文本控制是由所述语言模型对输入文本进行文本增强来产生的。

8.根据权利要求7所述的方法,其中,所述文本控制和所述视觉控制是独立的。

9.根据权利要求7所述的方法,其中,所述文本控制和所述视觉控制是相关的,并且其中,所述mmvid从所述视觉控制中提取由所述文本控制建议的视觉信息。

10.根据权利要求7所述的方法,其中,所述视觉控制由图像和视频的组合组成。

11.根据权利要求7所述的方法,其中,生成所述时间上一致的视频是通过视频内插来完成的。

12.根据权利要求7所述的方法,其中,生成所述时间上一致的视频是通过视频外插来完成的。

13.一种系统,包括:

14.根据权利要求13所述的系统,其中,所述预训练的自动编码器包括编码器和解码器,其中,所述预训练的自动编码器被配置为获取图像的量化...

【专利技术属性】
技术研发人员:弗朗西斯科·巴尔贝里韩立龙李欣颖谢尔文·米纳伊凯尔·奥尔泽夫斯基任健谢尔盖·图利亚科夫
申请(专利权)人:斯纳普公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1