一种定制化多主体文生视频方法、装置、设备及介质制造方法及图纸

技术编号：40316259 阅读：25 留言：0更新日期：2024-02-07 20:58

本申请提供一种定制化多主体文生视频方法、装置、设备及介质，涉及神经网络技术领域，包括：获取多个主体分别对应的主体文本表述以及主体图像；基于多个主体分别对应的主体文本表述以及主体图像，获取混合文本以及组合图像；将混合文本以及组合图像输入文生视频模型，生成第二噪声预测值，并基于第二噪声预测值与组合图像，获取第二损失和第三损失；基于第一损失、第二损失与第三损失，对文生视频模型进行优化，得到优化的文生视频模型。本申请通过多种损失对文生视频模型的参数进行优化，使优化的模型基于文本描述生成视频中的图像时，文本描述与定制化主体保持一致，且在每个主体在生成过程中的特征不会发生混淆的同时消除合成痕迹。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及神经网络，具体而言，涉及一种定制化多主体文生视频方法、装置、设备及介质。

技术介绍

1、受到文本到图像生成的成功推动，文生视频任务最近受到越来越多的关注。文生视频旨在生成符合给定文本提示的时间连贯的具有语义的视频，随着大规模多模态数据集的出现，使得现有的文本到视频生成模型可以根据给定的文本提示生成时间连贯且逼真的视频。

2、然而，现有的定制化文本到视频生成工作主要集中在单一主体上，也就是说，现有的文生视频方法只能生成对单一主体的定制化文本的生成对应的视频，当任务需要生成多个主体的定制化文本在同一画面的视频时，现有的方法就难以做到。因此，如何实现对多个主体对应的定制化文本的文生视频任务，成为本领域当前亟待解决的问题。

技术实现思路

1、本申请实施例在于提供一种定制化多主体文生视频方法、装置、设备及介质，旨在解决如何实现对多个主体对应的定制化文本的文生视频任务的问题。

2、本申请实施例第一方面提供一种定制化多主体文生视频方法，应用于文生视频模型，所述方法包括：

本文档来自技高网...

【技术保护点】

1.一种定制化多主体文生视频方法，其特征在于，应用于文生视频模型，所述方法包括：

2.根据权利要求1所述的定制化多主体文生视频方法，其特征在于，所述文生视频模型包括文本编码器和U型网络，所述第一损失按照如下过程获取：

3.根据权利要求1所述的定制化多主体文生视频方法，其特征在于，所述基于所述多个主体分别对应的主体文本表述以及主体图像，获取混合文本以及组合图像，包括：

4.根据权利要求1所述的定制化多主体文生视频方法，其特征在于，所述文生视频模型包括视觉编码器、文本编码器和U型网络，所述将所述混合文本以及所述组合图像输入所述文生视频模型，生成第二噪声预测...

【技术特征摘要】

1.一种定制化多主体文生视频方法，其特征在于，应用于文生视频模型，所述方法包括：

2.根据权利要求1所述的定制化多主体文生视频方法，其特征在于，所述文生视频模型包括文本编码器和u型网络，所述第一损失按照如下过程获取：

4.根据权利要求1所述的定制化多主体文生视频方法，其特征在于，所述文生视频模型包括视觉编码器、文本编码器和u型网络，所述将所述混合文本以及所述组合图像输入所述文生视频模型，生成第二噪声预测值，包括：

5.根据权利要求4所述的定制化多主体文生视频方法，其特征在于，所述基于所述第二噪声预测值与所述组合图像，获取第二损失，包括：

【专利技术属性】
技术研发人员：王鑫，朱文武，陈虹，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人