【技术实现步骤摘要】
本申请实施例涉及神经网络,具体而言,涉及一种定制化多主体文生视频方法、装置、设备及介质。
技术介绍
1、受到文本到图像生成的成功推动,文生视频任务最近受到越来越多的关注。文生视频旨在生成符合给定文本提示的时间连贯的具有语义的视频,随着大规模多模态数据集的出现,使得现有的文本到视频生成模型可以根据给定的文本提示生成时间连贯且逼真的视频。
2、然而,现有的定制化文本到视频生成工作主要集中在单一主体上,也就是说,现有的文生视频方法只能生成对单一主体的定制化文本的生成对应的视频,当任务需要生成多个主体的定制化文本在同一画面的视频时,现有的方法就难以做到。因此,如何实现对多个主体对应的定制化文本的文生视频任务,成为本领域当前亟待解决的问题。
技术实现思路
1、本申请实施例在于提供一种定制化多主体文生视频方法、装置、设备及介质,旨在解决如何实现对多个主体对应的定制化文本的文生视频任务的问题。
2、本申请实施例第一方面提供一种定制化多主体文生视频方法,应用于文生视频模型,所述方法
本文档来自技高网...
【技术保护点】
1.一种定制化多主体文生视频方法,其特征在于,应用于文生视频模型,所述方法包括:
2.根据权利要求1所述的定制化多主体文生视频方法,其特征在于,所述文生视频模型包括文本编码器和U型网络,所述第一损失按照如下过程获取:
3.根据权利要求1所述的定制化多主体文生视频方法,其特征在于,所述基于所述多个主体分别对应的主体文本表述以及主体图像,获取混合文本以及组合图像,包括:
4.根据权利要求1所述的定制化多主体文生视频方法,其特征在于,所述文生视频模型包括视觉编码器、文本编码器和U型网络,所述将所述混合文本以及所述组合图像输入所述文生视频模
...【技术特征摘要】
1.一种定制化多主体文生视频方法,其特征在于,应用于文生视频模型,所述方法包括:
2.根据权利要求1所述的定制化多主体文生视频方法,其特征在于,所述文生视频模型包括文本编码器和u型网络,所述第一损失按照如下过程获取:
3.根据权利要求1所述的定制化多主体文生视频方法,其特征在于,所述基于所述多个主体分别对应的主体文本表述以及主体图像,获取混合文本以及组合图像,包括:
4.根据权利要求1所述的定制化多主体文生视频方法,其特征在于,所述文生视频模型包括视觉编码器、文本编码器和u型网络,所述将所述混合文本以及所述组合图像输入所述文生视频模型,生成第二噪声预测值,包括:
5.根据权利要求4所述的定制化多主体文生视频方法,其特征在于,所述基于所述第二噪声预测值与所述组合图像,获取第二损失,包括:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。