【技术实现步骤摘要】
本专利技术主要涉及数据处理,尤其涉及一种视频生成模型的用户偏好对齐方法及装置。
技术介绍
1、近年来,多模态生成大模型呈现井喷式发展。各类音频、图像、视频生成模型纷纷进入人们视野,其中不少已经应用于实际的商业场景。2024年初,openai发布了视频生成大模型sora,展现了能够准确解释和执行复杂人类指令的非凡能力,在生成长达一分钟的视频的同时,保持高质量的画面和引人注目的视觉连贯性。这一里程碑式的成果在文本生成视频领域引发了巨大的反响,震撼了科研界,引发了广泛的讨论和关注。然而,与这一技术进步相伴随的是对文本生成视频模型和文本生成视频数据安全性的担忧。
2、为了确保这些技术的安全性和可靠性,文生视频领域急需开展相关的安全对齐研究,以应对潜在的风险和挑战,保障技术的健康发展和广泛应用。相较于纯文本的安全对齐任务,文本生成视频的安全对齐更加复杂且困难。文本生成视频对齐和纯文本对齐的最突出不同主要有两点:
3、第一,文本生成视频数据的不同模态之间可能存在内在关联。独立的文本和图像数据放在一起可能会衍生出新的含义。因此
...【技术保护点】
1.一种基于用户偏好的文生视频扩散模型的训练方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,所述文本精炼模型为通过大语言模型训练得到的专家模型。
3.根据权利要求1所述的方法,其特征在于,将所述精炼文本数据输入所述初始文生视频扩散模型,获得多个初始视频,包括:
4.根据权利要求3所述的方法,其特征在于,所述用户偏好对齐模型通过如下方式预先训练获得:
5.根据权利要求4所述的方法,其特征在于,所述第一损失函数通过如下公式来表示:
6.根据权利要求5所述的方法,其特征在于,步骤S4包括
7....
【技术特征摘要】
1.一种基于用户偏好的文生视频扩散模型的训练方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,所述文本精炼模型为通过大语言模型训练得到的专家模型。
3.根据权利要求1所述的方法,其特征在于,将所述精炼文本数据输入所述初始文生视频扩散模型,获得多个初始视频,包括:
4.根据权利要求3所述的方法,其特征在于,所述用户偏好对齐模型通过如下方式预先训练获得:
5.根据权...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。