一种基于用户偏好的文生视频扩散模型的训练方法及装置制造方法及图纸

技术编号：44717052 阅读：18 留言：0更新日期：2025-03-21 17:46

本申请公开了一种基于用户偏好的文生视频扩散模型的训练方法及装置，所述方法包括：获取用户的文本数据并将其输入文本精炼模型进行处理，获得精炼文本数据；将精炼文本数据输入初始文生视频扩散模型，获得多个初始视频；将多个初始视频输入预先训练得到的用户偏好对齐模型，获得与用户偏好对齐的最优视频；基于最优视频对文生视频扩散模型进行训练，获得目标文生视频扩散模型。本申请利用帮助性与安全性偏好数据集来对齐文本生成视频模型，使用数据训练奖励模型和审核模型。通过两个模型筛选最优安全生成结果作为监督信号来训练优化文生视频扩散模型。使文生视频扩散模型提高帮助性的同时，安全性能够符合人类的期望。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术主要涉及数据处理，尤其涉及一种视频生成模型的用户偏好对齐方法及装置。

技术介绍

1、近年来，多模态生成大模型呈现井喷式发展。各类音频、图像、视频生成模型纷纷进入人们视野，其中不少已经应用于实际的商业场景。2024年初，openai发布了视频生成大模型sora，展现了能够准确解释和执行复杂人类指令的非凡能力，在生成长达一分钟的视频的同时，保持高质量的画面和引人注目的视觉连贯性。这一里程碑式的成果在文本生成视频领域引发了巨大的反响，震撼了科研界，引发了广泛的讨论和关注。然而，与这一技术进步相伴随的是对文本生成视频模型和文本生成视频数据安全性的担忧。

2、为了确保这些技术的安全性和可靠性，文生视频领域急需开展相关的安全对齐研究，以应对潜在的风险和挑战，保障技术的健康发展和广泛应用。相较于纯文本的安全对齐任务，文本生成视频的安全对齐更加复杂且困难。文本生成视频对齐和纯文本对齐的最突出不同主要有两点：

3、第一，文本生成视频数据的不同模态之间可能存在内在关联。独立的文本和图像数据放在一起可能会衍生出新的含义。因此...

【技术保护点】

1.一种基于用户偏好的文生视频扩散模型的训练方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述文本精炼模型为通过大语言模型训练得到的专家模型。

3.根据权利要求1所述的方法，其特征在于，将所述精炼文本数据输入所述初始文生视频扩散模型，获得多个初始视频，包括：

4.根据权利要求3所述的方法，其特征在于，所述用户偏好对齐模型通过如下方式预先训练获得：

5.根据权利要求4所述的方法，其特征在于，所述第一损失函数通过如下公式来表示：

6.根据权利要求5所述的方法，其特征在于，步骤S4包括：

7....

【技术特征摘要】

1.一种基于用户偏好的文生视频扩散模型的训练方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述文本精炼模型为通过大语言模型训练得到的专家模型。

3.根据权利要求1所述的方法，其特征在于，将所述精炼文本数据输入所述初始文生视频扩散模型，获得多个初始视频，包括：

4.根据权利要求3所述的方法，其特征在于，所述用户偏好对齐模型通过如下方式预先训练获得：

5.根据权...

【专利技术属性】
技术研发人员：杨耀东，戴俊韬，陈天乐，王旭尧，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人