一种基于数据蒸馏的安全偏好建模方法技术

技术编号:45830329 阅读:5 留言:0更新日期:2025-07-15 22:37
本发明专利技术涉及一种基于数据蒸馏的安全偏好建模方法,属于人工智能安全技术领域,旨以解决当前奖励模型训练数据难以满足高信噪比、低偏差和广泛覆盖要求,以及存在噪声和偏差影响训练效果与导致模型行为不安全的问题。本发明专利技术通过获取基座大模型和初始训练集,经多轮蒸馏与优化,包括构建提示模板、提取不一致样本、优化模型等步骤,最终基于高质量训练集对基座大模型进行奖励建模。本发明专利技术有效减少了数据噪声和偏差对安全偏好建模的影响,降低了对人工标注的依赖,增强了安全偏好模型的泛化能力,提升了对人类安全偏好的准确拟合,显著优化了大模型在安全敏感场景中的输出质量和应用价值,从而提高大模型在开放环境中的安全性和可靠性。

【技术实现步骤摘要】

本专利技术涉及一种基于数据蒸馏的安全偏好建模方法,属于人工智能安全。


技术介绍

1、奖励建模是大模型训练中确保输出安全性和可靠性的重要环节,其核心目标是通过训练一个奖励模型,评估给定指令和响应的安全性,并输出一个反映响应安全质量的标量奖励值。这个奖励值可以用来指导大模型进行微调,从而使其生成的文本更加符合人类的安全偏好和期望。奖励模型的训练通常需要大量的标注数据,这些数据包含指令、响应以及人工标注的安全偏好标签,用于让模型学习不同响应的安全性优劣程度。高质量的奖励模型不仅能够提升大模型的安全性能,还有助于避免模型输出中的不安全、不符合伦理甚至有害的内容。因此,奖励建模是实现大模型在开放环境中安全性与人类意图对齐的重要途径。

2、理想的奖励模型训练数据应该具备高信噪比、低偏差,并且能够覆盖广泛的指令和响应类型。然而,当前的数据集构建方法往往难以同时满足这些要求。数据集中的噪声,例如错误的标注或不一致的评分,会降低奖励模型的训练效果,并影响其安全泛化能力。此外,数据集中存在的偏差,例如对特定类型指令或响应的偏好,可能会导致模型学习到不安全的行为。因本文档来自技高网...

【技术保护点】

1.一种基于数据蒸馏的安全偏好建模方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,S2包括以下步骤:

3.如权利要求2所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,S23中的一般训练损失函数为:

4.根据权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,在S3中,所述不一致样本的提取包括以下步骤:

5.如权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,S4包括以下步骤:

6.如权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征...

【技术特征摘要】

1.一种基于数据蒸馏的安全偏好建模方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,s2包括以下步骤:

3.如权利要求2所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,s23中的一般训练损失函数为:

4.根据权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,在s3中,所述不一致样本的提取包括以下步骤:

5.如权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,s4包括以下步骤:

6.如权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,在...

【专利技术属性】
技术研发人员:黄辉杨沐昀周宏理徐冰曹海龙朱聪慧赵铁军
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1