【技术实现步骤摘要】
本专利技术涉及一种基于数据蒸馏的安全偏好建模方法,属于人工智能安全。
技术介绍
1、奖励建模是大模型训练中确保输出安全性和可靠性的重要环节,其核心目标是通过训练一个奖励模型,评估给定指令和响应的安全性,并输出一个反映响应安全质量的标量奖励值。这个奖励值可以用来指导大模型进行微调,从而使其生成的文本更加符合人类的安全偏好和期望。奖励模型的训练通常需要大量的标注数据,这些数据包含指令、响应以及人工标注的安全偏好标签,用于让模型学习不同响应的安全性优劣程度。高质量的奖励模型不仅能够提升大模型的安全性能,还有助于避免模型输出中的不安全、不符合伦理甚至有害的内容。因此,奖励建模是实现大模型在开放环境中安全性与人类意图对齐的重要途径。
2、理想的奖励模型训练数据应该具备高信噪比、低偏差,并且能够覆盖广泛的指令和响应类型。然而,当前的数据集构建方法往往难以同时满足这些要求。数据集中的噪声,例如错误的标注或不一致的评分,会降低奖励模型的训练效果,并影响其安全泛化能力。此外,数据集中存在的偏差,例如对特定类型指令或响应的偏好,可能会导致模型学
...【技术保护点】
1.一种基于数据蒸馏的安全偏好建模方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,S2包括以下步骤:
3.如权利要求2所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,S23中的一般训练损失函数为:
4.根据权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,在S3中,所述不一致样本的提取包括以下步骤:
5.如权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,S4包括以下步骤:
6.如权利要求1所述的一种基于数据蒸馏的安全
...【技术特征摘要】
1.一种基于数据蒸馏的安全偏好建模方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,s2包括以下步骤:
3.如权利要求2所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,s23中的一般训练损失函数为:
4.根据权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,在s3中,所述不一致样本的提取包括以下步骤:
5.如权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,s4包括以下步骤:
6.如权利要求1所述的一种基于数据蒸馏的安全偏好建模方法,其特征在于,在...
【专利技术属性】
技术研发人员:黄辉,杨沐昀,周宏理,徐冰,曹海龙,朱聪慧,赵铁军,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。