奖励模型优化方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：45608081 阅读：29 留言：0更新日期：2025-06-24 18:39

本发明专利技术公开了一种奖励模型优化方法、装置、计算机设备及存储介质，该方法包括：获取训练数据，训练数据包括提示词和训练答复；接收训练数据对应的标注结果，基于标注结果，确定每一训练数据的第一奖励分数；采用原始奖励模型对训练数据进行打分标注，确定每一训练数据的第二奖励分数；基于同一提示词对应的多个训练数据的第一奖励分数和第二奖励分数，确定原始奖励模型对应的优化函数值；在优化函数值未满足收敛条件时，优化原始奖励模型的模型参数；在优化函数值满足收敛条件时，将原始奖励模型作为目标奖励模型。该方法能够使奖励模型的评估效果较为接近人工标注的评估效果，实现提升原始奖励模型的评估性能的目的。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，尤其涉及一种奖励模型优化方法、装置、计算机设备及存储介质。

技术介绍

1、当前，奖励模型在多种算法模型中发挥着重要作用。尤其是在大语言模型的对齐训练中，奖励模型通常需要代替人工标注对大语言模型生成的文本内容进行打分评估，以减小大语模型对齐训练的迭代周期，加速对大语言模型的对齐训练过程，节省人力资源。但是，由于奖励模型的打分效果需要与大语言模型的模型特点相符合，因此，在大语言模型的训练阶段，需要对奖励模型进行优化，以提升奖励模型的评估性能，使奖励模型对大语言模型输出的文本内容具有较好的评估效果。

2、现有技术中，在对奖励模型进行优化过程中，由于奖励模型的训练数据来源于该奖励模型对应的大语言模型的输出，对于同一提示词，训练数据中的多个训练答复之间的差异性不大，训练数据的多样性不够，导致奖励模型的评估性能较低，进而使评估效果并不理想。并且，由于现有技术中对奖励模型的优化过程，通常获取的是训练数据中训练答复的整体的评估分数，或者按照偏好顺序对训练数据中的训练答复进行排序，该获取整体的评估分数的方式和排序的...

【技术保护点】

1.一种奖励模型优化方法，其特征在于，包括：

2.如权利要求1所述的奖励模型优化方法，其特征在于，所述获取训练数据，包括：

3.如权利要求2所述的奖励模型优化方法，其特征在于，所述目标意图注入模型包括拒绝回答意图注入模型；

4.如权利要求3所述的奖励模型优化方法，其特征在于，所述采用拒绝回答意图注入模型，对所述提示词对应的原始答复进行处理，得到所述提示词对应的第一训练答复，包括：

5.如权利要求3所述的奖励模型优化方法，其特征在于，所述目标意图注入模型包括输出格式意图注入模型和指令跟随意图注入模型；

6.如权利要求1所述的奖励模...

【技术特征摘要】

1.一种奖励模型优化方法，其特征在于，包括：

2.如权利要求1所述的奖励模型优化方法，其特征在于，所述获取训练数据，包括：

3.如权利要求2所述的奖励模型优化方法，其特征在于，所述目标意图注入模型包括拒绝回答意图注入模型；

5.如权利要求3所述的奖励模型优化方法，其特征在于，所述目标意图注入模型包括输出格式意图注入模型和指令跟随意图注入模型；

6.如权利要求1所述的奖励模型优化方法，其特征在于，所述接收所述训练数据对应的标注结果，基于所述...

【专利技术属性】
技术研发人员：杨有欢，蚁韩羚，余晓填，肖嵘，
申请(专利权)人：深圳云天励飞技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人