【技术实现步骤摘要】
本专利技术涉及人工智能领域,尤其涉及一种奖励模型优化方法、装置、计算机设备及存储介质。
技术介绍
1、当前,奖励模型在多种算法模型中发挥着重要作用。尤其是在大语言模型的对齐训练中,奖励模型通常需要代替人工标注对大语言模型生成的文本内容进行打分评估,以减小大语模型对齐训练的迭代周期,加速对大语言模型的对齐训练过程,节省人力资源。但是,由于奖励模型的打分效果需要与大语言模型的模型特点相符合,因此,在大语言模型的训练阶段,需要对奖励模型进行优化,以提升奖励模型的评估性能,使奖励模型对大语言模型输出的文本内容具有较好的评估效果。
2、现有技术中,在对奖励模型进行优化过程中,由于奖励模型的训练数据来源于该奖励模型对应的大语言模型的输出,对于同一提示词,训练数据中的多个训练答复之间的差异性不大,训练数据的多样性不够,导致奖励模型的评估性能较低,进而使评估效果并不理想。并且,由于现有技术中对奖励模型的优化过程,通常获取的是训练数据中训练答复的整体的评估分数,或者按照偏好顺序对训练数据中的训练答复进行排序,该获取整体的评估分数的方式和排序的
...【技术保护点】
1.一种奖励模型优化方法,其特征在于,包括:
2.如权利要求1所述的奖励模型优化方法,其特征在于,所述获取训练数据,包括:
3.如权利要求2所述的奖励模型优化方法,其特征在于,所述目标意图注入模型包括拒绝回答意图注入模型;
4.如权利要求3所述的奖励模型优化方法,其特征在于,所述采用拒绝回答意图注入模型,对所述提示词对应的原始答复进行处理,得到所述提示词对应的第一训练答复,包括:
5.如权利要求3所述的奖励模型优化方法,其特征在于,所述目标意图注入模型包括输出格式意图注入模型和指令跟随意图注入模型;
6.如权
...【技术特征摘要】
1.一种奖励模型优化方法,其特征在于,包括:
2.如权利要求1所述的奖励模型优化方法,其特征在于,所述获取训练数据,包括:
3.如权利要求2所述的奖励模型优化方法,其特征在于,所述目标意图注入模型包括拒绝回答意图注入模型;
4.如权利要求3所述的奖励模型优化方法,其特征在于,所述采用拒绝回答意图注入模型,对所述提示词对应的原始答复进行处理,得到所述提示词对应的第一训练答复,包括:
5.如权利要求3所述的奖励模型优化方法,其特征在于,所述目标意图注入模型包括输出格式意图注入模型和指令跟随意图注入模型;
6.如权利要求1所述的奖励模型优化方法,其特征在于,所述接收所述训练数据对应的标注结果,基于所述...
【专利技术属性】
技术研发人员:杨有欢,蚁韩羚,余晓填,肖嵘,
申请(专利权)人:深圳云天励飞技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。