【技术实现步骤摘要】
本公开涉及大语言模型,尤其涉及一种大语言模型训练方法及装置。
技术介绍
1、大语言模型(large language model,llm)是一种基于海量文本数据训练的深度学习模型。它能够理解并生成自然语言文本,应用于自然语言处理领域,如文本生成、文本摘要、语言翻译等任务;应用于人工智能领域,可以帮助机器更好地理解人类语言,实现更自然的人机交互;还可以应用于其他领域,如智能客服、智能写作、智能推荐等。例如,在智能客服中,大语言模型可以自动回答用户的问题,提高客服效率;在智能写作中,大语言模型可以辅助写作人员生成高质量的文本内容;在智能推荐中,大语言模型可以根据用户的历史行为和偏好,推荐更符合用户需求的内容。
2、相关技术中,利用rlhf(reinforcement learning from human feedback,基于人类反馈的强化学习技术)进行大语言模型的训练,但是存在由于训练出的奖励模型低效导致最终训练出的大语言模型精度低、效果差的问题。
技术实现思路
1、有鉴于此,
...【技术保护点】
1.一种大语言模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第一数据以三联体方式表示,所述三联体中包括输入、针对所述输入的首选响应和非首选响应,所述测试结果包括针对每个进行测试的第一数据的置信度差值,所述置信度差值用于表示所述目标奖励模型基于所述第一数据得到的该第一数据的首选响应和非首选响应之间的差异,
3.根据权利要求2所述的方法,其特征在于,根据所述测试结果计算出所述目标奖励模型的误差率,包括:
4.根据权利要求1或2所述的方法,其特征在于,所述第二数据集包括所述第一数据集,利用训练得到
...【技术特征摘要】
1.一种大语言模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第一数据以三联体方式表示,所述三联体中包括输入、针对所述输入的首选响应和非首选响应,所述测试结果包括针对每个进行测试的第一数据的置信度差值,所述置信度差值用于表示所述目标奖励模型基于所述第一数据得到的该第一数据的首选响应和非首选响应之间的差异,
3.根据权利要求2所述的方法,其特征在于,根据所述测试结果计算出所述目标奖励模型的误差率,包括:
4.根据权利要求1或2所述的方法,其特征在于,所述第二数据集包括所述第一数据集,利用训练得到的所有目标奖励模型和用于大语言模型的第二数据集对所述预训练语言模型进行训练,得到训练好的大语言模型,包括:
5.根据权利要求4所述的方法,其特征在于,基于各所述目标奖励模型对各所述预测结果的反馈进行模型策略更新,得到更新后大语言模型,包括:
6.一种大语言模型训练装置,其特征在于,所述装置包括:
7.根据权利要求6所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。