一种对话式大语言模型训练方法、电子设备及存储介质技术

技术编号:42405399 阅读:24 留言:0更新日期:2024-08-16 16:25
本申请涉及大语言模型技术领域,具体提供了一种对话式大语言模型训练方法、电子设备及存储介质,该方法包括以下步骤:基于预先构建的第一用户偏好信息集对第一大语言模型进行预训练;对第二大语言模型依次进行微调、奖励模型设置和基于奖励模型的强化学习,并将第三大语言模型适配到能与用户进行交互的服务器环境中;在用户与第三大语言模型的交互过程中获取用户情绪信息,并根据用户情绪信息调整第三大语言模型对应的奖励模型和基于调整后的奖励模型对第三大语言模型进行强化学习;该方法能够有效地避免出现由于用户对对话式大语言模型生成的答复不感兴趣而导致用户不想与对话式大语言模型进行对话,对话式大语言模型的陪伴效果差的情况。

【技术实现步骤摘要】

本申请涉及大语言模型,具体而言,涉及一种对话式大语言模型训练方法、电子设备及存储介质


技术介绍

1、由于对话式大语言模型能根据基于用户的语音输入生成的语音文本生成对应的答复,因此为了消除老年人的孤独感,现有技术可以利用对话式大语言模型与老年人进行聊天对话。由于现有的对话式大语言模型基于固定的答复生成逻辑根据语音文本生成对应的答复,因此现有的对话式大语言模型无法生成与用户的偏好相符的答复,从而导致用户对对话式大语言模型生成的答复不感兴趣,并出现由于用户对对话式大语言模型生成的答复不感兴趣而导致用户不想与对话式大语言模型进行对话,对话式大语言模型的陪伴效果差的情况。

2、针对上述问题,目前尚未有有效的技术解决方案。


技术实现思路

1、本申请的目的在于提供一种对话式大语言模型训练方法、电子设备及存储介质,能够有效地避免出现由于用户对对话式大语言模型生成的答复不感兴趣而导致用户不想与对话式大语言模型进行对话,对话式大语言模型的陪伴效果差的情况。

2、第一方面,本申请提供了一种对话式大语言模型本文档来自技高网...

【技术保护点】

1.一种对话式大语言模型训练方法,其特征在于,所述对话式大语言模型训练方法包括以下步骤:

2.根据权利要求1所述的对话式大语言模型训练方法,其特征在于,步骤S3包括:

3.根据权利要求2所述的对话式大语言模型训练方法,其特征在于,所述用户情绪信息包括正向情绪或负向情绪,步骤S33包括:

4.根据权利要求1所述的对话式大语言模型训练方法,其特征在于,步骤S1包括:

5.根据权利要求4所述的对话式大语言模型训练方法,其特征在于,所述书生万卷数据集包括多个第一问题文本和该第一问题文本对应的第二答复文本,步骤S11包括:

6.根据权利要...

【技术特征摘要】

1.一种对话式大语言模型训练方法,其特征在于,所述对话式大语言模型训练方法包括以下步骤:

2.根据权利要求1所述的对话式大语言模型训练方法,其特征在于,步骤s3包括:

3.根据权利要求2所述的对话式大语言模型训练方法,其特征在于,所述用户情绪信息包括正向情绪或负向情绪,步骤s33包括:

4.根据权利要求1所述的对话式大语言模型训练方法,其特征在于,步骤s1包括:

5.根据权利要求4所述的对话式大语言模型训练方法,其特征在于,所述书生万卷数据集包括多个第一问题文本和该第一问题文本对应的第二答复文本,步骤s11包括:

6.根据权利要求4所述的对话式大...

【专利技术属性】
技术研发人员:赵慧何全魏壮勇
申请(专利权)人:广东随手精灵科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1