【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种回复策略的输出方法、装置、设备和存储介质。
技术介绍
1、大语言模型(large language model,llm)是指使用大量文本数据训练的深度学习模型,该模型可以生成自然语言文本或理解语言文本的含义,在一定程度上模拟人类的语言认知和生成过程。
2、当前,为提升llm输出回复策略的质量,通常需要对llm进行多轮训练或微调。以微调gpt-4(一种大型生成式语言模型)等级的大语言模型为例,单次训练成本可能高达数十万美元。因此,在实际应用中,通过对整个llm进行训练来优化回复策略的方式,存在计算成本高的问题。
技术实现思路
1、本申请实施例提供了一种回复策略的输出方法、装置、设备和存储介质,能够有效降低计算成本。
2、第一方面,本申请实施例提供了一种回复策略的输出方法,所述大语言模型包括预先训练的价值函数,所述价值函数是基于历史输入数据、所述历史输入数据对应的历史回复策略,以及针对所述历史回复策略的用户响应数据训练得到的,所述用户响应数
...【技术保护点】
1.一种回复策略的输出方法,其特征在于,应用于大语言模型,所述大语言模型包括预先训练的价值函数,所述价值函数是基于历史输入数据、所述历史输入数据对应的历史回复策略,以及针对所述历史回复策略的用户响应数据训练得到的,所述用户响应数据与多个标签中的目标标签匹配,所述目标标签用于指示所述用户响应数据所对应的情感类别,所述方法包括:
2.根据权利要求1所述的回复策略的输出方法,其特征在于,所述价值函数通过如下步骤训练得到:
3.根据权利要求2所述的回复策略的输出方法,其特征在于,所述构建待训练函数的训练数据集,包括:
4.根据权利要求1所述
...【技术特征摘要】
1.一种回复策略的输出方法,其特征在于,应用于大语言模型,所述大语言模型包括预先训练的价值函数,所述价值函数是基于历史输入数据、所述历史输入数据对应的历史回复策略,以及针对所述历史回复策略的用户响应数据训练得到的,所述用户响应数据与多个标签中的目标标签匹配,所述目标标签用于指示所述用户响应数据所对应的情感类别,所述方法包括:
2.根据权利要求1所述的回复策略的输出方法,其特征在于,所述价值函数通过如下步骤训练得到:
3.根据权利要求2所述的回复策略的输出方法,其特征在于,所述构建待训练函数的训练数据集,包括:
4.根据权利要求1所述的回复策略的输出方法,其特征在于,所述多个标签包括正面标签、负面标签或中间标签;
5.根据权利要求4...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。