一种回复策略的输出方法、装置、设备和存储介质制造方法及图纸

技术编号:46596579 阅读:0 留言:0更新日期:2025-10-10 21:29
本申请公开了一种回复策略的输出方法,应用于大语言模型,大语言模型包括预先训练的价值函数,价值函数是基于历史输入数据、历史输入数据对应的历史回复策略,以及针对历史回复策略的用户响应数据训练得到的,用户响应数据与多个标签中的目标标签匹配,目标标签用于指示用户响应数据所对应的情感类别,包括:获取待处理的输入数据;对输入数据进行处理,生成回复策略;基于价值函数对输入数据和回复策略进行处理,得到回复策略属于多个标签中的每个标签的概率;基于回复策略属于每个标签的概率和回复策略,确定目标回复策略并输出。这样可以有效降低计算成本。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种回复策略的输出方法、装置、设备和存储介质


技术介绍

1、大语言模型(large language model,llm)是指使用大量文本数据训练的深度学习模型,该模型可以生成自然语言文本或理解语言文本的含义,在一定程度上模拟人类的语言认知和生成过程。

2、当前,为提升llm输出回复策略的质量,通常需要对llm进行多轮训练或微调。以微调gpt-4(一种大型生成式语言模型)等级的大语言模型为例,单次训练成本可能高达数十万美元。因此,在实际应用中,通过对整个llm进行训练来优化回复策略的方式,存在计算成本高的问题。


技术实现思路

1、本申请实施例提供了一种回复策略的输出方法、装置、设备和存储介质,能够有效降低计算成本。

2、第一方面,本申请实施例提供了一种回复策略的输出方法,所述大语言模型包括预先训练的价值函数,所述价值函数是基于历史输入数据、所述历史输入数据对应的历史回复策略,以及针对所述历史回复策略的用户响应数据训练得到的,所述用户响应数据与多个标签中的目标本文档来自技高网...

【技术保护点】

1.一种回复策略的输出方法,其特征在于,应用于大语言模型,所述大语言模型包括预先训练的价值函数,所述价值函数是基于历史输入数据、所述历史输入数据对应的历史回复策略,以及针对所述历史回复策略的用户响应数据训练得到的,所述用户响应数据与多个标签中的目标标签匹配,所述目标标签用于指示所述用户响应数据所对应的情感类别,所述方法包括:

2.根据权利要求1所述的回复策略的输出方法,其特征在于,所述价值函数通过如下步骤训练得到:

3.根据权利要求2所述的回复策略的输出方法,其特征在于,所述构建待训练函数的训练数据集,包括:

4.根据权利要求1所述的回复策略的输出方法...

【技术特征摘要】

1.一种回复策略的输出方法,其特征在于,应用于大语言模型,所述大语言模型包括预先训练的价值函数,所述价值函数是基于历史输入数据、所述历史输入数据对应的历史回复策略,以及针对所述历史回复策略的用户响应数据训练得到的,所述用户响应数据与多个标签中的目标标签匹配,所述目标标签用于指示所述用户响应数据所对应的情感类别,所述方法包括:

2.根据权利要求1所述的回复策略的输出方法,其特征在于,所述价值函数通过如下步骤训练得到:

3.根据权利要求2所述的回复策略的输出方法,其特征在于,所述构建待训练函数的训练数据集,包括:

4.根据权利要求1所述的回复策略的输出方法,其特征在于,所述多个标签包括正面标签、负面标签或中间标签;

5.根据权利要求4...

【专利技术属性】
技术研发人员:刘浪
申请(专利权)人:太保科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1