【技术实现步骤摘要】
基于生成式大语言模型的信息推荐方法及相关装置
[0001]本公开涉及数据处理领域,具体涉及生成式模型、大语言模型、信息推荐、基于规划的控制生成等人工智能
,尤其涉及一种基于生成式大语言模型的信息推荐方法,以及配套的装置、电子设备、计算机可读存储介质及计算机程序产品。
技术介绍
[0002]大型语言模型(LLM,Large Language Model,其本质是生成式模型,也简称为生成式大语言模型),能够为许多下游任务(例如面向任务的对话和问题解答)生成类似人类的流畅响应。
[0003]在用户提出某项信息获取请求时,生成式大语言模型虽然能够理解其请求含义并进行回复,但往往这些回复无法结合用户的个性化信息(例如偏好等),且对于所返回的结果并没有相应的解释理由,使得用户无法得知模型具体是如何进行分析的,从而使得用户对结果的准确性存在质疑。也就是说当前的生成式大语言模型对用户问题的回复缺乏能够体现思维链(Chain Of Thoughts,COT)或分析链的结构或层次。
技术实现思路
[0004]本公开实施例提出了一种基于生成式大语言模型的信息推荐方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
[0005]第一方面,本公开实施例提出了一种基于生成式大语言模型的信息推荐方法,包括:获取用户的自然语言输入和用户的个性化信息;将自然语言输入和个性化信息作为输入数据,输入以基于规划的控制生成思想作为优化目标所训练得到的目标生成式大语言模型;其中,基于规划的控制生成思想指采用匹配于输入 ...
【技术保护点】
【技术特征摘要】
1.一种基于生成式大语言模型的信息推荐方法,包括:获取用户的自然语言输入和所述用户的个性化信息;将所述自然语言输入和所述个性化信息作为输入数据,输入以基于规划的控制生成思想作为优化目标所训练得到的目标生成式大语言模型;其中,所述基于规划的控制生成思想指采用匹配于所述输入数据的预设规划器约束输出数据的生成,所述预设规划器记录有实现所述输入数据所对应信息获取需求的处理过程规划;将所述目标生成式大语言模型的自然语言输出作为推荐信息返回给所述用户。2.根据权利要求1所述的方法,其中,所述预设规划器包含多个用于处理所述输入数据所对应信息获取需求的处理步骤,各所述处理步骤均基于对相应的信息获取需求进行分步骤理解和规划后得到,所述处理步骤至少包含用于筛选匹配所述个性化信息的备选结果的个性化筛选步骤、以及用于对筛选后结果生成匹配所述个性化信息的推荐理由的理由生成步骤。3.根据权利要求2所述的方法,其中,所述处理步骤还可以包含下述至少一项:用于解析所述自然语言输入所对应信息获取需求所属类型的需求类型解析步骤;用于按照解析出的需求类型进行所有备选结果查询的结果查询步骤;用于重新总结所述自然语言输入所对应信息获取需求的需求复述步骤;用于融合上一步骤所分别得到的、存在关联的不同信息的融合步骤;用于去除重复内容的去重步骤。4.根据权利要求1所述的方法,还包括:构建用于训练得到所述目标生成式大语言模型的训练样本,所述构建用于训练得到所述目标生成式大语言模型的训练样本,包括:根据文本和意图相似性,对不同用户的自然语言输入进行聚类,得到多个聚类结果;分别从每个所述聚类结果中抽取第一数量的目标自然语言输入,并获取标注对象为所述目标自然语言输入标注的预设规划器;针对每个所述聚类结果,均将相应聚类结果下的目标自然语言输入和相应的预设规划器构成的真实样本对作为少样本提示,并通过具有代码生成能力的生成式大语言模型生成第二数量的增量样本对;其中,所述第二数量远大于所述第一数量;基于所述真实样本对和所述增量样本对构建所述训练样本。5.根据权利要求2
‑
4任一项所述的方法,其中,所述预设规划器包括:基于编码指令形式构成的指令模板;其中,所述指令模板中包含多条用于处理所述输入数据所对应信息获取需求的处理指令,各所述处理指令均基于对相应的信息获取需求进行分步骤理解和规划后得到,所述处理指令包括对相应的应用程序编程接口的执行指令。6.根据权利要求2
‑
4任一项所述的方法,其中,所述预设规划器包括:基于子提示形式构成的提示模板;其中,所述提示模板中包含用于处理所述输入数据所对应的整体信息获取需求拆分出的多条子提示,各所述子提示均基于对相应的信息获取需求进行分步骤理解和规划后得到,所述子提示包括对相应的应用程序编程接口的执行指令。7.根据权利要求1所述的方法,其中,用于训练得到所述目标生成式大语言模型的奖赏模型所采用的损失函数包括:基于对线上用户使用反馈构造得到的第一损失函数,和基于对用户搜索历史中的点击
行为反馈构造得到的第二损失函数;其中,所述第一损失函数基于均方误差函数构造得到、所述第二损失函数基于成对损失函数构造得到。8.根据权利要求1所述的方法,其中,所述将所述目标生成式大语言模型的自然语言输出作为推荐信息返回给所述用户,包括:获取所述目标生成式大语言模型生成的自然语言输出;根据所述自然语言输出的信息格式和/或信息量,确定匹配的推荐信息呈现形式;其中,所述推荐信息呈现形式包括:纯文本呈现形式、纯图像呈现形式、纯语音呈现形式、以及混合有文本、图像和语音中至少两种的混合呈现形式;将所述自然语言输出按照所述推荐信息呈现形式呈现给所述用户。9.一种基于生成式大语言模型的信息推荐装置,包括:输入数据获取单元,被配置成获取用户的自然语言输入和所述用户的个性化信息;模型调用单元,被配置成将所述自然语言输入和所述个性化信息作为输入数据,输入以基于规划的控制生成思想作为优化目标所训练得到的目标生成式大语言模型;其中,所述基于规划的控制生成思想指采用匹配于所述输入数据的预设规划器约束输出数据的生成,所...
【专利技术属性】
技术研发人员:黄际洲,王少磊,孙一博,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。