生成式大语言模型训练方法以及基于模型的搜索方法技术

技术编号:37589845 阅读:8 留言:0更新日期:2023-05-18 11:17
本公开提供了生成式大语言模型训练方法、基于模型的搜索方法,涉及生成式模型、智能搜索等人工智能技术领域。该方法包括:基于用户查询文本与匹配的服务接口调用序列,构建第一训练集;利用第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练,得到第二生成式大语言模型;基于相同用户查询文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练,得到奖励模型;将第二生成式大语言模型,基于奖励模型返回的得分,以强化学习方式进行训练。利用据此训练得到的生成式大语言模型可显著提升搜索场景下的搜索结果准确率和用户体验。搜索场景下的搜索结果准确率和用户体验。搜索场景下的搜索结果准确率和用户体验。

【技术实现步骤摘要】
生成式大语言模型训练方法以及基于模型的搜索方法


[0001]本公开涉及数据处理领域,具体涉及生成式模型、智能搜索等人工智能
,尤其涉及一种生成式大语言模型训练和基于生成式大语言模型的搜索方法,以及以对应的装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]大型语言模型(LLM,Large Language Model,其本质是生成式模型),如ChatGPT(Chat Generative Pre

trained Transformer,是OpenAI机构研发的聊天机器人程序),能够为许多下游任务(例如面向任务的对话和问题解答)生成类似人类的流畅响应。
[0003]然而,将LLM应用于现实世界中的任务解决型应用仍然具有挑战性,主要原因是它们可能会产生与实际不符的回复,以及无法使用外部知识作为参考进行回复的生成。
[0004]例如,对于“A市现在天气如何”、“B货币兑C货币汇率”以及“从C位置到D位置需要多久”等问题,在回答时都需要实时的信息,而这些实时信息(例如实时时间、实时汇率、实时路况和实时交通信息等)根本无法单纯依靠LLM参数中蕴含的知识来生成,均需要依赖于外部的知识才能生成出准确的结果。

技术实现思路

[0005]本公开实施例提出了一种生成式大语言模型训练方法和基于生成式大语言模型的搜索方法,以及与方法配套的装置、电子设备、计算机可读存储介质及计算机程序产品。
[0006]第一方面,本公开实施例提出了一种生成式大语言模型训练方法,包括:基于用户查询文本与匹配的服务接口调用序列,构建第一训练集;其中,构成服务接口调用序列的服务接口对应于用户查询文本表达出的功能使用意图;利用第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练,得到第二生成式大语言模型;基于相同用户查询文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练,得到奖励模型;将第二生成式大语言模型,基于奖励模型返回的得分,以强化学习方式进行训练,得到目标生成式大语言模型。
[0007]第二方面,本公开实施例提出了一种生成式大语言模型训练装置,包括:第一训练集构建单元,被配置成基于用户查询文本与匹配的服务接口调用序列,构建第一训练集;其中,构成服务接口调用序列的服务接口对应于用户查询文本表达出的功能使用意图;有监督微调训练单元,被配置成利用第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练,得到第二生成式大语言模型;第二训练集构建单元,被配置成基于相同用户查询文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;奖励模型训练单元,被配置成利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练,得到奖励模型;强化学习训练单元,被配置成将第二生成式大语言模型,基于奖励模型返回的得分,以强化学习方式进行训练,得到目标生成式大语言模型。
[0008]第三方面,本公开实施例提出了一种基于生成式大语言模型的搜索方法,包括:获取用户在搜索栏输入的用户查询文本;将用户查询文本作为输入数据输入目标生成式大语言模型;其中,目标生成式大语言模型根据如上述第一方面描述的生成式大语言模型训练方法得到;执行目标生成式大语言模型输出的接口调用序列,得到查询结果。
[0009]第四方面,本公开实施例提出了一种基于生成式大语言模型的搜索装置,包括:用户查询文本获取单元,被配置成获取用户在搜索栏输入的用户查询文本;模型调用单元,被配置成将用户查询文本作为输入数据输入预设的目标生成式大语言模型;其中,目标生成式大语言模型根据如第二方面描述的生成式大语言模型训练装置得到;接口调用序列执行单元,被配置成执行目标生成式大语言模型输出的接口调用序列,得到查询结果文本。
[0010]第五方面,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面描述的生成式大语言模型训练方法或如第三方面描述的基于生成式大语言模型的搜索方法。
[0011]第六方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面描述的生成式大语言模型训练方法或如第三方面描述的基于生成式大语言模型的搜索方法。
[0012]第七方面,本公开实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面描述的生成式大语言模型训练方法的步骤或如第三方面描述的基于生成式大语言模型的搜索方法的步骤。
[0013]本公开实施例提供的生成式大语言模型训练方案,由于第一训练集是由用户查询文本与表达相应功能使用意图的服务接口调用序列构建得到,使得通过第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练,进而使得训练得到的第二生成式大语言模型具有将用户查询文本改写为匹配的服务接口调用序列的能力,而在由相同用户查询文本与不同候选输出之间的用户偏好排序和预设模板集合所构建的第二训练集对预训练好的第三生成式大语言模型进行有监督训练,进而使得训练得到的奖励模型拥有为生成式大语言模型针对用户查询文本所生成的不同候选进行质量评分的能力,进而使得在基于人类反馈的强化学习的训练下,所最终得到的目标生成式大语言模型不仅具有将用户查询文本改写为匹配的服务接口调用序列的能力,还具有输出更符合用户需求的结果的能力。即通过上述训练方案使得经训练得到的目标生成式大语言模型具有了深度理解用户需求并自行构建相应接口调用指令进行查询得到返回的准确答案的能力,能够不单单依据自然语言输入和大模型参数中蕴含的知识生成自然语言输出,而是借助提供专业能力的应用程序接口调用相应的功能,以更切实的解决用户需求,且在奖励模型的作用下还将使得返回的结果更加符合用户的实际需求和预期。
[0014]在上述实施例提供的生成式大语言模型训练方案的有益效果基础上,本公开实施例提供的基于生成式大语言模型的搜索方法,则是具体针对由搜索引擎充当执行主体的场景下,将按上述训练方案训练得到的目标生成式大语言模型应用于搜索场景,使得搜索引擎借助该目标生成式大语言模型将输入的用户查询文本转换为匹配的服务接口调用序列,进而通过按序执行该服务接口调用序列得到查询结果文本,使得用户能够直接获取到满足
其搜索需求的查询结果文本,提升搜索结果的准确率和搜索效率。
[0015]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0016]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
[0017]图1是本公开可以应用于其中的示例性系统架构;...

【技术保护点】

【技术特征摘要】
1.一种生成式大语言模型训练方法,包括:基于用户查询文本与匹配的服务接口调用序列,构建第一训练集;其中,构成所述服务接口调用序列的服务接口对应于所述用户查询文本表达出的功能使用意图;利用所述第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练,得到第二生成式大语言模型;基于相同用户查询文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练,得到奖励模型;将所述第二生成式大语言模型,基于所述奖励模型返回的得分,以强化学习方式进行训练,得到目标生成式大语言模型。2.根据权利要求1所述的方法,其中,所述基于用户查询文本与匹配的服务接口调用序列,构建第一训练集,包括:获取用户在搜索栏中输入的用户查询文本,且确定所述用户查询文本所表达的功能使用意图;根据所述功能使用意图确定用于实现相应意图的目标服务接口和具体接口参数;根据所述目标服务接口和所述具体接口参数,构建得到所述服务接口调用序列;基于由所述用户查询文本与匹配的服务接口调用序列构成的样本对,构建所述第一训练集。3.根据权利要求2所述的方法,其中,所述根据所述功能使用意图确定用于实现相应意图的目标服务接口和具体接口参数,包括:响应于所述用户查询文本的表达中包含有至少两个所述功能使用意图,分别确定与每个所述功能使用意图对应的目标服务接口和具体接口参数;所述根据所述目标服务接口和所述具体接口参数,构建得到所述服务接口调用序列,包括:根据与每个所述功能使用意图对应的目标服务接口和具体接口参数,生成相应的接口调用指令;根据不同的功能使用意图之间的执行依赖关系,确定不同的接口调用指令的执行顺序;按所述执行顺序组织不同的接口调用指令,得到所述服务接口调用序列。4.根据权利要求1所述的方法,其中,在有监督微调的训练方式下,对所述第一生成式大语言模型中未出现的代表服务接口的新语言单元,按照已有语言单元的特征的多元正态分布对所述新语言单元的特征进行参数采样的初始化。5.根据权利要求1

4任一项所述的方法,其中,所述基于相同用户查询文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集,包括:从检索日志中获取检索词;从检索日志中确认对相同所述检索词返回过的所有检索结果,并确定每个所述检索结果在一个时间窗口内的累计点击次数;将相同检索词分别与各检索结果生成多个样本对,并根据不同检索结果分别对应的累
计点击次数的大小,确定相应的不同样本对之间的排序信息;基于按所述排序信息进行用户偏好排序的各样本对和记录有输入文本与相应的接口调用指令之间对应关系的各预设模板,构建第二训练集;其中,所述预设模板集合由各所述预设模板构成。6.一种基于生成式大语言模型的搜索方法,包括:获取用户在搜索栏输入的用户查询文本;将所述用户查询文本作为输入数据输入目标生成式大语言模型;其中,所述目标生成式大语言模型基于权利要求1

5任一项所述的生成式大语言模型训练方法得到;执行所述目标生成式大语言模型输出的接口调用序列,得到查询结果文本。7.根据权利要求6所述的方法,其中,所述执行所述目标生成式大语言模型输出的接口调用序列,包括:确定所述目标生成式大语言模型输出的服务接口调用序列中包含的各接口调用指令和不同接口调用指令之间的执行顺序;按所述执行顺序依次执行相应的接口调用指令。8.根据权利要求6所述的方法,还包括:将所述查询结果文本调整为表达相同含义的不同表述方式。9.根据权利要求8所述的方法,其中,所述将所述查询结果文本调整为表达相同含义的不同表述方式,包括:将所述查询结果文本调整为表达相同含义的随机一种表述方式。10.根据权利要求8所述的方法,其中,所述将所述查询结果文本调整为表达相同含义的不同表述方式,包括:将所述查询结果文本调整为表达相同含义的、与所述用户查询文本所具有的相同表述方式。11.根据权利要求6

10任一项所述的方法,其中,所述搜索栏包括:网页版搜索引擎所提供的搜索栏、应用版搜索引擎提供的搜索栏,所述应用版搜索引擎的应用包括:单一搜索应用、包含搜索功能的复合功能应用。12.一种生成式大语言模型训练装置,包括:第一训练集构建单元,被配置成基于用户查询文本与匹配的服务接口调用序列,构建第一训练集;其中,构成所述服务接口调用序列的服务接口对应于所述用户查询文本表达出的功能使用意图;有监督微调训练单元,被配置成利用所述第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练,得到第二生成式大语言模型;第二训练集构建单元,被配置成基于相同用户查询文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;奖励模型训练单元,被配置成利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练,得到奖励模型;强化学习训练...

【专利技术属性】
技术研发人员:黄际洲孙一博
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1