生成式大语言模型训练方法、基于模型的人机语音交互方法技术

技术编号:37843392 阅读:12 留言:0更新日期:2023-06-14 09:48
本公开提供了生成式大语言模型训练方法、基于模型的人机语音交互方法,涉及生成式模型、智能语音、人机交互等人工智能技术领域。该方法包括:基于用户输入文本与匹配的服务接口调用序列,构建第一训练集;利用第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练,得到第二生成式大语言模型;基于相同用户输入文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练,得到奖励模型;将第二生成式大语言模型,基于奖励模型返回的得分,以强化学习方式进行训练。利用据此训练得到的生成式大语言模型可显著提升人机语音交互场景下的回复准确率和用户体验。的回复准确率和用户体验。的回复准确率和用户体验。

【技术实现步骤摘要】
生成式大语言模型训练方法、基于模型的人机语音交互方法


[0001]本公开涉及数据处理领域,具体涉及生成式模型、智能语音、人机交互等人工智能
,尤其涉及一种生成式大语言模型训练和基于生成式大语言模型的人机语音交互方法,以及以对应的装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]大型语言模型(LLM,Large Language Model,其本质是生成式模型),如ChatGPT(Chat Generative Pre

trained Transformer,是OpenAI机构研发的聊天机器人程序),能够为许多下游任务(例如面向任务的对话和问题解答)生成类似人类的流畅响应。
[0003]然而,将LLM应用于现实世界中的任务解决型应用仍然具有挑战性,主要原因是它们可能会产生与实际不符的回复,以及无法使用外部知识作为参考进行回复的生成。
[0004]例如,对于“A市现在天气如何”、“B货币兑C货币汇率”以及“从C位置到D位置需要多久”等问题,在回答时都需要实时的信息,而这些实时信息(例如实时时间、实时汇率、实时路况和实时交通信息等)根本无法单纯依靠LLM参数中蕴含的知识来生成,均需要依赖于外部的知识才能生成出准确的结果。

技术实现思路

[0005]本公开实施例提出了一种生成式大语言模型训练方法和基于生成式大语言模型的人机语音交互方法,以及与方法配套的装置、电子设备、计算机可读存储介质及计算机程序产品。
[0006]第一方面,本公开实施例提出了一种生成式大语言模型训练方法,包括:基于用户输入文本与匹配的服务接口调用序列,构建第一训练集;其中,用户输入文本由用户输入语音转换得到,构成服务接口调用序列的服务接口对应于用户输入文本表达出的功能使用意图;利用第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练,得到第二生成式大语言模型;基于相同用户输入文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练,得到奖励模型;将第二生成式大语言模型,基于奖励模型返回的得分,以强化学习方式进行训练,得到目标生成式大语言模型。
[0007]第二方面,本公开实施例提出了一种生成式大语言模型训练装置,包括:第一训练集构建单元,被配置成基于用户输入文本与匹配的服务接口调用序列,构建第一训练集;其中,用户输入文本由用户输入语音转换得到,构成服务接口调用序列的服务接口对应于用户输入文本表达出的功能使用意图;有监督微调训练单元,被配置成利用第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练,得到第二生成式大语言模型;第二训练集构建单元,被配置成基于相同用户输入文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;奖励模型训练单元,被配置成利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练,得到奖励模型;强化学习训练单元,被配置成将
第二生成式大语言模型,基于奖励模型返回的得分,以强化学习方式进行训练,得到目标生成式大语言模型。
[0008]第三方面,本公开实施例提出了一种基于生成式大语言模型的人机语音交互方法,包括:获取用户以语音形式发出的用户输入语音;将用户输入语音对应的用户输入文本作为输入数据输入目标生成式大语言模型;其中,目标生成式大语言模型根据如上述第一方面描述的生成式大语言模型训练方法得到;执行目标生成式大语言模型输出的接口调用序列,得到输出文本;将输出文本转换为语音形式的机器答复语音。
[0009]第四方面,本公开实施例提出了一种基于生成式大语言模型的人机语音交互装置,包括:用户输入语音获取单元,被配置成获取用户以语音形式发出的用户输入语音;模型调用单元,被配置成将用户输入语音对应的用户输入文本作为输入数据输入预设的目标生成式大语言模型;其中,目标生成式大语言模型根据如第二方面描述的生成式大语言模型训练装置得到;接口调用序列执行单元,被配置成执行目标生成式大语言模型输出的接口调用序列,得到输出文本;机器答复语音生成单元,被配置成将输出文本转换为语音形式的机器答复语音。
[0010]第五方面,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面描述的生成式大语言模型训练方法或如第三方面描述的基于生成式大语言模型的人机语音交互方法。
[0011]第六方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面描述的生成式大语言模型训练方法或如第三方面描述的基于生成式大语言模型的人机语音交互方法。
[0012]第七方面,本公开实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面描述的生成式大语言模型训练方法的步骤或如第三方面描述的基于生成式大语言模型的人机语音交互方法的步骤。
[0013]本公开实施例提供的生成式大语言模型训练方案,由于第一训练集是由(用户输入语音转换得到的)用户输入文本与表达相应功能使用意图的服务接口调用序列构建得到,使得通过第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练,进而使得训练得到的第二生成式大语言模型具有将用户输入文本改写为匹配的服务接口调用序列的能力,而在由相同用户输入文本与不同候选输出之间的用户偏好排序和预设模板集合所构建的第二训练集对预训练好的第三生成式大语言模型进行有监督训练,进而使得训练得到的奖励模型拥有为生成式大语言模型针对用户输入文本所生成的不同候选进行质量评分的能力,进而使得在强化学习方式的训练下,所最终得到的目标生成式大语言模型不仅具有将用户输入文本改写为匹配的服务接口调用序列的能力,还具有输出更符合用户需求的结果的能力。即通过上述训练方案使得经训练得到的目标生成式大语言模型具有了深度理解用户需求并自行构建相应接口调用指令进行查询得到返回的准确答案的能力,能够不单单依据自然语言输入和大模型参数中蕴含的知识生成自然语言输出,而是借助提供专业能力的应用程序接口调用相应的功能,以更切实的解决用户需求,且在奖励模型的作用下还将使得返回的结果更加符合用户的实际需求和预期。
[0014]在上述实施例提供的生成式大语言模型训练方案的有益效果基础上,本公开实施例提供的基于生成式大语言模型的人机语音交互方案,则是具体针对由语音助手充当执行主体的场景下,将按上述训练方案训练得到的目标生成式大语言模型应用于人机语音交互场景,使得语音助手借助该目标生成式大语言模型将用户输入语音对应的用户输入文本转换为匹配的服务接口调用序列,进而通过按序执行该服务接口调用序列得到输出文本,最终将输出文本转换为机器答复语音返回用户完成人机语音交互,提升了人机语音交互体验。
[0015]应当理解,本部分所描述的内容并非本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成式大语言模型训练方法,包括:基于用户输入文本与匹配的服务接口调用序列,构建第一训练集;其中,所述用户输入文本由用户输入语音转换得到,构成所述服务接口调用序列的服务接口对应于所述用户输入文本表达出的功能使用意图;利用所述第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练,得到第二生成式大语言模型;基于相同用户输入文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练,得到奖励模型;将所述第二生成式大语言模型,基于所述奖励模型返回的得分,以强化学习方式进行训练,得到目标生成式大语言模型。2.根据权利要求1所述的方法,其中,所述基于用户输入文本与匹配的服务接口调用序列,构建第一训练集,包括:获取用户以语音形式发出的用户输入语音,并将所述用户输入语音转换为所述用户输入文本,且确定所述用户输入文本所表达的功能使用意图;根据所述功能使用意图确定用于实现相应意图的目标服务接口和具体接口参数;根据所述目标服务接口和所述具体接口参数,构建得到所述服务接口调用序列;基于由所述用户输入文本与匹配的服务接口调用序列构成的样本对,构建所述第一训练集。3.根据权利要求2所述的方法,其中,所述根据所述功能使用意图确定用于实现相应意图的目标服务接口和具体接口参数,包括:响应于所述用户输入文本的表达中包含有至少两个所述功能使用意图,分别确定与每个所述功能使用意图对应的目标服务接口和具体接口参数;所述根据所述目标服务接口和所述具体接口参数,构建得到所述服务接口调用序列,包括:根据与每个所述功能使用意图对应的目标服务接口和具体接口参数,生成相应的接口调用指令;根据不同的功能使用意图之间的执行依赖关系,确定不同的接口调用指令的执行顺序;按所述执行顺序组织不同的接口调用指令,得到所述服务接口调用序列。4.根据权利要求1所述的方法,其中,在有监督微调的训练方式下,对所述第一生成式大语言模型中未出现的代表服务接口的新语言单元,按照已有语言单元的特征的多元正态分布对所述新语言单元的特征进行参数采样的初始化。5.根据权利要求1

4任一项所述的方法,其中,所述基于相同用户输入文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集,包括:从检索日志中获取检索词;从检索日志中确认对相同所述检索词返回过的所有检索结果,并确定每个所述检索结果在一个时间窗口内的累计点击次数;
将相同检索词分别与各检索结果生成多个样本对,并根据不同检索结果分别对应的累计点击次数的大小,确定相应的不同样本对之间的排序信息;基于按所述排序信息进行用户偏好排序的各样本对和记录有输入文本与相应的接口调用指令之间对应关系的各预设模板,共同构建第二训练集;其中,所述预设模板集合由各所述预设模板构成。6.一种基于生成式大语言模型的人机语音交互方法,包括:获取用户以语音形式发出的用户输入语音;将所述用户输入语音对应的用户输入文本作为输入数据输入目标生成式大语言模型;其中,所述目标生成式大语言模型基于权利要求1

5任一项所述的生成式大语言模型训练方法得到;执行所述目标生成式大语言模型输出的接口调用序列,得到输出文本;将所述输出文本转换为语音形式的机器答复语音。7.根据权利要求6所述的方法,其中,所述执行所述目标生成式大语言模型输出的接口调用序列,包括:确定所述目标生成式大语言模型输出的服务接口调用序列中包含的各接口调用指令和不同接口调用指令之间的执行顺序;按所述执行顺序依次执行相应的接口调用指令。8.根据权利要求6所述的方法,还包括:将所述输出文本调整为表达相同含义的不同表述方式。9.根据权利要求8所述的方法,其中,所述将所述输出文本调整为表达相同含义的不同表述方式,包括:将所述输出文本调整为表达相同含义的随机一种表述方式。10.根据权利要求8所述的方法,其中,所述将所述输出文本调整为表达相同含义的不同表述方式,包括:将所述输出文本调整为表达相同含义的、与所述用户输入文本所具有的相同表述方式。11.根据权利要求6

10任一项所述的方法,其中,对所述用户输入语音返回所述机器答复语音的语音助手包括:来自地图应用的地图语音助手、来自移动应用程序的语音助手、来自智能终端设备的家居语音助手。12.一种生成式大语言模型训练装置,包括:第一训练集构建单元,被配置成基于用户输入文本与匹配的服务接口调用序列,构建第一训练集;其中,所述用户输入文本由用户输入语音转换得到,构成所述服务接口调用序列的服务接口对应于所述用户输入文本表达出的功能使用意图;有监督微调训练单元,被配置成利用所述第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练,得到第二生成式大语言模型;第二训练集构建单元,被配置成基于相同用户输入文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;奖励模型训练单元,被配置成利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练,得到奖励模型;...

【专利技术属性】
技术研发人员:黄际洲孙一博
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1