生成式大模型训练方法、基于模型的人机语音交互方法技术

技术编号:37973880 阅读:17 留言:0更新日期:2023-06-30 09:49
本公开提供了生成式大模型训练方法、基于模型的人机语音交互方法,涉及生成式模型、智能语音、人机交互等人工智能技术领域。该方法包括:基于用户输入语音与匹配的包含有接口调用指令的输出结果,构建第一训练集;利用第一训练集对预设的第一生成式大模型进行有监督微调训练,得到第二生成式大模型;基于相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;利用第二训练集对预设的第三生成式大模型进行有监督训练,得到奖励模型;将第二生成式大模型,基于奖励模型返回的得分,以强化学习方式进行训练。利用据此训练得到的生成式大模型可显著提升人机语音交互场景下的回复准确率和用户体验。验。验。

【技术实现步骤摘要】
生成式大模型训练方法、基于模型的人机语音交互方法


[0001]本公开涉及数据处理领域,具体涉及生成式模型、智能语音、人机交互等人工智能
,尤其涉及一种生成式大模型训练和基于生成式大模型的人机语音交互方法,以及以对应的装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]大型语言模型(LLM,Large Language Model,其本质是生成式模型,因此也可以被简称为:生成式大模型,本公开后续将统一此表述来指代此类模型),如ChatGPT(Chat Generative Pre

trained Transformer,是OpenAI机构研发的聊天机器人程序),能够为许多下游任务(例如面向任务的对话和问题解答)生成类似人类的流畅响应。
[0003]然而,将LLM应用于现实世界中的任务解决型应用仍然具有挑战性,主要原因是它们可能会产生与实际不符的回复,以及无法使用外部知识作为参考进行回复的生成。
[0004]例如,对于“A市现在天气如何”、“B货币兑C货币汇率”以及“从C位置到D位置需要多久”等问题,在回答时都需要实时的信息,而这些实时信息(例如实时时间、实时汇率、实时路况和实时交通信息等)根本无法单纯依靠LLM参数中蕴含的知识来生成,均需要依赖于外部的知识才能生成出准确的结果。

技术实现思路

[0005]本公开实施例提出了一种生成式大模型训练方法和基于生成式大模型的人机语音交互方法,以及与方法配套的装置、电子设备、计算机可读存储介质及计算机程序产品。
[0006]第一方面,本公开实施例提出了一种生成式大模型训练方法,包括:基于用户输入语音与匹配的包含有接口调用指令的输出结果,构建第一训练集;其中,接口调用指令所调用的服务接口对应于用户输入语音表达出的功能使用意图;利用第一训练集对预训练好的第一生成式大模型进行有监督微调训练,得到第二生成式大模型;基于相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;利用第二训练集对预训练好的第三生成式大模型进行有监督训练,得到奖励模型;将第二生成式大模型,基于奖励模型返回的得分,以强化学习方式进行训练,得到目标生成式大模型。
[0007]第二方面,本公开实施例提出了一种生成式大模型训练装置,包括:第一训练集构建单元,被配置成基于用户输入语音与匹配的包含有接口调用指令的输出结果,构建第一训练集;其中,接口调用指令所调用的服务接口对应于用户输入语音表达出的功能使用意图;有监督微调训练单元,被配置成利用第一训练集对预训练好的第一生成式大模型进行有监督微调训练,得到第二生成式大模型;第二训练集构建单元,被配置成基于相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;奖励模型训练单元,被配置成利用第二训练集对预训练好的第三生成式大模型进行有监督训练,得到奖励模型;强化学习训练单元,被配置成将第二生成式大模型,基于奖励模型返回的得分,以强化学习方式进行训练,得到目标生成式大模型。
[0008]第三方面,本公开实施例提出了一种基于生成式大模型的人机语音交互方法,包括:获取用户以语音形式发出的用户输入语音;将用户输入语音作为输入数据输入目标生成式大模型;其中,目标生成式大模型根据如上述第一方面描述的生成式大模型训练方法得到;接收目标生成式大模型返回的输出文本;其中,输出文本基于执行接口调用指令后得到的响应信息生成得到;将输出文本转换为语音形式的机器答复语音。
[0009]第四方面,本公开实施例提出了一种基于生成式大模型的人机语音交互装置,包括:用户输入语音获取单元,被配置成获取用户以语音形式发出的用户输入语音;模型调用单元,被配置成将用户输入语音作为输入数据输入预设的目标生成式大模型;其中,目标生成式大模型根据如第二方面描述的生成式大模型训练装置得到;输出文本接收单元,被配置成接收目标生成式大模型返回的输出文本;其中,输出文本基于执行接口调用指令后得到的响应信息生成得到;机器答复语音生成单元,被配置成将输出文本转换为语音形式的机器答复语音。
[0010]第五方面,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面描述的生成式大模型训练方法或如第三方面描述的基于生成式大模型的人机语音交互方法。
[0011]第六方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面描述的生成式大模型训练方法或如第三方面描述的基于生成式大模型的人机语音交互方法。
[0012]第七方面,本公开实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面描述的生成式大模型训练方法的步骤或如第三方面描述的基于生成式大模型的人机语音交互方法的步骤。
[0013]本公开实施例提供的生成式大模型训练方案,由于第一训练集是由用户输入语音与表达相应功能使用意图的包含有接口调用指令的输出结果构建得到,使得通过第一训练集对预训练好的第一生成式大模型进行有监督微调训练,进而使得训练得到的第二生成式大模型具有将用户输入语音改写为匹配的包含有接口调用指令的输出结果的能力,而在由相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合所构建的第二训练集对预训练好的第三生成式大模型进行有监督训练,进而使得训练得到的奖励模型拥有为生成式大模型针对用户输入语音所生成的不同候选进行质量评分的能力,进而使得在基于人类反馈的强化学习的训练下,所最终得到的目标生成式大模型不仅具有将用户输入语音改写为匹配的包含有接口调用指令的输出结果的能力,还具有输出更符合用户需求的结果的能力。即通过上述训练方案使得经训练得到的目标生成式大模型具有了深度理解用户需求并自行构建相应接口调用指令进行查询得到返回的准确答案的能力,能够不单单依据自然语言输入和大模型参数中蕴含的知识生成自然语言输出,而是借助提供专业能力的应用程序接口调用相应的功能,以更切实的解决用户需求,且在奖励模型的作用下还将使得返回的结果更加符合用户的实际需求和预期。
[0014]在上述实施例提供的生成式大模型训练方案的有益效果基础上,本公开实施例提供的基于生成式大模型的人机语音交互方案,则是具体针对由语音助手充当执行主体的场
景下,将按上述训练方案训练得到的目标生成式大模型应用于人机语音交互场景,语音助手在将用户输入语音输入目标生成式大模型后,借助目标生成式大模型所具有的能力生成相应的结果,并在遇到需要调用服务接口的地方则自动生成接口调用指令并进行执行以获得返回的调用结果,并将基于已生成的回复文本和调用结果生成出的输出文本返回语音助手,使得语音助手再将其转换为机器答复语音返回用户完成人机语音交互,提升了人机语音交互体验。
[0015]应当理解,本部分所描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成式大模型训练方法,包括:基于用户输入语音与匹配的包含有接口调用指令的输出结果,构建第一训练集;其中,所述接口调用指令所调用的服务接口对应于所述用户输入语音表达出的功能使用意图;利用所述第一训练集对预训练好的第一生成式大模型进行有监督微调训练,得到第二生成式大模型;基于相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;利用第二训练集对预训练好的第三生成式大模型进行有监督训练,得到奖励模型;将所述第二生成式大模型,基于所述奖励模型返回的得分,以强化学习方式进行训练,得到目标生成式大模型。2.根据权利要求1所述的方法,其中,所述基于用户输入语音与匹配的包含有接口调用指令的输出结果,构建第一训练集,包括:获取人机对话序列,并确定所述人机对话序列中对用户输入语音做出成功响应的有效机器答复;根据生成所述有效机器答复时所调用的功能,确定匹配的接口调用指令;将所述有效机器答复中可通过执行所述接口调用指令返回得到的部分或全部答复,替换为相应的接口调用指令,得到所述输出结果;基于由所述用户输入语音与匹配的输出结果构成的样本对,构建所述第一训练集。3.根据权利要求2所述的方法,其中,所述基于由所述用户输入语音与匹配的输出结果构成的样本对,构建所述第一训练集,包括:根据所述用户输入语音和匹配的输出结果生成新人机对话序列;将所述新人机对话序列中的首项用户输入语音和首项输出结果作为起始样本对;将所述新人机对话序列中位于非首项输出结果前的所有对话内容和所述非首项输出结果作为非起始样本对;基于包含所述起始样本对和所述非起始样本,构建所述第一训练集。4.根据权利要求1所述的方法,其中,在有监督微调的训练方式下,对所述第一生成式大模型中未出现的代表服务接口的新语言单元,按照已有语言单元的特征的多元正态分布对所述新语言单元的特征进行参数采样的初始化。5.根据权利要求1

4任一项所述的方法,其中,所述基于相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集,包括:从检索日志中获取检索词;从检索日志中确认对相同所述检索词返回过的所有检索结果,并确定每个所述检索结果在一个时间窗口内的累计点击次数;将相同检索词分别与各检索结果生成多个样本对,并根据不同检索结果分别对应的累计点击次数的大小,确定相应的不同样本对之间的排序信息;基于按所述排序信息进行用户偏好排序的各样本对和记录有输入文本与相应的包含接口调用指令的输出文本之间对应关系的各预设模板,构建第二训练集;其中,所述预设模板集合由各所述预设模板构成。6.一种基于生成式大模型的人机语音交互方法,包括:
获取用户以语音形式发出的用户输入语音;将所述用户输入语音作为输入数据输入目标生成式大模型;其中,所述目标生成式大模型基于权利要求1

5任一项所述的生成式大模型训练方法得到;接收所述目标生成式大模型返回的输出文本;其中,所述输出文本基于执行接口调用指令后得到的响应信息生成得到;将所述输出文本转换为语音形式的机器答复语音。7.根据权利要求6所述的方法,还包括:将所述输出文本调整为表达相同含义的不同表述方式。8.根据权利要求7所述的方法,其中,所述将所述输出文本调整为表达相同含义的不同表述方式,包括:将所述输出文本调整为表达相同含义的随机一种表述方式。9.根据权利要求7所述的方法,其中,所述将所述输出文本调整为表达相同含义的不同表述方式,包括:将所述输出文本调整为表达相同含义的、与所述用户输入文本所具有的相同表述方式。10.根据权利要求6

9任一项所述的方法,其中,对所述用户输入语音返回所述机器答复语音的语音助手包括:来自地图应用的地图语音助手、来自导航应用的导航语音助手、来自智能终端设备的家居语音助手。11.一种生成式大模型训练装置,包括:第一训练集构建单元,被配置成基于用户输入语音与匹配的包含有接口调用指令的输出结果,构建第一训练集;其中,所述接口调用指令所调用的服务接口对应于所述用户输入语音表达出的功能使用意图;有监督微调训练单元,被配置成利用所述第一训练集对预训练好的第一生成式大模型进行有监督微调训练,得到第二生成式大模型;第二训练集构建单元,被配置成基于相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;奖励模型训练单元,被配置成利用第二训练集对预训练好的第三生成式大模型进行有监督训练,得到奖励模型;强化学习训练单元,被配置成将所述第二生成式大模型,基于所述奖励模...

【专利技术属性】
技术研发人员:黄际洲孙一博
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1