【技术实现步骤摘要】
生成式大模型训练方法、基于模型的人机语音交互方法
[0001]本公开涉及数据处理领域,具体涉及生成式模型、智能语音、人机交互等人工智能
,尤其涉及一种生成式大模型训练和基于生成式大模型的人机语音交互方法,以及以对应的装置、电子设备、计算机可读存储介质及计算机程序产品。
技术介绍
[0002]大型语言模型(LLM,Large Language Model,其本质是生成式模型,因此也可以被简称为:生成式大模型,本公开后续将统一此表述来指代此类模型),如ChatGPT(Chat Generative Pre
‑
trained Transformer,是OpenAI机构研发的聊天机器人程序),能够为许多下游任务(例如面向任务的对话和问题解答)生成类似人类的流畅响应。
[0003]然而,将LLM应用于现实世界中的任务解决型应用仍然具有挑战性,主要原因是它们可能会产生与实际不符的回复,以及无法使用外部知识作为参考进行回复的生成。
[0004]例如,对于“A市现在天气如何”、“B货币兑C货币汇率”以及“从C位置到D位置需要多久”等问题,在回答时都需要实时的信息,而这些实时信息(例如实时时间、实时汇率、实时路况和实时交通信息等)根本无法单纯依靠LLM参数中蕴含的知识来生成,均需要依赖于外部的知识才能生成出准确的结果。
技术实现思路
[0005]本公开实施例提出了一种生成式大模型训练方法和基于生成式大模型的人机语音交互方法,以及与方法配套的装置、电子设备、计算机可读存储介质及计算 ...
【技术保护点】
【技术特征摘要】
1.一种生成式大模型训练方法,包括:基于用户输入语音与匹配的包含有接口调用指令的输出结果,构建第一训练集;其中,所述接口调用指令所调用的服务接口对应于所述用户输入语音表达出的功能使用意图;利用所述第一训练集对预训练好的第一生成式大模型进行有监督微调训练,得到第二生成式大模型;基于相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;利用第二训练集对预训练好的第三生成式大模型进行有监督训练,得到奖励模型;将所述第二生成式大模型,基于所述奖励模型返回的得分,以强化学习方式进行训练,得到目标生成式大模型。2.根据权利要求1所述的方法,其中,所述基于用户输入语音与匹配的包含有接口调用指令的输出结果,构建第一训练集,包括:获取人机对话序列,并确定所述人机对话序列中对用户输入语音做出成功响应的有效机器答复;根据生成所述有效机器答复时所调用的功能,确定匹配的接口调用指令;将所述有效机器答复中可通过执行所述接口调用指令返回得到的部分或全部答复,替换为相应的接口调用指令,得到所述输出结果;基于由所述用户输入语音与匹配的输出结果构成的样本对,构建所述第一训练集。3.根据权利要求2所述的方法,其中,所述基于由所述用户输入语音与匹配的输出结果构成的样本对,构建所述第一训练集,包括:根据所述用户输入语音和匹配的输出结果生成新人机对话序列;将所述新人机对话序列中的首项用户输入语音和首项输出结果作为起始样本对;将所述新人机对话序列中位于非首项输出结果前的所有对话内容和所述非首项输出结果作为非起始样本对;基于包含所述起始样本对和所述非起始样本,构建所述第一训练集。4.根据权利要求1所述的方法,其中,在有监督微调的训练方式下,对所述第一生成式大模型中未出现的代表服务接口的新语言单元,按照已有语言单元的特征的多元正态分布对所述新语言单元的特征进行参数采样的初始化。5.根据权利要求1
‑
4任一项所述的方法,其中,所述基于相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集,包括:从检索日志中获取检索词;从检索日志中确认对相同所述检索词返回过的所有检索结果,并确定每个所述检索结果在一个时间窗口内的累计点击次数;将相同检索词分别与各检索结果生成多个样本对,并根据不同检索结果分别对应的累计点击次数的大小,确定相应的不同样本对之间的排序信息;基于按所述排序信息进行用户偏好排序的各样本对和记录有输入文本与相应的包含接口调用指令的输出文本之间对应关系的各预设模板,构建第二训练集;其中,所述预设模板集合由各所述预设模板构成。6.一种基于生成式大模型的人机语音交互方法,包括:
获取用户以语音形式发出的用户输入语音;将所述用户输入语音作为输入数据输入目标生成式大模型;其中,所述目标生成式大模型基于权利要求1
‑
5任一项所述的生成式大模型训练方法得到;接收所述目标生成式大模型返回的输出文本;其中,所述输出文本基于执行接口调用指令后得到的响应信息生成得到;将所述输出文本转换为语音形式的机器答复语音。7.根据权利要求6所述的方法,还包括:将所述输出文本调整为表达相同含义的不同表述方式。8.根据权利要求7所述的方法,其中,所述将所述输出文本调整为表达相同含义的不同表述方式,包括:将所述输出文本调整为表达相同含义的随机一种表述方式。9.根据权利要求7所述的方法,其中,所述将所述输出文本调整为表达相同含义的不同表述方式,包括:将所述输出文本调整为表达相同含义的、与所述用户输入文本所具有的相同表述方式。10.根据权利要求6
‑
9任一项所述的方法,其中,对所述用户输入语音返回所述机器答复语音的语音助手包括:来自地图应用的地图语音助手、来自导航应用的导航语音助手、来自智能终端设备的家居语音助手。11.一种生成式大模型训练装置,包括:第一训练集构建单元,被配置成基于用户输入语音与匹配的包含有接口调用指令的输出结果,构建第一训练集;其中,所述接口调用指令所调用的服务接口对应于所述用户输入语音表达出的功能使用意图;有监督微调训练单元,被配置成利用所述第一训练集对预训练好的第一生成式大模型进行有监督微调训练,得到第二生成式大模型;第二训练集构建单元,被配置成基于相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;奖励模型训练单元,被配置成利用第二训练集对预训练好的第三生成式大模型进行有监督训练,得到奖励模型;强化学习训练单元,被配置成将所述第二生成式大模型,基于所述奖励模...
【专利技术属性】
技术研发人员:黄际洲,孙一博,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。