【技术实现步骤摘要】
生成式大语言模型训练方法、基于模型的人机语音交互方法
[0001]本公开涉及数据处理领域,具体涉及生成式模型、智能语音、人机交互等人工智能
,尤其涉及一种生成式大语言模型训练和基于生成式大语言模型的人机语音交互方法,以及以对应的装置、电子设备、计算机可读存储介质及计算机程序产品。
技术介绍
[0002]大型语言模型(LLM,Large Language Model,其本质是生成式模型),如ChatGPT(Chat Generative Pre
‑
trained Transformer,是OpenAI机构研发的聊天机器人程序),能够为许多下游任务(例如面向任务的对话和问题解答)生成类似人类的流畅响应。
[0003]然而,将LLM应用于现实世界中的任务解决型应用仍然具有挑战性,主要原因是它们可能会产生与实际不符的回复,以及无法使用外部知识作为参考进行回复的生成。
[0004]例如,对于“A市现在天气如何”、“B货币兑C货币汇率”以及“从C位置到D位置需要多久”等问题,在回答时都需要实时的信息,而这些实时信息(例如实时时间、实时汇率、实时路况和实时交通信息等)根本无法单纯依靠LLM参数中蕴含的知识来生成,均需要依赖于外部的知识才能生成出准确的结果。
技术实现思路
[0005]本公开实施例提出了一种生成式大语言模型训练方法和基于生成式大语言模型的人机语音交互方法,以及与方法配套的装置、电子设备、计算机可读存储介质及计算机程序产品。
[0006]第一方面,本公开实 ...
【技术保护点】
【技术特征摘要】
1.一种生成式大语言模型训练方法,包括:基于用户输入文本与匹配的服务接口调用序列,构建第一训练集;其中,所述用户输入文本由用户输入语音转换得到,构成所述服务接口调用序列的服务接口对应于所述用户输入文本表达出的功能使用意图;利用所述第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练,得到第二生成式大语言模型;基于相同用户输入文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练,得到奖励模型;将所述第二生成式大语言模型,基于所述奖励模型返回的得分,以强化学习方式进行训练,得到目标生成式大语言模型。2.根据权利要求1所述的方法,其中,所述基于用户输入文本与匹配的服务接口调用序列,构建第一训练集,包括:获取用户以语音形式发出的用户输入语音,并将所述用户输入语音转换为所述用户输入文本,且确定所述用户输入文本所表达的功能使用意图;根据所述功能使用意图确定用于实现相应意图的目标服务接口和具体接口参数;根据所述目标服务接口和所述具体接口参数,构建得到所述服务接口调用序列;基于由所述用户输入文本与匹配的服务接口调用序列构成的样本对,构建所述第一训练集。3.根据权利要求2所述的方法,其中,所述根据所述功能使用意图确定用于实现相应意图的目标服务接口和具体接口参数,包括:响应于所述用户输入文本的表达中包含有至少两个所述功能使用意图,分别确定与每个所述功能使用意图对应的目标服务接口和具体接口参数;所述根据所述目标服务接口和所述具体接口参数,构建得到所述服务接口调用序列,包括:根据与每个所述功能使用意图对应的目标服务接口和具体接口参数,生成相应的接口调用指令;根据不同的功能使用意图之间的执行依赖关系,确定不同的接口调用指令的执行顺序;按所述执行顺序组织不同的接口调用指令,得到所述服务接口调用序列。4.根据权利要求1所述的方法,其中,在有监督微调的训练方式下,对所述第一生成式大语言模型中未出现的代表服务接口的新语言单元,按照已有语言单元的特征的多元正态分布对所述新语言单元的特征进行参数采样的初始化。5.根据权利要求1
‑
4任一项所述的方法,其中,所述基于相同用户输入文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集,包括:从检索日志中获取检索词;从检索日志中确认对相同所述检索词返回过的所有检索结果,并确定每个所述检索结果在一个时间窗口内的累计点击次数;
将相同检索词分别与各检索结果生成多个样本对,并根据不同检索结果分别对应的累计点击次数的大小,确定相应的不同样本对之间的排序信息;基于按所述排序信息进行用户偏好排序的各样本对和记录有输入文本与相应的接口调用指令之间对应关系的各预设模板,共同构建第二训练集;其中,所述预设模板集合由各所述预设模板构成。6.一种基于生成式大语言模型的人机语音交互方法,包括:获取用户以语音形式发出的用户输入语音;将所述用户输入语音对应的用户输入文本作为输入数据输入目标生成式大语言模型;其中,所述目标生成式大语言模型基于权利要求1
‑
5任一项所述的生成式大语言模型训练方法得到;执行所述目标生成式大语言模型输出的接口调用序列,得到输出文本;将所述输出文本转换为语音形式的机器答复语音。7.根据权利要求6所述的方法,其中,所述执行所述目标生成式大语言模型输出的接口调用序列,包括:确定所述目标生成式大语言模型输出的服务接口调用序列中包含的各接口调用指令和不同接口调用指令之间的执行顺序;按所述执行顺序依次执行相应的接口调用指令。8.根据权利要求6所述的方法,还包括:将所述输出文本调整为表达相同含义的不同表述方式。9.根据权利要求8所述的方法,其中,所述将所述输出文本调整为表达相同含义的不同表述方式,包括:将所述输出文本调整为表达相同含义的随机一种表述方式。10.根据权利要求8所述的方法,其中,所述将所述输出文本调整为表达相同含义的不同表述方式,包括:将所述输出文本调整为表达相同含义的、与所述用户输入文本所具有的相同表述方式。11.根据权利要求6
‑
10任一项所述的方法,其中,对所述用户输入语音返回所述机器答复语音的语音助手包括:来自地图应用的地图语音助手、来自移动应用程序的语音助手、来自智能终端设备的家居语音助手。12.一种生成式大语言模型训练装置,包括:第一训练集构建单元,被配置成基于用户输入文本与匹配的服务接口调用序列,构建第一训练集;其中,所述用户输入文本由用户输入语音转换得到,构成所述服务接口调用序列的服务接口对应于所述用户输入文本表达出的功能使用意图;有监督微调训练单元,被配置成利用所述第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练,得到第二生成式大语言模型;第二训练集构建单元,被配置成基于相同用户输入文本与不同候选输出之间的用户偏好排序和预设模板集合,构建第二训练集;奖励模型训练单元,被配置成利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练,得到奖励模型;...
【专利技术属性】
技术研发人员:黄际洲,孙一博,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。