对话模型的训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:39411995 阅读:8 留言:0更新日期:2023-11-19 16:03
本申请公开了对话模型的训练方法、装置、电子设备和存储介质,涉及人工智能领域,尤其涉及自然语言处理、深度学习等领域,可以应用于大语言模型的微调。具体实现方案为:获取训练样本,其中,训练样本中包括至少一个任务的对话样本;将训练样本输入初始对话模型,以获取初始对话模型输出的预测回复语句;根据预测回复语句与对话样本中的参考回复语句之间的差异,对初始对话模型进行训练,得到对话模型。由此,利用包括不同任务对话样本的训练样本对初始对话模型进行训练,可以使对话模型学习多任务知识,从而可以避免用户与对话模型多轮交互后,出现回复质量下降问题。出现回复质量下降问题。出现回复质量下降问题。

【技术实现步骤摘要】
对话模型的训练方法、装置、电子设备和存储介质


[0001]本申请涉及人工智能领域,尤其涉及自然语言处理、深度学习等领域,具体涉及对话模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]随着自然语言领域发展走向超大规模模型时代,通过超强算力在海量文本数据上训练超大参数量模型可以使得产出的大语言模型具有多任务、少样本学习的通用语义理解与生成能力。为了使得预训练后的大模型生成符合人类需求的内容,可以对大语言模型进行微调。

技术实现思路

[0003]本申请提供了一种对话模型的训练方法、装置、电子设备和存储介质。具体方案如下:
[0004]根据本申请的一方面,提供了一种对话模型的训练方法,包括:
[0005]获取训练样本,其中,训练样本中包括至少一个任务的对话样本;
[0006]将训练样本输入初始对话模型,以获取初始对话模型输出的预测回复语句;
[0007]根据预测回复语句与对话样本中的参考回复语句之间的差异,对初始对话模型进行训练,得到对话模型。
[0008]根据本申请的另一方面,提供了一种对话生成方法,包括:
[0009]获取输入语句;
[0010]将输入语句输入到对话模型,以获取对话模型输出的回复语句,其中,对话模型是采用如一方面实施例的方法训练得到的。
[0011]根据本申请的一方面,提供了一种对话模型的训练装置,包括:
[0012]第一获取模块,用于获取训练样本,其中,训练样本中包括至少一个任务的对话样本;
[0013]第二获取模块,用于将训练样本输入初始对话模型,以获取初始对话模型输出的预测回复语句;
[0014]训练模块,用于根据预测回复语句与对话样本中的参考回复语句之间的差异,对初始对话模型进行训练,得到对话模型。
[0015]根据本申请的另一方面,提供了一种对话生成装置,包括:
[0016]第一获取模块,用于获取输入语句;
[0017]第二获取模块,用于将输入语句输入到对话模型,以获取对话模型输出的回复语句,其中,对话模型是采用如上述一方面实施例的方法训练得到的。
[0018]根据本申请的另一方面,提供了一种电子设备,包括:
[0019]至少一个处理器;以及
[0020]与所述至少一个处理器通信连接的存储器;其中,
[0021]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例所述的方法。
[0022]根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述实施例所述的方法。
[0023]根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述实施例所述方法的步骤。
[0024]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0025]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0026]图1为本申请一实施例提供的对话模型的训练方法的流程示意图;
[0027]图2为本申请另一实施例提供的对话模型的训练方法的流程示意图;
[0028]图3为本申请另一实施例提供的对话模型的训练方法的流程示意图;
[0029]图4为本申请另一实施例提供的对话模型的训练方法的流程示意图;
[0030]图5为本申请一实施例提供的构建训练样本的示意图;
[0031]图6为本申请一实施例提供的对话生成方法的流程示意图;
[0032]图7为本申请一实施例提供的对话模型的训练装置的结构示意图;
[0033]图8为本申请一实施例提供的对话生成装置的结构示意图;
[0034]图9是用来实现本申请实施例的对话模型的训练方法的电子设备的框图。
具体实施方式
[0035]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0036]下面参考附图描述本申请实施例的对话模型的训练方法、装置、电子设备和存储介质。
[0037]人工智能是研究使用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的
也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术包括计算机视觉技术、语音识别技术、自然语言处理技术以及深度学习、大数据处理技术、知识图谱技术等几大方向。
[0038]自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,NLP研究的内容包括但不限于如下分支领域:文本分类、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析(词法、句法、语法等)、语音识别与合成等。
[0039]深度学习是机器学习领域中一个新的研究方向。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很
大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据
[0040]图1为本申请一实施例提供的对话模型的训练方法的流程示意图。
[0041]本申请实施例的对话模型的训练方法,可以由本申请实施例的对话模型的训练装置执行,该装置可以配置于电子设备中,通过利用包括不同任务对话样本的训练样本对初始对话模型进行训练,可以使对话模型学习多任务知识,从而可以避免用户与对话模型多轮交互后,出现回复质量下降问题。
[0042]其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
[0043]如图1所示,该对话模型的训练方法包括:
[0044]步骤101,获取训练样本。
[0045]本申请中,可以获取多个训练样本,每个训练样本可以包括一个任务的对话样本或多个任务的对话样本。其中,一个对话样本可以包括一轮对话或多轮对话,训练样本可以包括一轮对话或多轮对话。
[0046]比如,某训练样本包括两个对话样本,两个对话样本的任务不同,一个对话样本包括一轮对话,另一个对话样本包括两轮对话,那么该训练样本包括三轮对话。
[0047]在一些实施例中,获取的多个训练样本中存在包括多个任务的对话样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话模型的训练方法,包括:获取训练样本,其中,所述训练样本中包括至少一个任务的对话样本;将所述训练样本输入初始对话模型,以获取所述初始对话模型输出的预测回复语句;根据所述预测回复语句与所述对话样本中的参考回复语句之间的差异,对所述初始对话模型进行训练,得到对话模型。2.如权利要求1所述的方法,其中,所述获取训练样本,包括:对M个不同任务的对话样本集进行采样,得到第i个对话样本,其中,M为大于1的整数,i为正整数;在采样的i个对话样本满足预设条件的情况下,根据所述i个对话样本,获取所述训练样本;在所述i个对话样本未满足所述预设条件的情况下,继续对所述M个对话样本集进行采样。3.如权利要求2所述的方法,其中,所述M个不同任务的对话样本集中至少一个对话样本集中的对话样本携带有参考知识,所述采样的i个对话样本满足预设条件,包括以下至少一项:所述第i个对话样本携带有参考知识;第1个到i

1个对话样本中的对话与所述第i个对话样本的总长度达到预设长度。4.如权利要求2所述的方法,其中,所述根据所述i个对话样本,获取所述训练样本,包括:将第1个到第i

1个对话样本中的对话与所述第i个对话样本进行拼接,得到所述训练样本。5.如权利要求4所述的方法,其中,所述将第1个到第i

1个对话样本中的对话与所述第i个对话样本进行拼接,得到所述训练样本,包括:在所述第i个对话样本携带有参考知识的情况下,将第1个到第i个对话样本中的对话进行拼接,得到中间样本;将所述第i个样本携带的参考知识与所述中间样本进行拼接,得到所述训练样本。6.如权利要求5所述的方法,其中,所述将第1个到第i个对话样本中的对话进行拼接,得到中间样本,包括:将所述第1个到第i个对话样本中的对话按照拼接规则拼接,得到所述中间样本。7.如权利要求2所述的方法,其中,所述对M个不同任务的对话样本集进行采样,得到第i个对话样本,包括:根据每个所述对话样本集的采样概率,对所述M个不同任务的对话样本集进行采样,得到所述第i个对话样本。8.如权利要求7所述的方法,还包括:获取每个任务的对话样本集的属性信息;根据每个所述对话样本集的属性信息,确定每个所述对话样本集的采样概率。9.如权利要求7所述的方法,还包括:根据所述M的取值,确定每个所述对话样本集的采样概率。10.如权利要求1所述的方法,其中,所述根据所述预测回复语句与所述对话样本中的
参考回复语句之间的差异,对所述初始对话模型进行训练,得到对话模型,包括:在所述训练样本包含参考知识的情况下,根据所述预测回复语句与所述参考知识对应的参考回复语句之间的差异,确定第一模型损失;根据所述第一模型损失,对所述初始对话模型进行训练,得到所述对话模型。11.如权利要求1所述的方法,其中,所述根据所述预测回复语句与所述对话样本中的参考回复语句之间的差异,对所述初始对话模型进行训练,得到对话模型,包括:在所述训练样本未包含参考知识的情况下,根据每轮对话对应的预测回复语句与所述训练样本中每轮对话中的参考回复语句之间的差异,确定每轮对话对应的子损失;根据每轮对话对应的子损失,确定第二模型损失;根据所述第二模型损失,对所述初始对话模型进行训练,得到所述对话模型。12.如权利要求1所述的方法,其中,所述将所述训练样本输入初始对话模型,以获取所述初始对话模型输出的预测回复语句,包括:在所述训练样本包含参考知识的情况下,利用所述初始对话模型对所述参考知识、所述训练样本中前N

1轮对话及第N轮对话中的输入语句进行编码,得到编码特征,N为所述训练样本包括的对话轮次,N为正整数;对所述编码特征进行解码,得到所述预测回复语句。13.如权利要求1所述的方法,其中,所述将所述训练样本输入初始对话模型,以获取所述初始对话模型输出的预测回复语句,包括:在所述训练样本未包含参考知识的情况下,利用所述初始对话模型对所述训练样本中第j

1轮对话及第j轮对话中的输入语句进行编码,得到所述第j轮对话对应的编码特征,其中,j为小于或等于N的正整数,N为所述训练样本包括的对话轮次,N为正整数;对所述第j轮对话对应的编码特征进行解码,得到所述第j轮对话对应的预测回复语句。14.一种对话生成方法,包括:获取输入语句;将所述输入语句输入到对话模型,以获取所述对话模型输出的回复语句,其中,所述对话模型是采用如权利要求1

13中任一项所述的方法训练得到的。15.一种对话模型的训练装置,包括:第一获取模块,用于获取训练样本,其中,所述训练样本中包括至少一个任务的对话样本;第二获取模块,用于将所述训练样本输入初始对话模型,以获...

【专利技术属性】
技术研发人员:尚骏远王硕寰丁思宇赵晏彬朱鹏飞柴业坤孙宇吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1