模型训练、对话处理方法、装置、设备及存储介质制造方法及图纸

技术编号:35098068 阅读:36 留言:0更新日期:2022-10-01 17:02
本公开涉及一种模型训练、对话处理方法、装置、设备及存储介质。本公开通过在对话预训练语言模型的训练过程中,就引入对话特有的信息例如轮次和角色,使得训练后得到的对话向量表示模型可以有效建模对话中特有的多角色之间的信息交互。因此,当采用对话向量表示模型生成目标对话数据对应的表示向量时,可以提高该表示向量的精准度,使得该表示向量可以取得良好的对话表示效果。良好的对话表示效果。良好的对话表示效果。

【技术实现步骤摘要】
模型训练、对话处理方法、装置、设备及存储介质


[0001]本公开涉及信息
,尤其涉及一种模型训练、对话处理方法、装置、设备及存储介质。

技术介绍

[0002]随着科技的不断发展,智能问答系统的应用越来越广泛,并且在一次智能问答过程中,会生成一通对话。在一些应用场景中,需要将每一通对话用一个向量来表示。
[0003]但是,本申请的专利技术人发现,现有技术中无法精准的将一通对话转换为一个表示向量,从而导致需要应用到该表示向量的下游应用无法精准的实现其相应的功能。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种模型训练、对话处理方法、装置、设备及存储介质,以提高对话数据的表示向量的精准度,使得该表示向量可以取得良好的对话表示效果。
[0005]第一方面,本公开实施例提供一种模型训练方法,包括:
[0006]根据第一对话数据,生成第二对话数据,所述第一对话数据中至少一个角色的对话文本与所述第二对话数据中所述至少一个角色的对话文本不同;
[0007]根据所述第一对话数据中的每个对话文本、以及所述第一对话数据中的每个对话文本分别对应的轮次和角色,确定对话预训练语言模型的第一输入信息,根据所述第二对话数据中的每个对话文本、以及所述第二对话数据中的每个对话文本分别对应的轮次和角色,确定所述对话预训练语言模型的第二输入信息,所述对话预训练语言模型用于根据所述第一输入信息得到第一输出信息、根据所述第二输入信息得到第二输出信息;
[0008]根据所述第一输出信息计算所述第一对话数据中不同角色间的第一表示距离,根据所述第二输出信息计算所述第二对话数据中不同角色间的第二表示距离;
[0009]通过最小化所述第一表示距离且最大化所述第二表示距离,对所述对话预训练语言模型进行训练,得到对话向量表示模型,所述对话向量表示模型用于生成目标对话数据对应的表示向量。
[0010]第二方面,本公开实施例提供一种对话处理方法,包括:
[0011]获取目标对话数据;
[0012]根据所述目标对话数据中的每个对话文本、以及所述目标对话数据中的每个对话文本分别对应的轮次和角色,确定对话向量表示模型的输入信息,所述对话向量表示模型用于根据所述输入信息输出所述目标对话数据中每个对话文本分别包括的文本单元的表示向量,所述对话向量表示模型是采用如上所述的模型训练方法训练得到的;
[0013]根据所述目标对话数据中每个对话文本分别包括的文本单元的表示向量,生成所述目标对话数据对应的表示向量。
[0014]第三方面,本公开实施例提供一种模型训练装置,包括:
[0015]生成模块,用于根据第一对话数据,生成第二对话数据,所述第一对话数据中至少一个角色的对话文本与所述第二对话数据中所述至少一个角色的对话文本不同;
[0016]确定模块,用于根据所述第一对话数据中的每个对话文本、以及所述第一对话数据中的每个对话文本分别对应的轮次和角色,确定对话预训练语言模型的第一输入信息,根据所述第二对话数据中的每个对话文本、以及所述第二对话数据中的每个对话文本分别对应的轮次和角色,确定所述对话预训练语言模型的第二输入信息,所述对话预训练语言模型用于根据所述第一输入信息得到第一输出信息、根据所述第二输入信息得到第二输出信息;
[0017]计算模块,用于根据所述第一输出信息计算所述第一对话数据中不同角色间的第一表示距离,根据所述第二输出信息计算所述第二对话数据中不同角色间的第二表示距离;
[0018]训练模块,用于通过最小化所述第一表示距离且最大化所述第二表示距离,对所述对话预训练语言模型进行训练,得到对话向量表示模型。
[0019]第四方面,本公开实施例提供一种对话处理装置,包括:
[0020]获取模块,用于获取目标对话数据;
[0021]确定模块,用于根据所述目标对话数据中的每个对话文本、以及所述目标对话数据中的每个对话文本分别对应的轮次和角色,确定对话向量表示模型的输入信息,所述对话向量表示模型用于根据所述输入信息输出所述目标对话数据中每个对话文本分别包括的文本单元的表示向量,所述对话向量表示模型是采用如上所述的模型训练方法得到的模型;
[0022]生成模块,用于根据所述目标对话数据中每个对话文本分别包括的文本单元的表示向量,生成所述目标对话数据对应的表示向量。
[0023]第五方面,本公开实施例提供一种电子设备,包括:
[0024]存储器;
[0025]处理器;以及
[0026]计算机程序;
[0027]其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面或第二方面所述的方法。
[0028]第六方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面或第二方面所述的方法。
[0029]本公开实施例提供的模型训练、对话处理方法、装置、设备及存储介质,通过作为正样本的第一对话数据,生成作为负样本的第二对话数据,并且根据第一对话数据中的每个对话文本、以及所述第一对话数据中的每个对话文本分别对应的轮次和角色,确定对话预训练语言模型的第一输入信息,根据第二对话数据中的每个对话文本、以及所述第二对话数据中的每个对话文本分别对应的轮次和角色,确定所述对话预训练语言模型的第二输入信息。使得所述对话预训练语言模型可以针对该第一输入信息得到第一输出信息,针对该第二输入信息得到第二输出信息。进一步,根据所述第一输出信息计算所述第一对话数据中不同角色间的第一表示距离,根据所述第二输出信息计算所述第二对话数据中不同角色间的第二表示距离。由于正样本中不同角色之间的对话文本在语义上更为连贯,而负样
本是将正样本中某一个角色的对话文本进行替换后的结果,因此,负样本中不同角色之间的对话文本在语义上可能会不够连贯。在这种情况下,通常会期望正样本中不同角色间的第一表示距离越小越好,并且期望负样本中不同角色间的第二表示距离越大越好,因此,可以通过最小化所述第一表示距离且最大化所述第二表示距离,对所述对话预训练语言模型进行训练,得到对话向量表示模型。也就是说,在对该对话预训练语言模型进行训练的过程中,就引入了对话特有的信息例如轮次和角色,使得训练后得到的对话向量表示模型可以有效建模对话中特有的多角色之间的信息交互。因此,当采用对话向量表示模型生成目标对话数据对应的表示向量时,可以提高该表示向量的精准度,使得该表示向量可以取得良好的对话表示效果。
附图说明
[0030]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0031]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其中,所述方法包括:根据第一对话数据,生成第二对话数据,所述第一对话数据中至少一个角色的对话文本与所述第二对话数据中所述至少一个角色的对话文本不同;根据所述第一对话数据中的每个对话文本、以及所述第一对话数据中的每个对话文本分别对应的轮次和角色,确定对话预训练语言模型的第一输入信息,根据所述第二对话数据中的每个对话文本、以及所述第二对话数据中的每个对话文本分别对应的轮次和角色,确定所述对话预训练语言模型的第二输入信息,所述对话预训练语言模型用于根据所述第一输入信息得到第一输出信息、根据所述第二输入信息得到第二输出信息;根据所述第一输出信息计算所述第一对话数据中不同角色间的第一表示距离,根据所述第二输出信息计算所述第二对话数据中不同角色间的第二表示距离;通过最小化所述第一表示距离且最大化所述第二表示距离,对所述对话预训练语言模型进行训练,得到对话向量表示模型,所述对话向量表示模型用于生成目标对话数据对应的表示向量。2.根据权利要求1所述的方法,其中,根据第一对话数据,生成第二对话数据,包括:从多个样本对话数据中分别获取不同角色的对话文本,构成每个角色对应的对话文本集合;固定所述第一对话数据中第一角色的对话文本,所述第一对话数据是所述多个样本对话数据中的任一样本对话数据;将所述第一对话数据中第二角色的对话文本替换为所述第二角色对应的对话文本集合中的对话文本,得到所述第二对话数据。3.根据权利要求1所述的方法,其中,根据所述第一对话数据中的每个对话文本、以及所述第一对话数据中的每个对话文本分别对应的轮次和角色,确定对话预训练语言模型的第一输入信息,包括:根据所述第一对话数据中的每个对话文本包括的文本单元、所述第一对话数据中的每个文本单元的位置信息、以及所述第一对话数据中的每个对话文本分别对应的轮次和角色,确定对话预训练语言模型的第一输入信息。4.根据权利要求1所述的方法,其中,根据所述第二对话数据中的每个对话文本、以及所述第二对话数据中的每个对话文本分别对应的轮次和角色,确定所述对话预训练语言模型的第二输入信息,包括:根据所述第二对话数据中的每个对话文本包括的文本单元、所述第二对话数据中的每个文本单元的位置信息、以及所述第二对话数据中的每个对话文本分别对应的轮次和角色,确定所述对话预训练语言模型的第二输入信息。5.根据权利要求1所述的方法,其中,所述第一输出信息包括所述第一对话数据中每个对话文本分别包括的文本单元的表示向量;根据所述第一输出信息计算所述第一对话数据中不同角色间的第一表示距离,包括:根据所述第一输出信息中第一角色对应的文本单元的表示向量生成第一集合,根据所述第一输出信息中第二角色对应的文本单元的表示向量生成第二集合;根据所述第一集合和所述第二集合,计算得到第一矩阵和第二矩阵,所述第一矩阵和所述第二矩阵互为转置矩阵;
根据所述第一矩阵对所述第一集合进行更新,得到更新后的第一集合,根据所述第二矩阵对所述第二集合进行更新,得到更新后的第二集合,所述第一对话数据中不同角色间的第一表示距离包括根据所述第一集合生成的向量和根据所述更新后的第一集合生成的向量之间的距离、以及根据所述第二集合生成的向量和根据所述更新后的第二集合生成的向量之间的距离。6.根据权利要求1所述的方法,其中,所述第二输出信息包括所述第二对话数据中每个对话文本分别包括的文本单元的表示向量;根据所述第二输出信息计算所述第二对话数据中不同角色间的第二表示距离,包括:根据所述第二输出信息中第一角色对应的文本单元的表示向量生成第三集合,根据所述第二输出信息中第二角色对应的文本单元的表示向量...

【专利技术属性】
技术研发人员:刘澈李永彬
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1