模型训练、对话处理方法、装置、设备及存储介质制造方法及图纸

技术编号：35098068 阅读：36 留言：0更新日期：2022-10-01 17:02

本公开涉及一种模型训练、对话处理方法、装置、设备及存储介质。本公开通过在对话预训练语言模型的训练过程中，就引入对话特有的信息例如轮次和角色，使得训练后得到的对话向量表示模型可以有效建模对话中特有的多角色之间的信息交互。因此，当采用对话向量表示模型生成目标对话数据对应的表示向量时，可以提高该表示向量的精准度，使得该表示向量可以取得良好的对话表示效果。良好的对话表示效果。良好的对话表示效果。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练、对话处理方法、装置、设备及存储介质

[0001]本公开涉及信息
，尤其涉及一种模型训练、对话处理方法、装置、设备及存储介质。

技术介绍

[0002]随着科技的不断发展，智能问答系统的应用越来越广泛，并且在一次智能问答过程中，会生成一通对话。在一些应用场景中，需要将每一通对话用一个向量来表示。
[0003]但是，本申请的专利技术人发现，现有技术中无法精准的将一通对话转换为一个表示向量，从而导致需要应用到该表示向量的下游应用无法精准的实现其相应的功能。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种模型训练、对话处理方法、装置、设备及存储介质，以提高对话数据的表示向量的精准度，使得该表示向量可以取得良好的对话表示效果。
[0005]第一方面，本公开实施例提供一种模型训练方法，包括：
[0006]根据第一对话数据，生成第二对话数据，所述第一对话数据中至少一个角色的对话文本与所述第二对话数据中所述至少一个角色的对话文本不同；
[0007]根据所述第一对话数据中的每个对话文本、以及所述第一对话数据中的每个对话文本分别对应的轮次和角色，确定对话预训练语言模型的第一输入信息，根据所述第二对话数据中的每个对话文本、以及所述第二对话数据中的每个对话文本分别对应的轮次和角色，确定所述对话预训练语言模型的第二输入信息，所述对话预训练语言模型用于根据所述第一输入信息得到第一输出信息、根据所述第二输入信息得到第二输出信息；
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其中，所述方法包括：根据第一对话数据，生成第二对话数据，所述第一对话数据中至少一个角色的对话文本与所述第二对话数据中所述至少一个角色的对话文本不同；根据所述第一对话数据中的每个对话文本、以及所述第一对话数据中的每个对话文本分别对应的轮次和角色，确定对话预训练语言模型的第一输入信息，根据所述第二对话数据中的每个对话文本、以及所述第二对话数据中的每个对话文本分别对应的轮次和角色，确定所述对话预训练语言模型的第二输入信息，所述对话预训练语言模型用于根据所述第一输入信息得到第一输出信息、根据所述第二输入信息得到第二输出信息；根据所述第一输出信息计算所述第一对话数据中不同角色间的第一表示距离，根据所述第二输出信息计算所述第二对话数据中不同角色间的第二表示距离；通过最小化所述第一表示距离且最大化所述第二表示距离，对所述对话预训练语言模型进行训练，得到对话向量表示模型，所述对话向量表示模型用于生成目标对话数据对应的表示向量。2.根据权利要求1所述的方法，其中，根据第一对话数据，生成第二对话数据，包括：从多个样本对话数据中分别获取不同角色的对话文本，构成每个角色对应的对话文本集合；固定所述第一对话数据中第一角色的对话文本，所述第一对话数据是所述多个样本对话数据中的任一样本对话数据；将所述第一对话数据中第二角色的对话文本替换为所述第二角色对应的对话文本集合中的对话文本，得到所述第二对话数据。3.根据权利要求1所述的方法，其中，根据所述第一对话数据中的每个对话文本、以及所述第一对话数据中的每个对话文本分别对应的轮次和角色，确定对话预训练语言模型的第一输入信息，包括：根据所述第一对话数据中的每个对话文本包括的文本单元、所述第一对话数据中的每个文本单元的位置信息、以及所述第一对话数据中的每个对话文本分别对应的轮次和角色，确定对话预训练语言模型的第一输入信息。4.根据权利要求1所述的方法，其中，根据所述第二对话数据中的每个对话文本、以及所述第二对话数据中的每个对话文本分别对应的轮次和角色，确定所述对话预训练语言模型的第二输入信息，包括：根据所述第二对话数据中的每个对话文本包括的文本单元、所述第二对话数据中的每个文本单元的位置信息、以及所述第二对话数据中的每个对话文本分别对应的轮次和角色，确定所述对话预训练语言模型的第二输入信息。5.根据权利要求1所述的方法，其中，所述第一输出信息包括所述第一对话数据中每个对话文本分别包括的文本单元的表示向量；根据所述第一输出信息计算所述第一对话数据中不同角色间的第一表示距离，包括：根据所述第一输出信息中第一角色对应的文本单元的表示向量生成第一集合，根据所述第一输出信息中第二角色对应的文本单元的表示向量生成第二集合；根据所述第一集合和所述第二集合，计算得到第一矩阵和第二矩阵，所述第一矩阵和所述第二矩阵互为转置矩阵；
根据所述第一矩阵对所述第一集合进行更新，得到更新后的第一集合，根据所述第二矩阵对所述第二集合进行更新，得到更新后的第二集合，所述第一对话数据中不同角色间的第一表示距离包括根据所述第一集合生成的向量和根据所述更新后的第一集合生成的向量之间的距离、以及根据所述第二集合生成的向量和根据所述更新后的第二集合生成的向量之间的距离。6.根据权利要求1所述的方法，其中，所述第二输出信息包括所述第二对话数据中每个对话文本分别包括的文本单元的表示向量；根据所述第二输出信息计算所述第二对话数据中不同角色间的第二表示距离，包括：根据所述第二输出信息中第一角色对应的文本单元的表示向量生成第三集合，根据所述第二输出信息中第二角色对应的文本单元的表示向量...

【专利技术属性】
技术研发人员：刘澈，李永彬，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人