对话模型训练方法、对话处理方法及装置制造方法及图纸

技术编号：41205532 阅读：4 留言：0更新日期：2024-05-07 22:31

本申请提供了一种对话模型训练方法、对话处理方法及装置；对话模型训练方法包括：对预训练对话模型中的预训练权重矩阵进行矩阵分解，得到预训练权重矩阵的分解矩阵；基于分解矩阵的行数和列数，确定预训练权重矩阵的矩阵秩；基于矩阵秩，构建预训练对话模型在目标对话任务下的多个分支权重矩阵；采用目标对话任务所属领域的样本问答对，对多个分支权重矩阵进行训练，得到训练后的分支权重矩阵，并基于预训练权重矩阵和训练后的分支权重矩阵确定训练后的对话模型的权重参数，得到训练后的对话模型。通过本申请，保留了预训练对话模型的有效特征，能够有效减轻模型的灾难性遗忘问题，提高对话模型的推理准确性以及对话识别效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种对话模型训练方法、对话处理方法及装置。

技术介绍

1、基于大型语言模型(large language model，llm)开发的人工智能(artificialintelligence，ai)聊天机器人chatgpt的出现，引发了大型语言模型的时代变革。但是，科研人员或开发者难以对大型语言模型进行预训练或者全量微调。由此，各种参数高效微调技术应运而生。相关技术中，高效微调方法可以分为三大类：1)增加额外参数；2)选取部分参数更新；3)引入重参数化。

技术实现思路

1、本申请实施例提供一种对话模型训练方法、对话处理方法及装置，能够有效减轻模型的灾难性遗忘问题，从而提高对话模型的推理性能和对话识别效果。

2、本申请实施例的技术方案是这样实现的：

3、本申请实施例提供一种对话模型训练方法，所述方法包括：

4、对预训练对话模型中的预训练权重矩阵进行矩阵分解，得到所述预训练权重矩阵的分解矩阵；基于所述分解矩阵的行数和列数，确定所述预训练权重矩阵的矩阵秩；基于所述矩阵秩，构建所述预训练对话模型在目标对话任务下的多个分支权重矩阵；其中，对所述多个分支权重矩阵进行矩阵乘积运算后的乘积矩阵的行数等于所述预训练权重矩阵的行数，且所述乘积矩阵的列数等于所述预训练权重矩阵的列数；采用所述目标对话任务所属领域的样本问答对，对所述多个分支权重矩阵进行训练，得到训练后的分支权重矩阵，并基于所述预训练权重矩阵和所述训练后的分支权重矩阵确定训练后的对

5、本申请实施例还提供一种对话处理方法，所述方法包括：获取待处理问题；将所述待处理问题输入至训练后的对话模型，得到所述待处理问题的答案；所述训练后的对话模型根据上述任一实施例所述的对话模型训练方法训练得到；输出所述待处理问题的答案。

6、本申请实施例提供一种电子设备，所述电子设备包括：

7、存储器，用于存储计算机可执行指令；

8、处理器，用于执行所述存储器中存储的计算机可执行指令时，实现本申请实施例提供的对话模型训练方法会或对话处理方法。

9、本申请实施例提供一种计算机可读存储介质，存储有计算机程序或计算机可执行指令，用于被处理器执行时实现本申请实施例提供的对话模型训练方法或对话处理方法。

10、本申请实施例具有以下有益效果：

11、一方面，首先选择预训练对话模型，然后确定目标对话任务，在对预训练对话模型进行训练时，在预训练对话模型中基于预训练权重矩阵的矩阵秩构建额外的多个分支权重矩阵，采用目标对话任务所属领域的样本问答对，对分支权重矩阵进行训练，得到训练后的分支权重矩阵，再基于预训练对话模型中原本的预训练权重矩阵和训练后的分支权重矩阵得到训练后的对话模型。因此，在模型训练阶段，由矩阵秩的数学定义可知，矩阵秩表示预训练权重矩阵的有效空间维度，即有效特征的维度。预训练权重矩阵可能存在无效的冗余信息，训练后的分支权重矩阵叠加至预训练权重矩阵后，改变了原本无效的参数部分，使得训练后的对话模型掌握了目标对话任务所属领域的知识。同时，可以尽可能地保留预训练权重矩阵中的有效特征，减少了目标对话任务对预训练权重矩阵的影响，即训练后的对话模型依然保存了初始的通用知识能力。因此，本申请实施例有效减轻了灾难性遗忘问题，进而提高对话模型在新知识领域和旧知识领域上的推理性能，提高了对话识别效果。

12、另一方面，在采用样本问答对对预训练对话模型进行训练之前，就将预训练对话模型中的预训练权重矩阵进行矩阵分解，得到分解矩阵，并基于分解矩阵的行数和列数确定矩阵秩，没有增加模型的训练时间。因此，对预训练对话模型的任一预训练权重矩阵，实现了基于预训练权重矩阵的分解结果动态确定矩阵秩，并根据矩阵秩构建相应的多个分支权重矩阵，避免了需要通过消融实验才能确定分支权重矩阵的最佳矩阵秩所消耗的资源和时间。在模型推理阶段，直接基于训练后的对话模型的权重参数进行模型运算即可，也并未增加任何额外的推理时间，因此，提高了模型的训练和推理效率，即提高了对话识别效率。

本文档来自技高网...

【技术保护点】

1.一种对话模型训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述预训练权重矩阵的行数和列数相等，所述预训练权重矩阵的维数等于所述行数；

3.根据权利要求2所述的方法，其特征在于，所述多个预构建权重矩阵包括第一预构建权重矩阵、第二预构建权重矩阵以及第三预构建权重矩阵；所述第一预构建权重矩阵的行数等于所述瓶颈秩，且所述第一预构建权重矩阵的列数等于所述预训练权重矩阵的维数；所述第二预构建权重矩阵的行数和列数均等于所述瓶颈秩；所述第三预构建权重矩阵的行数等于所述预训练权重矩阵的维数，且所述第三预构建权重矩阵的列数等于所述瓶颈秩；

4.如权利要求3所述的方法，其特征在于，训练后的分支权重矩阵包括：训练后的第一分支权重矩阵、训练后的第二分支权重矩阵、训练后的第三分支权重矩阵；

5.如权利要求1所述的方法，其特征在于，所述对预训练对话模型中的预训练权重矩阵进行矩阵分解，得到所述预训练权重矩阵的分解矩阵，包括：

6.如权利要求5所述的方法，其特征在于，所述分解矩阵包括第一分解矩阵、第二分解矩阵和第三分解矩阵；

7.如权利要求1至6任一项所述的方法，其特征在于，所述样本问答对包括样本问题和所述样本问题对应的样本答案，所述采用所述目标对话任务所属领域的样本问答对，对所述多个分支权重矩阵进行训练，得到训练后的分支权重矩阵，包括：

8.一种对话处理方法，其特征在于，所述方法包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，其特征在于，所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至7任一项所述的对话模型训练方法或权8所述的对话处理方法。

...

【技术特征摘要】

1.一种对话模型训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述预训练权重矩阵的行数和列数相等，所述预训练权重矩阵的维数等于所述行数；

5.如权利要求1所述的方法，...

【专利技术属性】
技术研发人员：杨雪姣，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人