模型训练方法、装置及存储介质制造方法及图纸

技术编号：40065864 阅读：8 留言：0更新日期：2024-01-16 23:24

本申请提供一种模型训练方法、装置及存储介质，涉及人工智能领域，用于解决现有技术中模型生成数据分类结果不准确的问题。该方法包括：获取目标数据；目标数据包括：历史数据；将历史数据输入第一模型，生成历史数据对应的第一摘要文本；从第一摘要文本中，确定出预设数量的第二摘要文本；基于第二摘要文本以及第二摘要文本对应的历史数据，对第二模型进行训练，得到摘要模型；摘要模型用于确定数据的摘要文本；第一模型的数据生成能力大于第二模型。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能领域，尤其涉及一种模型训练方法、装置及存储介质。

技术介绍

1、随着客服行业的业务规模不断扩大，客服行业产生客服沟通记录的相关数量级也在与日俱增，对客服沟通记录进行主题分类也变得愈发重要。

2、现有技术通常是使用文本聚类方法，将客服沟通记录转化为客服沟通记录对应的文本数据，并提取文本数据的文本特征。根据多个客服沟通记录的本文特征生成客服沟通记录对应的聚类模型。然后根据多个聚类模型之间的相似度，对聚类模型进行抗干扰处理，从而得到客服沟通记录对应的主题分类。但是这种方法在处理数量规模较大的客服沟通记录或者文本长度较长的客服沟通记录时，处理效率较低、准确率较低。

技术实现思路

1、本申请提供一种模型训练方法、装置及存储介质，用于解决现有技术中模型生成数据分类结果不准确的问题。

2、为达到上述目的，本申请采用如下技术方案：

3、第一方面，提供一种模型训练方法，包括：获取目标数据；目标数据包括：历史数据；将历史数据输入第一模型，生成历史数据对应的第一摘要文本；从第一摘要文本中，确定出预设数量的第二摘要文本；基于第二摘要文本以及第二摘要文本对应的历史数据，对第二模型进行训练，得到摘要模型；摘要模型用于确定数据的摘要文本；第一模型的数据生成能力大于第二模型。

4、可选的，目标数据还包括：训练数据，在生成摘要模型后，该模型训练方法还包括：将训练数据输入摘要模型，确定训练数据的第三摘要文本；基于第三摘要文本之间的相似度，对第三摘要文本

5、可选的，基于每一第一聚类簇的第一标签，以及每一第一聚类簇中的第三摘要文本，确定每一第三摘要文本的标签，包括：接收第一指示信息；第一指示信息用于调整第一聚类簇和第一聚类簇的标签；响应于第一指示信息，调整第一聚类簇和第一聚类簇的标签，确定第二聚类簇以及第二聚类簇的第二标签；基于每一第二聚类簇中的第三摘要文本，以及每一第二聚类簇的第二标签，生成映射关系表；映射关系表用于表征每一第三摘要文本与第二标签之间的映射关系。

6、可选的，目标数据还包括：实时数据，在生成映射关系表后，该模型训练方法还包括：将实时数据输入摘要模型，确定实时数据的第四摘要文本；基于实时数据的第四摘要文本，以及映射关系表，确定实时数据对应的第二标签；基于第二标签，确定实时数据对应的数据分类结果。

7、可选的，将历史数据输入第一模型，生成历史数据对应的第一摘要文本，包括：基于历史数据，确定历史数据对应的提示模板；提示模板为第一摘要文本的格式模板；将历史数据和提示模板输入第一模型，生成第一摘要文本。

8、可选的，基于第二摘要文本以及第二摘要文本对应的历史数据，对第二模型进行训练，得到摘要模型，该模型训练方法还包括：基于第二摘要文本和第二摘要文本对应的历史数据，确定训练集、验证集和测试集；步骤1、基于训练集中的第二摘要文本，以及训练集中的第二摘要文本对应的历史数据，对当前模型进行训练，得到训练摘要模型；当前模型为第二模型，或者为前一次迭代训练过程中确定的模型；步骤2、基于验证集中的第二摘要文本，以及验证集中的第二摘要文本对应的历史数据，对训练摘要模型进行验证，确定训练摘要模型生成的第四摘要文本与第二摘要文本之间的损失函数值是否满足收敛条件；第四摘要文本为训练摘要模型根据验证集中的第二摘要文本对应的历史数据生成的摘要文本；步骤3、若不满足，则将训练摘要模型作为当前模型，并迭代执行步骤1、步骤2、以及步骤3直至损失函数值满足收敛条件；步骤4、若满足，基于测试集中的第二摘要文本，以及测试集中的第二摘要文本对应的历史数据，对训练摘要模型进行测试，确定训练摘要模型生成的第五摘要文本与第二摘要文本之间相似比值是否大于预设数值；第五摘要文本为训练摘要模型根据测试集中的第二摘要文本对应的历史数据生成的摘要文本；步骤5、若相似比值小于预设数值，则将训练摘要模型作为当前模型，并迭代执行步骤1、步骤2、步骤3、步骤4以及步骤5直至相似比值大于或者等于预设数值；步骤6、若相似比值大于或者等于预设数值，则确定训练摘要模型为摘要模型。

9、可选的，该模型训练还包括：获取第一摘要文本的文本长度；将文本长度大于或者等于预设长度的第一摘要文本，确定为第六摘要文本；第六摘要文本为文本长度满足预设长度的有效摘要文本；从第六摘要文本中，确定出预设数量的第二摘要文本。

10、第二方面，提供一种模型训练装置，包括：获取单元、生成单元、确定单元和训练单元；获取单元，用于获取目标数据；目标数据包括：历史数据；生成单元，用于将历史数据输入第一模型，生成历史数据对应的第一摘要文本；确定单元，用于从第一摘要文本中，确定出预设数量的第二摘要文本；训练单元，用于基于第二摘要文本以及第二摘要文本对应的历史数据，对第二模型进行训练，得到摘要模型；摘要模型用于确定数据的摘要文本；第一模型的数据生成能力大于第二模型。

11、可选的，目标数据还包括：训练数据，在生成摘要模型后，确定单元，还用于将训练数据输入摘要模型，确定训练数据的第三摘要文本；确定单元，还用于基于第三摘要文本之间的相似度，对第三摘要文本进行聚类，确定多个第一聚类簇；确定单元，还用于确定每一第一聚类簇的第一标签；确定单元，还用于基于每一第一聚类簇的第一标签，以及每一第一聚类簇中的第三摘要文本，确定每一第三摘要文本的标签。

12、可选的，确定单元，具体用于：接收第一指示信息；第一指示信息用于调整第一聚类簇和第一聚类簇的标签；响应于第一指示信息，调整第一聚类簇和第一聚类簇的标签，确定第二聚类簇以及第二聚类簇的第二标签；基于每一第二聚类簇中的第三摘要文本，以及每一第二聚类簇的第二标签，生成映射关系表；映射关系表用于表征每一第三摘要文本与第二标签之间的映射关系。

13、可选的，目标数据还包括：实时数据，在生成映射关系表后，确定单元，还用于将实时数据输入摘要模型，确定实时数据的第四摘要文本；确定单元，还用于基于实时数据的第四摘要文本，以及映射关系表，确定实时数据对应的第二标签；确定单元，还用于基于第二标签，确定实时数据对应的数据分类结果。

14、可选的，生成模块，具体用于：基于历史数据，确定历史数据对应的提示模板；提示模板为第一摘要文本的格式模板；将历史数据和提示模板输入第一模型，生成第一摘要文本。

15、可选的，训练模块具体用于：基于第二摘要文本和第二摘要文本对应的历史数据，确定训练集、验证集和测试集；步骤1、基于训练集中的第二摘要文本，以及训练集中的第二摘要文本对应的历史数据，对当前模型进行训练，得到训练摘要模型；当前模型为第二模型，或者为前一次迭代训练过程中确定的模型；步骤2、基于验证集中的第二摘要文本，以及验证集中的第二摘要文本对应的历史数据，对训练摘要模型进行验证，确定训练摘要模型生成的第四摘本文档来自技高网...

【技术保护点】

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标数据还包括：训练数据，在生成所述摘要模型后，还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于每一所述第一聚类簇的第一标签，以及每一所述第一聚类簇中的第三摘要文本，确定每一所述第三摘要文本的标签，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标数据还包括：实时数据，在生成所述映射关系表后，还包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述历史数据输入第一模型，生成所述历史数据对应的第一摘要文本，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述基于所述第二摘要文本以及所述第二摘要文本对应的历史数据，对第二模型进行训练，得到摘要模型，还包括：

7.根据权利要求1所述的方法，其特征在于，还包括：

8.一种模型训练装置，其特征在于，包括：获取单元、生成单元、确定单元和训练单元；

9.一种模型训练装置，其特征在于，包括存储器和处理器；所述存储器用于存储计算机

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机执行指令，当所述计算机执行指令在计算机上运行时，使得所述计算机执行如权利要求1-7任一项所述的模型训练方法。

...

【技术特征摘要】

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标数据还包括：训练数据，在生成所述摘要模型后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述目标数据还包括：实时数据，在生成所述映射关系表后，还包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述历史数据输入第一模型，生成所述历史数据对应的第一摘要文本，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述基于所述第二摘要文本以及所述第二摘要文本对应...

【专利技术属性】
技术研发人员：周叙言，张爱斌，
申请(专利权)人：中国联合网络通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人