一种数据分类模型的训练方法、数据分类方法及装置制造方法及图纸

技术编号：40436365 阅读：4 留言：0更新日期：2024-02-22 23:00

本申请涉及一种数据分类模型的训练方法、数据分类方法及装置，涉及自然语言处理和机器学习领域。该方法包括：获取预设数据集；将该预设数据集中包括的多个预设数据进行聚类处理，确定第一分类结果；将该预设数据集中包括的多个预设数据输入初始数据分类模型，得到该预设数据集的第二分类结果；对该第一分类结果与该第二分类结果进行预设操作，以得到目标分类结果；基于该预设数据集的目标分类结果，对该初始数据分类模型进行训练，以生成目标数据分类模型。由此，可以提高数据分类的准确性以及有效性，避免在面对大量的文本数据以及动态变化的文本数据时，可能无法准确地确定出该文本数据的分类的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自然语言处理和机器学习领域，具体涉及一种数据分类模型的训练方法、数据分类方法及装置。

技术介绍

1、目前，对于文本数据的分类是根据该文本数据的关键词进行分类，首先确定该文本数据的关键词，然后确定该关键词的分类，从而实现对该文本数据的分类。

2、但是，上述方法中，在面对大量的文本数据以及动态变化的文本数据时，可能无法准确地确定出该文本数据的分类，影响了数据分类的准确性以及高速性。

技术实现思路

1、本申请提供一种数据分类模型的训练方法、数据分类方法及装置，以至少解决相关技术中在面对大量的文本数据以及动态变化的文本数据时，可能无法准确地确定出该文本数据的分类，从而影响了数据分类的准确地性以及高效性的技术问题。本申请的技术方案如下：

2、根据本申请涉及的第一方面，提供一种数据分类模型的训练方法，包括：获取预设数据集，该预设数据集中包括多个预设数据；将该预设数据集中包括的多个预设数据进行聚类处理，确定第一分类结果；将该预设数据集中包括的多个预设数据输入初始数据分类模型，得到该预设数据集的第二分类结果；对该第一分类结果与该第二分类结果进行预设操作，以得到目标分类结果；基于该预设数据集的目标分类结果，对该初始数据分类模型进行训练，以生成目标数据分类模型。

3、根据上述技术手段，本申请可以获取预设数据集，然后电子设备将预设数据集中包括的多个预设数据进行聚类处理，确定第一分类结果，接着电子设备将预设数据集中包括的多个预设数据输入初始数据分类模型，得到预

4、在一种可能的实施方式中，上述基于该预设数据集的目标分类结果，对该初始数据分类模型进行训练，以生成目标数据分类模型，具体可以包括：获取该预设数据集的真实分类结果；基于该预设数据集的真实分类结果以及该预设数据集的目标分类结果，确定目标损失，该目标损失用于表征该预设数据集的真实分类结果与该预设数据集的目标分类结果之间的不一致程度；基于该目标损失，迭代更新该初始数据分类模型中的参数，得到该目标数据分类模型。

5、根据上述技术手段，本申请由于该预设数据集的目标分类结果为预测出的该预设数据集的分类，该预设数据集的真实分类结果为该预设数据集的真实分类。如此电子设备基于该目标分类结果以及该真实分类结果确定出的目标损失，能够准确、有效地表征该初始数据分类模型预测以及聚类算法计算出的目标分类结果与真实分类结果之间的差值。然后电子设备基于该目标损失更新该初始数据分类模型中的参数，能够方便地、快捷地生成目标数分类模型，提升了模型训练的效率。

6、在一种可能的实施方式中，上述将该预设数据集中包括的多个预设数据进行聚类处理，确定第一分类结果，具体可以包括：确定多个分类组，该多个分类组中每个分类组包括至少一个预设数据，该至少一个预设数据为该预设数据集中包括的数据；确定该多个分类组中每个分类组的聚类中心，并将该每个分类组的聚类中心的数据特征确定为该每个分类组的分类标签；将该每个分类组的分类标签确定为该每个分类组中包括的至少一个预设数据的分类，以得到该第一分类结果。

7、根据上述技术手段，本申请可以电子设备首先确定出多个分类组，然后确定出该多个分类组中每个分类组的聚类中心，该每个分类组的聚类中心的数据类别为该分类组最准确的数据类别，此时电子设备可以将该每个分类组的聚类中心的数据特征确定为该每个分类组的分类标签，此时电子设备可以将该每个分类组的分类标签确定为该每个分类组中包括的至少一个预设数据的分类，然后电子设备就可以准确地、快速地得到该第一分类结果。

8、在一种可能的实施方式中，上述对该第一分类结果与该第二分类结果进行预设操作，以得到目标分类结果，具体可以包括：在该第一分类结果与该第二分类结果不相同的情况下，确定第一数量以及第二数量，该第一数量为该第一分类结果中包括的分类标签的数量，该第二数量为该第二分类结果中包括的分类标签的数量；在该第一数量大于该第二数量的情况下，确定第二分类结果中包括的多个分类组中每个分类组的数据占比，其中，一个分类组的数据占比为目标数量与其他数量之间的比值，该目标数量为该一个分类组中包括的至少一个预设数据的数量，该其他数量为其他数据的数量，该其他数据为该至少一个预设数据中与该一个分类组的分类标签的相似度小于相似度阈值的数据；将最小分类组中包括的该其他数据从该最小分类组中删除，以得到目标分类组，该最小分类组为该第二分类结果中包括的多个分类组中数据占比最小的分类组；生成新增分类组，该新增分类组为由该其他数据组成的分类组；将第二分类结果中包括的除最小分类组以外的分类组、目标分类组以及新增分类组确定为目标分类结果。

9、根据上述技术手段，本申请可以在该第一分类结果与该第二分类结果不相同的情况下，说明聚类算法得到的分类结果与初始数据分类模型得到的分类结果有差异，此时电子设备可以确定该第一数量以及该第二数量，在该第一数量大于该第二数量的情况下，说明该第一分类结果中包括的分类组的数量大于该第二分类结果中包括的分类组的数量，此时确定第二分类结果中包括的多个分类组中每个分类组的数据占比，然后电子设备可以根据该每个分类组的数据占比，确定出最小分类组，并且将最小分类组中包括的该其他数据从该最小分类组中删除，以得到目标分类组，此时电子设备可以其他数据添加至新增分类组中，此时电子设备可以有效地、准确地将第二分类结果中包括的除最小分类组以外的分类组、目标分类组以及新增分类组确定为目标分类结果。

10、根据本申请涉及的第二方面，提供一种数据分类方法，包括：获取目标数据集，该目标数据集中包括多个目标数据；将该目标数据集输入目标数据分类模型，得到该目标数据集的预测分类结果，该目标数据分类模型是基于第一方面该的数据分类模型的训练方法训练得到的；基于该预测分类结果，对该目标数据集进行分类存储。

11、根据上述技术手段，本申请可以电子设备首先可以获取目标数据集，然后将该目标数据集输入该目标数据分类模型，可以准确地、有效地得到该目标数据集的预测分类结果，并且基于该预测分类结果，对该目标数据集中包括的数据进行分类存储。

12、根据本申请提供的第三方面，提供一种数据分类模型的训练装置，包括获取单元、确定单元、处理单元以及生成单元。该获取单元，用于获取预设数据集，该预设数据集中包括多个预设数据；该确定单元，用于将该预设数据集中包括的多个预设数据进行聚类处理，确定第一分类结果；该处理单元，用于将该预设数据集中包括的多个预设数据输入初始数据分类模型，得到该预设数据集的第二分类结果；该处理单元，用于对该第一分类结果与该第二分类结果进行预设操作，以得到目标分类结果；该生成单元，本文档来自技高网...

【技术保护点】

1.一种数据分类模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的数据分类模型的训练方法，其特征在于，基于所述预设数据集的目标分类结果，对所述初始数据分类模型进行训练，以生成目标数据分类模型，包括：

3.根据权利要求1所述的数据分类模型的训练方法，其特征在于，将所述预设数据集中包括的多个预设数据进行聚类处理，确定第一分类结果，包括：

4.根据权利要求1所述的数据分类模型的训练方法，其特征在于，对所述第一分类结果与所述第二分类结果进行预设操作，以得到目标分类结果，包括：

5.一种数据分类方法，其特征在于，所述方法包括：

6.一种数据分类模型的训练装置，其特征在于，包括获取单元、确定单元、处理单元以及生成单元；

7.一种数据分类模型，其特征在于，包括获取单元、处理单元以及存储单元；

8.一种电子设备，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中存储的计算机执行指令由电子设备的处理器执行时，所述电子设备能够执行如权利要求1至4中任一

...

【技术特征摘要】

1.一种数据分类模型的训练方法，其特征在于，所述方法包括：

3.根据权利要求1所述的数据分类模型的训练方法，其特征在于，将所述预设数据集中包括的多个预设数据进行聚类处理，确定第一分类结果，包括：

4.根据权利要求1所述的数据分类模型的训练方法，其特征在于，对所述第一分类结果与所述第二分类结果进行预设操作，以得到目标分类结果，...

【专利技术属性】
技术研发人员：王路宝，
申请(专利权)人：重庆长安汽车股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人