样本分类模型的训练方法和装置、样本分类方法和装置制造方法及图纸

技术编号：34518594 阅读：12 留言：0更新日期：2022-08-13 21:07

本申请实施例提供了一种样本分类模型的训练方法和装置、样本分类方法和装置，属于人工智能技术领域。该训练方法包括：获取原始训练集；其中，原始训练集包括至少两个原始训练数据；对原始训练数据进行增强处理，得到原始增强数据；根据预设的原始编码模型对原始训练数据进行编码处理，得到训练编码数据，根据原始编码模型对原始增强数据进行编码处理，得到增强编码数据；对增强编码数据进行聚类处理，得到对应的聚类中心；根据聚类中心、增强编码数据和训练编码数据，构建得到正样本对和负样本对；根据正样本对和负样本对原始编码模型进行对比学习训练，得到目标分类模型。本申请实施例的技术方案，能够提高样本分类的准确性。能够提高样本分类的准确性。能够提高样本分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
样本分类模型的训练方法和装置、样本分类方法和装置

[0001]本申请涉及人工智能
，尤其涉及一种样本分类模型的训练方法和装置、样本分类方法和装置。

技术介绍

[0002]对比学习作为自监督学习的一种，其在自然语言处理、图像领域有着广泛的应用。相关技术中，存在将正样本当做负样本的情况，导致对比学习在构建样本时不准确。因此，如何提高样本分类的准确性，成为了本领域技术人员亟需解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种样本分类模型的训练方法和装置、样本分类方法和装置，旨在提高样本分类的准确性。
[0004]为实现上述目的，本申请实施例的第一方面提出了一种样本分类模型的训练方法，所述训练方法包括：
[0005]获取原始训练集；其中，所述原始训练集包括至少两个原始训练数据，每一所述原始训练数据为图像数据或者文本数据；
[0006]对所述原始训练数据进行增强处理，得到原始增强数据；
[0007]根据预设的原始编码模型对所述原始训练数据进行编码处理，得到训练编码数据，根据所述原始编码模型对所述原始增强数据进行编码处理，得到增强编码数据；
[0008]对所述增强编码数据进行聚类处理，得到对应的聚类中心；
[0009]根据所述聚类中心、所述增强编码数据和所述训练编码数据，构建得到正样本对和负样本对；其中，每一所述正样本对包括类别相同的两个样本，每一所述负样本对包括类别不同的两个样本；
[0010]根据所述正样本对和所述负样本...

【技术保护点】

【技术特征摘要】
1.一种样本分类模型的训练方法，其特征在于，所述训练方法包括：获取原始训练集；其中，所述原始训练集包括至少两个原始训练数据，每一所述原始训练数据为图像数据或者文本数据；对所述原始训练数据进行增强处理，得到原始增强数据；根据预设的原始编码模型对所述原始训练数据进行编码处理，得到训练编码数据，根据所述原始编码模型对所述原始增强数据进行编码处理，得到增强编码数据；对所述增强编码数据进行聚类处理，得到对应的聚类中心；根据所述聚类中心、所述增强编码数据和所述训练编码数据，构建得到正样本对和负样本对；其中，每一所述正样本对包括类别相同的两个样本，每一所述负样本对包括类别不同的两个样本；根据所述正样本对和所述负样本对所述原始编码模型进行对比学习训练，得到目标分类模型；其中，所述目标分类模型用于对目标样本进行样本分类处理，得到样本正例对和样本负例对，所述目标样本为文本数据或者图像数据的样本。2.根据权利要求1所述的方法，其特征在于，所述根据所述聚类中心、所述增强编码数据和所述训练编码数据，构建得到正样本对和负样本对，包括：根据所述增强编码数据和所述聚类中心进行距离计算，得到目标距离值；其中，所述目标距离值用于表征所述增强编码数据到所述聚类中心的欧氏距离；根据所述目标距离值，对所述增强编码数据和所述训练编码数据进行分类处理，得到所述正样本对和所述负样本对。3.根据权利要求2所述的方法，其特征在于，所述根据所述目标距离值，对所述增强编码数据和所述训练编码数据进行分类处理，得到所述正样本对和所述负样本对，包括：获取预设聚类阈值；根据所述目标距离值和所述预设聚类阈值，得到目标标记符；根据所述目标标记符对所述增强编码数据进行标记处理，得到标注编码数据；其中，所述标注编码数据包括所述目标标记符；对所述训练编码数据和标注编码数据进行样本构建处理，得到所述正样本对和所述负样本对。4.根据权利要求3所述的方法，其特征在于，所述对所述训练编码数据和标注编码数据进行样本构建处理，得到所述正样本对和所述负样本对，包括：若所述目标标记符为第一标记符，则将所述第一标记符对应的所述标注编码数据作为正样本编码数据；若所述目标标记符为第二标记符，则将所述第二标记符对应的所述标注编码数据作为负样本编码数据；根据所述标注编码数据、所述正样本编码数据和所述训练编码数据，构造得到所述正样本对；根据所述标注编码数据、所述负样本编码数据和所述训练编码数据，构造得到所述负样本对。5.根据权利要求1至4任意一项所述的方法，其特征在于，所述根据所述正样本对和所述负样本对所述原始编码模型进行对比学习训练，得到目标分类模型，包括：
根据所述正样本对和所述负样本对构建目标损失函数；根据所述目标损失函数对所述原始编码模型的参数进行更新处理，得到...

【专利技术属性】
技术研发人员：黄海龙，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人