样本分类模型的训练方法和装置、样本分类方法和装置制造方法及图纸

技术编号:34518594 阅读:12 留言:0更新日期:2022-08-13 21:07
本申请实施例提供了一种样本分类模型的训练方法和装置、样本分类方法和装置,属于人工智能技术领域。该训练方法包括:获取原始训练集;其中,原始训练集包括至少两个原始训练数据;对原始训练数据进行增强处理,得到原始增强数据;根据预设的原始编码模型对原始训练数据进行编码处理,得到训练编码数据,根据原始编码模型对原始增强数据进行编码处理,得到增强编码数据;对增强编码数据进行聚类处理,得到对应的聚类中心;根据聚类中心、增强编码数据和训练编码数据,构建得到正样本对和负样本对;根据正样本对和负样本对原始编码模型进行对比学习训练,得到目标分类模型。本申请实施例的技术方案,能够提高样本分类的准确性。能够提高样本分类的准确性。能够提高样本分类的准确性。

【技术实现步骤摘要】
样本分类模型的训练方法和装置、样本分类方法和装置


[0001]本申请涉及人工智能
,尤其涉及一种样本分类模型的训练方法和装置、样本分类方法和装置。

技术介绍

[0002]对比学习作为自监督学习的一种,其在自然语言处理、图像领域有着广泛的应用。相关技术中,存在将正样本当做负样本的情况,导致对比学习在构建样本时不准确。因此,如何提高样本分类的准确性,成为了本领域技术人员亟需解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种样本分类模型的训练方法和装置、样本分类方法和装置,旨在提高样本分类的准确性。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种样本分类模型的训练方法,所述训练方法包括:
[0005]获取原始训练集;其中,所述原始训练集包括至少两个原始训练数据,每一所述原始训练数据为图像数据或者文本数据;
[0006]对所述原始训练数据进行增强处理,得到原始增强数据;
[0007]根据预设的原始编码模型对所述原始训练数据进行编码处理,得到训练编码数据,根据所述原始编码模型对所述原始增强数据进行编码处理,得到增强编码数据;
[0008]对所述增强编码数据进行聚类处理,得到对应的聚类中心;
[0009]根据所述聚类中心、所述增强编码数据和所述训练编码数据,构建得到正样本对和负样本对;其中,每一所述正样本对包括类别相同的两个样本,每一所述负样本对包括类别不同的两个样本;
[0010]根据所述正样本对和所述负样本对所述原始编码模型进行对比学习训练,得到目标分类模型;其中,所述目标分类模型用于对目标样本进行样本分类处理,得到样本正例对和样本负例对,所述目标样本为文本数据或者图像数据的样本。
[0011]在一些实施例,所述根据所述聚类中心、所述增强编码数据和所述训练编码数据,构建得到正样本对和负样本对,包括:
[0012]根据所述增强编码数据和所述聚类中心进行距离计算,得到目标距离值;其中,所述目标距离值用于表征所述增强编码数据到所述聚类中心的欧氏距离;
[0013]根据所述目标距离值,对所述增强编码数据和所述训练编码数据进行分类处理,得到所述正样本对和所述负样本对。
[0014]在一些实施例,所述根据所述目标距离值,对所述增强编码数据和所述训练编码数据进行分类处理,得到所述正样本对和所述负样本对,包括:
[0015]获取预设聚类阈值;
[0016]根据所述目标距离值和所述预设聚类阈值,得到目标标记符;
[0017]根据所述目标标记符对所述增强编码数据进行标记处理,得到标注编码数据;其中,所述标注编码数据包括所述目标标记符;
[0018]对所述训练编码数据和标注编码数据进行样本构建处理,得到所述正样本对和所述负样本对。
[0019]在一些实施例,所述对所述训练编码数据和标注编码数据进行样本构建处理,得到所述正样本对和所述负样本对,包括:
[0020]若所述目标标记符为第一标记符,则将所述第一标记符对应的所述标注编码数据作为正样本编码数据;
[0021]若所述目标标记符为第二标记符,则将所述第二标记符对应的所述标注编码数据作为负样本编码数据;
[0022]根据所述标注编码数据、所述正样本编码数据和所述训练编码数据,构造得到所述正样本对;
[0023]根据所述标注编码数据、所述负样本编码数据和所述训练编码数据,构造得到所述负样本对。
[0024]在一些实施例,所述根据所述正样本对和所述负样本对所述原始编码模型进行对比学习训练,得到目标分类模型,包括:
[0025]根据所述正样本对和所述负样本对构建目标损失函数;
[0026]根据所述目标损失函数对所述原始编码模型的参数进行更新处理,得到所述目标分类模型。
[0027]为实现上述目的,本申请实施例的第二方面提出的样本分类方法,所述样本分类方法包括:
[0028]获取待分类的目标样本;其中,所述目标样本为图像数据或者文本数据的样本;
[0029]将所述目标样本输入至目标分类模型中进行样本分类处理,得到样本正例对和样本负例对;其中,所述样本正例对包括类别相同的两个样本例,所述样本负例对包括类别不同的两个样本例,所述目标分类模型为根据第一方面任意一项所述的样本分类模型的训练方法训练得到的。
[0030]为实现上述目的,本申请实施例的第三方面提出了一种样本分类模型的训练装置,所述样本分类模型的训练装置包括:
[0031]训练集获取模块,用于获取原始训练集;其中,所述原始训练集包括至少两个原始训练数据,每一所述原始训练数据为图像数据或者文本数据;
[0032]增强处理模块,用于对所述原始训练数据进行增强处理,得到原始增强数据;
[0033]编码处理模块,用于根据预设的原始编码模型对所述原始训练数据进行编码处理,得到训练编码数据,根据所述原始编码模型对所述原始增强数据进行编码处理,得到增强编码数据;
[0034]聚类处理模块,用于对所述增强编码数据进行聚类处理,得到对应的聚类中心;
[0035]构建处理模块,用于根据所述聚类中心、所述增强编码数据和所述训练编码数据,构建得到正样本对和负样本对;其中,每一所述正样本对包括类别相同的两个样本,每一所述负样本对包括类别不同的两个样本;
[0036]训练处理模块,用于根据所述正样本对和所述负样本对所述原始编码模型进行对
比学习训练,得到目标分类模型;其中,所述目标分类模型用于对目标样本进行样本分类处理,得到样本正例对和样本负例对,所述目标样本为文本数据或者图像数据的样本。
[0037]为实现上述目的,本申请实施例的第四方面提出了一种样本分类装置,所述装置包括:
[0038]目标样本获取模块,用于获取待分类的目标样本;其中,所述目标样本为图像数据或者文本数据的样本;
[0039]分类处理模块,用于将所述目标样本输入至目标分类模型中进行样本分类处理,得到样本正例对和样本负例对;其中,所述样本正例对包括类别相同的两个样本例,所述样本负例对包括类别不同的两个样本例,所述目标分类模型为根据第一方面任意一项所述的样本分类模型的训练方法训练得到的。
[0040]为实现上述目的,本申请实施例的第五方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现上述第一方面所述的方法;或者
[0041]如第二方面所述的方法。
[0042]为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面所述的方法;或者
[0043]如第二方面所述的方法。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本分类模型的训练方法,其特征在于,所述训练方法包括:获取原始训练集;其中,所述原始训练集包括至少两个原始训练数据,每一所述原始训练数据为图像数据或者文本数据;对所述原始训练数据进行增强处理,得到原始增强数据;根据预设的原始编码模型对所述原始训练数据进行编码处理,得到训练编码数据,根据所述原始编码模型对所述原始增强数据进行编码处理,得到增强编码数据;对所述增强编码数据进行聚类处理,得到对应的聚类中心;根据所述聚类中心、所述增强编码数据和所述训练编码数据,构建得到正样本对和负样本对;其中,每一所述正样本对包括类别相同的两个样本,每一所述负样本对包括类别不同的两个样本;根据所述正样本对和所述负样本对所述原始编码模型进行对比学习训练,得到目标分类模型;其中,所述目标分类模型用于对目标样本进行样本分类处理,得到样本正例对和样本负例对,所述目标样本为文本数据或者图像数据的样本。2.根据权利要求1所述的方法,其特征在于,所述根据所述聚类中心、所述增强编码数据和所述训练编码数据,构建得到正样本对和负样本对,包括:根据所述增强编码数据和所述聚类中心进行距离计算,得到目标距离值;其中,所述目标距离值用于表征所述增强编码数据到所述聚类中心的欧氏距离;根据所述目标距离值,对所述增强编码数据和所述训练编码数据进行分类处理,得到所述正样本对和所述负样本对。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标距离值,对所述增强编码数据和所述训练编码数据进行分类处理,得到所述正样本对和所述负样本对,包括:获取预设聚类阈值;根据所述目标距离值和所述预设聚类阈值,得到目标标记符;根据所述目标标记符对所述增强编码数据进行标记处理,得到标注编码数据;其中,所述标注编码数据包括所述目标标记符;对所述训练编码数据和标注编码数据进行样本构建处理,得到所述正样本对和所述负样本对。4.根据权利要求3所述的方法,其特征在于,所述对所述训练编码数据和标注编码数据进行样本构建处理,得到所述正样本对和所述负样本对,包括:若所述目标标记符为第一标记符,则将所述第一标记符对应的所述标注编码数据作为正样本编码数据;若所述目标标记符为第二标记符,则将所述第二标记符对应的所述标注编码数据作为负样本编码数据;根据所述标注编码数据、所述正样本编码数据和所述训练编码数据,构造得到所述正样本对;根据所述标注编码数据、所述负样本编码数据和所述训练编码数据,构造得到所述负样本对。5.根据权利要求1至4任意一项所述的方法,其特征在于,所述根据所述正样本对和所述负样本对所述原始编码模型进行对比学习训练,得到目标分类模型,包括:
根据所述正样本对和所述负样本对构建目标损失函数;根据所述目标损失函数对所述原始编码模型的参数进行更新处理,得到...

【专利技术属性】
技术研发人员:黄海龙
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1