样本数据的处理方法、装置、设备、介质及产品制造方法及图纸

技术编号:38471957 阅读:11 留言:0更新日期:2023-08-11 14:48
本申请公开了一种样本数据的处理方法、装置、设备、介质及产品,涉及人工智能领域。该方法包括:获取样本数据集合,样本数据集合中的样本数据被划分至相似样本组或独立样本组;对样本数据集合进行抽样,得到目标样本数据;响应于目标样本数据属于目标相似样本组,从目标相似样本组中获取扩充样本数据;基于目标样本数据和扩充样本数据生成训练样本集合,训练样本集合用于对候选分类模型进行训练,得到目标分类模型。该方法在大规模分类场景下,模型能够充分学习相似标签之间样本数据的差异,从而提升分类模型的模型精度。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。场景。场景。

【技术实现步骤摘要】
样本数据的处理方法、装置、设备、介质及产品


[0001]本申请涉及人工智能领域,特别涉及一种样本数据的处理方法、装置、设备、介质及产品。

技术介绍

[0002]基于人工智能(Artificial Intelligence,AI)的分类任务是指通过分类模型对输入的数据进行分类识别,其中,当分类任务对应的类别数量很多时,该分类任务可以视为一个大规模分类任务。生物识别技术(例如,人脸识别)可以视为大规模分类任务,即,每个人对应的数据即为一个类别。
[0003]相关技术中,以人脸识别为例,模型的训练过程为预先收集一定数量的训练样本数据,在模型训练过程中,由于硬件上不支持将所有训练数据在一次训练过程中全部输入,因此,需要对训练样本数据进行随机采样,将采样得到的训练样本数据输入至模型进行训练,经过多次采样以及迭代训练的过程,从而得到对应的人脸识别模型。
[0004]然而,在模型的实际应用中会面临相似脸误识别的问题,由于训练样本数据的数据量远大于硬件所能支持的输入量,而在抽样过程中,相似脸对应的训练样本数据被抽样至同一训练批次的概率较低,因此,模型在训练过程中学习到的相似脸之间的区别较弱,从而导致了模型精度较低的问题。

技术实现思路

[0005]本申请实施例提供了一种样本数据的处理方法、装置、设备、介质及产品,提升了大规模分类场景下分类模型的模型精度。所述技术方案如下:
[0006]一方面,提供了一种样本数据的处理方法,所述方法包括:
[0007]获取样本数据集合,所述样本数据集合中的样本数据标注有样本标签,所述样本数据集合中的样本数据被划分至相似样本组或独立样本组,所述相似样本组由至少两个样本标签之间存在相似关系的样本数据组成,所述独立样本组中的样本数据对应的样本标签与所述样本数据集合中的其他样本标签不存在所述相似关系;
[0008]对所述样本数据集合进行抽样,得到目标样本数据;
[0009]响应于所述目标样本数据属于目标相似样本组,从所述目标相似样本组中获取扩充样本数据;
[0010]基于所述目标样本数据和所述扩充样本数据生成训练样本集合,所述训练样本集合用于对候选分类模型进行训练,得到目标分类模型,所述目标分类模型用于进行数据分类识别。
[0011]另一方面,提供了一种样本数据的处理装置,所述装置包括:
[0012]获取模块,用于获取样本数据集合,所述样本数据集合中的样本数据标注有样本标签,所述样本数据集合中的样本数据被划分至相似样本组或独立样本组,所述相似样本组由至少两个样本标签之间存在相似关系的样本数据组成,所述独立样本组中的样本数据
对应的样本标签与所述样本数据集合中的其他样本标签不存在所述相似关系;
[0013]抽样模块,用于对所述样本数据集合进行抽样,得到目标样本数据;
[0014]扩充模块,用于响应于所述目标样本数据属于目标相似样本组,从所述目标相似样本组中获取扩充样本数据;
[0015]生成模块,用于基于所述目标样本数据和所述扩充样本数据生成训练样本集合,所述训练样本集合用于对候选分类模型进行训练,得到目标分类模型,所述目标分类模型用于进行数据分类识别。
[0016]另一方面,提供了一种计算机设备,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本申请实施例中任一所述的样本数据的处理方法。
[0017]另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现本申请实施例中任一所述的样本数据的处理方法。
[0018]另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的样本数据的处理方法。
[0019]本申请的提供的技术方案至少包括以下有益效果:
[0020]在对用于数据分类识别的分类模型进行训练时,当抽样得到的目标样本数据属于由样本标签存在相似关系的相似样本组时,由目标样本数据和相似样本组中的扩充样本数据共同生成用于分类模型训练的训练样本集合。即,在被采样到的样本数据在样本数据集合中存在标签相似的其他样本数据时,从标签相似的其他样本数据中获取扩充样本数据,以使得在大规模分类场景下,模型能够充分学习相似标签之间样本数据的差异,从而提升分类模型的模型精度。
附图说明
[0021]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本申请一个示例性实施例提供的特征空间中脸部特征投影示意图;
[0023]图2是本申请一个示例性实施例提供的特征向量投影的实际情况和期望情况的示意图;
[0024]图3是本申请一个相关技术中人脸识别训练过程的示意图;
[0025]图4是本申请一个示例性实施例提供的计算机系统示意图;
[0026]图5是本申请一个示例性实施例提供的样本数据的处理方法流程图;
[0027]图6是本申请一个示例性实施例提供的样本标签的相似度计算示意图;
[0028]图7是本申请一个示例性实施例提供的生成训练样本集合的示意图;
[0029]图8是本申请另一个示例性实施例提供的样本数据的处理方法流程图;
[0030]图9是本申请一个示例性实施例提供的扩充样本数据确定示意图;
[0031]图10是本申请另一个示例性实施例提供的扩充样本数据确定示意图;
[0032]图11是本申请另一个示例性实施例提供的样本数据的处理方法流程图;
[0033]图12是本申请一个示例性实施例提供的样本组划分示意图;
[0034]图13是本申请一个示例性实施例提供的长相相似示意图;
[0035]图14是本申请一个示例性实施例提供的姿态/配饰导致相似的示意图;
[0036]图15是申请一个示例性实施例提供的数据划分示意图;
[0037]图16是本申请一个示例性实施例提供的待处理数据划分示意图;
[0038]图17是本申请一个示例性实施例提供的样本数据集合构成示意图;
[0039]图18是本申请一个示例性实施例提供的样本数据的处理装置结构框图;
[0040]图19是本申请另一个示例性实施例提供的样本数据的处理装置结构框图;
[0041]图20是本申请一个示例性实施例提供的服务器的结构示意图。
具体实施方式
[0042]为使本申请的目的、技术方案和优点更本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本数据的处理方法,其特征在于,所述方法包括:获取样本数据集合,所述样本数据集合中的样本数据标注有样本标签,所述样本数据集合中的样本数据被划分至相似样本组或独立样本组,所述相似样本组由至少两个样本标签之间存在相似关系的样本数据组成,所述独立样本组中的样本数据对应的样本标签与所述样本数据集合中的其他样本标签不存在所述相似关系;对所述样本数据集合进行抽样,得到目标样本数据;响应于所述目标样本数据属于目标相似样本组,从所述目标相似样本组中获取扩充样本数据;基于所述目标样本数据和所述扩充样本数据生成训练样本集合,所述训练样本集合用于对候选分类模型进行训练,得到目标分类模型,所述目标分类模型用于进行数据分类识别。2.根据权利要求1所述的方法,其特征在于,所述响应于所述目标样本数据属于目标相似样本组,从所述目标相似样本组中获取扩充样本数据,包括:响应于所述目标样本数据属于所述目标相似样本组,获取所述目标相似样本组对应的相似映射数据,所述相似映射数据用于记录所述目标相似样本组中存在所述相似关系的样本标签之间的映射关系;基于所述相似映射数据从所述目标相似样本组中获取所述扩充样本数据。3.根据权利要求2所述的方法,其特征在于,所述响应于所述目标样本数据属于所述目标相似样本组,获取所述目标相似样本组对应的相似映射数据之前,还包括:获取候选相似样本组的映射中心标签,所述映射中心标签用于指示所述候选相似样本组对应的相似映射数据所记录的映射关系的映射中心;响应于所述第一样本标签与所述候选相似样本组的所述映射中心标签匹配,将所述候选相似样本组确定为所述目标相似样本组。4.根据权利要求1至3任一所述的方法,其特征在于,所述从所述目标相似样本组中获取扩充样本数据,包括:从所述目标相似样本组中获取候选样本数据,所述候选样本数据对应的候选样本标签区别于所述第一样本标签;从所述候选样本数据中获取所述扩充样本数据。5.根据权利要求1至3任一所述的方法,其特征在于,所述针对所述样本数据集合中的目标样本数据,响应于所述目标样本数据属于目标相似样本组,从所述目标相似样本组中获取扩充样本数据之前,还包括:获取所述候选分类模型的训练样本容量,所述训练样本容量用于指示所述候选分类模型在一个训练阶段中样本数据的数量要求范围,所述目标模型的训练过程中包括至少一个所述训练阶段;基于所述训练样本容量确定第一数量和第二数量,所述第一数量用于指示所述目标样本数据的数量,所述第二数量用于指示与所述目标样本数据对应的所述扩充样本数据的数量。6.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:响应于所述目标样本数据属于所述独立样本组,对所述样本数据集合进行抽样,获取
所述扩充样本数据。7.根据权利要求6所述的方法,其特征在于,所述获取样本数据集合,包括:获取所述目标模型对应的待处理数据;基于所述待处理数据对应的样本对象,对所述待处理数据进行样本标签的标注,所述样本标签用于区分不同样本对象之间的样本数据;基于所述待处理数据之间样本标签的相似情况,将所述待处理数据划分至所述相似样本组或所述独立样本组;基于所述相似样本组和所述独立样本组生成所述样本数据集合。8.根据权利要求7所述的方法,其特征在于,所述基于所述待处理数据之间样本标签的相似情况,将所述待处理数据划分至相似样本组或所述独立样本组,包括:获取第i个待处理数据和候选待处理数据之间的相...

【专利技术属性】
技术研发人员:蒋进李宇聪鞠奇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1