样本数据的处理方法、装置、设备、介质及产品制造方法及图纸

技术编号：38471957 阅读：11 留言：0更新日期：2023-08-11 14:48

本申请公开了一种样本数据的处理方法、装置、设备、介质及产品，涉及人工智能领域。该方法包括：获取样本数据集合，样本数据集合中的样本数据被划分至相似样本组或独立样本组；对样本数据集合进行抽样，得到目标样本数据；响应于目标样本数据属于目标相似样本组，从目标相似样本组中获取扩充样本数据；基于目标样本数据和扩充样本数据生成训练样本集合，训练样本集合用于对候选分类模型进行训练，得到目标分类模型。该方法在大规模分类场景下，模型能够充分学习相似标签之间样本数据的差异，从而提升分类模型的模型精度。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。场景。场景。

全部详细技术资料下载

【技术实现步骤摘要】
样本数据的处理方法、装置、设备、介质及产品

[0001]本申请涉及人工智能领域，特别涉及一种样本数据的处理方法、装置、设备、介质及产品。

技术介绍

[0002]基于人工智能(Artificial Intelligence，AI)的分类任务是指通过分类模型对输入的数据进行分类识别，其中，当分类任务对应的类别数量很多时，该分类任务可以视为一个大规模分类任务。生物识别技术(例如，人脸识别)可以视为大规模分类任务，即，每个人对应的数据即为一个类别。
[0003]相关技术中，以人脸识别为例，模型的训练过程为预先收集一定数量的训练样本数据，在模型训练过程中，由于硬件上不支持将所有训练数据在一次训练过程中全部输入，因此，需要对训练样本数据进行随机采样，将采样得到的训练样本数据输入至模型进行训练，经过多次采样以及迭代训练的过程，从而得到对应的人脸识别模型。
[0004]然而，在模型的实际应用中会面临相似脸误识别的问题，由于训练样本数据的数据量远大于硬件所能支持的输入量，而在抽样过程中，相似脸对应的训练样本数据被抽样至同一训练批次的概率较低，因此，模型在训练过程中学习到的相似脸之间的区别较弱，从而导致了模型精度较低的问题。

技术实现思路

[0005]本申请实施例提供了一种样本数据的处理方法、装置、设备、介质及产品，提升了大规模分类场景下分类模型的模型精度。所述技术方案如下：
[0006]一方面，提供了一种样本数据的处理方法，所述方法包括：
[0007]获取样本数据集合，所述样本数据集合中...

【技术保护点】

【技术特征摘要】
1.一种样本数据的处理方法，其特征在于，所述方法包括：获取样本数据集合，所述样本数据集合中的样本数据标注有样本标签，所述样本数据集合中的样本数据被划分至相似样本组或独立样本组，所述相似样本组由至少两个样本标签之间存在相似关系的样本数据组成，所述独立样本组中的样本数据对应的样本标签与所述样本数据集合中的其他样本标签不存在所述相似关系；对所述样本数据集合进行抽样，得到目标样本数据；响应于所述目标样本数据属于目标相似样本组，从所述目标相似样本组中获取扩充样本数据；基于所述目标样本数据和所述扩充样本数据生成训练样本集合，所述训练样本集合用于对候选分类模型进行训练，得到目标分类模型，所述目标分类模型用于进行数据分类识别。2.根据权利要求1所述的方法，其特征在于，所述响应于所述目标样本数据属于目标相似样本组，从所述目标相似样本组中获取扩充样本数据，包括：响应于所述目标样本数据属于所述目标相似样本组，获取所述目标相似样本组对应的相似映射数据，所述相似映射数据用于记录所述目标相似样本组中存在所述相似关系的样本标签之间的映射关系；基于所述相似映射数据从所述目标相似样本组中获取所述扩充样本数据。3.根据权利要求2所述的方法，其特征在于，所述响应于所述目标样本数据属于所述目标相似样本组，获取所述目标相似样本组对应的相似映射数据之前，还包括：获取候选相似样本组的映射中心标签，所述映射中心标签用于指示所述候选相似样本组对应的相似映射数据所记录的映射关系的映射中心；响应于所述第一样本标签与所述候选相似样本组的所述映射中心标签匹配，将所述候选相似样本组确定为所述目标相似样本组。4.根据权利要求1至3任一所述的方法，其特征在于，所述从所述目标相似样本组中获取扩充样本数据，包括：从所述目标相似样本组中获取候选样本数据，所述候选样本数据对应的候选样本标签区别于所述第一样本标签；从所述候选样本数据中获取所述扩充样本数据。5.根据权利要求1至3任一所述的方法，其特征在于，所述针对所述样本数据集合中的目标样本数据，响应于所述目标样本数据属于目标相似样本组，从所述目标相似样本组中获取扩充样本数据之前，还包括：获取所述候选分类模型的训练样本容量，所述训练样本容量用于指示所述候选分类模型在一个训练阶段中样本数据的数量要求范围，所述目标模型的训练过程中包括至少一个所述训练阶段；基于所述训练样本容量确定第一数量和第二数量，所述第一数量用于指示所述目标样本数据的数量，所述第二数量用于指示与所述目标样本数据对应的所述扩充样本数据的数量。6.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：响应于所述目标样本数据属于所述独立样本组，对所述样本数据集合进行抽样，获取
所述扩充样本数据。7.根据权利要求6所述的方法，其特征在于，所述获取样本数据集合，包括：获取所述目标模型对应的待处理数据；基于所述待处理数据对应的样本对象，对所述待处理数据进行样本标签的标注，所述样本标签用于区分不同样本对象之间的样本数据；基于所述待处理数据之间样本标签的相似情况，将所述待处理数据划分至所述相似样本组或所述独立样本组；基于所述相似样本组和所述独立样本组生成所述样本数据集合。8.根据权利要求7所述的方法，其特征在于，所述基于所述待处理数据之间样本标签的相似情况，将所述待处理数据划分至相似样本组或所述独立样本组，包括：获取第i个待处理数据和候选待处理数据之间的相...

【专利技术属性】
技术研发人员：蒋进，李宇聪，鞠奇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人