【技术实现步骤摘要】
数据集拆分方法和数据集拆分装置
[0001]本公开涉及计算机
,更具体地说,涉及一种数据集拆分方法和 数据集拆分装置。
技术介绍
[0002]在自动机器学习(AutoML)领域,在对机器学习模型进行训练或验证过 程中需要对数据集进行拆分,基于拆分后的子数据集对机器学习模型执行训 练或验证。常见的数据集拆分方法一般是随机拆分,随机拆分在大部分情况 下是有效的,但是当样本分布不均衡时,例如在图像分割任务和图像目标检 测任务中,某些类别的占比较小,如果以样本粒度(图像粒度)随机平均拆 分,很容易造成验证集的数据与整体的分布差异较大,从而造成机器学习模 型的训练或验证的不准确。
技术实现思路
[0003]本公开提出一种数据集拆分方法和数据集拆分装置,可至少部分地解决 上述问题。
[0004]根据本公开的一方面,提供一种数据集拆分方法,包括:获取图像数据 集;确定所述图像数据集中的至少一个对象类别;基于所述图像数据集中的 所述至少一个对象类别中的每个对象类别的分布情况,将所述图像数据集拆 分为N个子数据集 ...
【技术保护点】
【技术特征摘要】
1.一种数据集拆分方法,其特征在于,包括:获取图像数据集;确定所述图像数据集中的至少一个对象类别;基于所述图像数据集中的所述至少一个对象类别中的每个对象类别的分布情况,将所述图像数据集拆分为N个子数据集,其中,N为大于1的整数。2.如权利要求1所述的数据集拆分方法,其特征在于,所述基于所述图像数据集中的所述至少一个对象类别中的每个对象类别的分布情况,将所述图像数据集拆分为N个子数据集,包括:将所述图像数据集中不包括对象的图像样本随机平均分配到所述N个子数据集中;基于所述图像数据集中包括对象的图像样本的每个对象类别的第一分布比例和第二分布比例,将所述图像数据集中包括对象的图像样本分配到所述N个子数据集中,其中,第一分布比例为所述图像数据集中的每个对象类别在所述图像数据集中的分布比例,第二分布比例为每个子数据集中的每个对象类别在该子数据集中的分布比例。3.如权利要求2所述的数据集拆分方法,其特征在于,所述基于所述图像数据集中包括对象的图像样本的每个对象类别的第一分布比例和第二分布比例,将所述图像数据集中包括对象的图像样本分配到所述N个子数据集中,包括:基于每个子数据集中的每个对象类别的第二分布比例与对应对象类别的第一分布比例的差距,将所述图像数据集中包括对象的图像样本分配到所述N个子数据集中,使得每个子数据集中的每个对象类别的第二分布比例与对应对象类别的第一分布比例的差距最小化。4.如权利要求3所述的数据集拆分方法,其特征在于,所述基于每个子数据集中的每个对象类别的第二分布比例与对应对象类别的第一分布比例的差距,将所述图像数据集中包括对象的图像样本分配到所述N个子数据集中,包括:统计所述图像数据集的第一分布比例R
j
,j是对象类别编号;从所述图像数据集中包括对象的图像样本中随机抽取N个包括对象的图像样本,并随机平均分配到所述N个子数据集;循环执行以下第一操作,直到所述图像数据集中包括对象的图像样本全部分配完成:统计每个子数据集的第二分布比例R
i,j
,并计算每个子数据集的第二分布比例R
i,j
与对应对象类别的第一分布比例R
j
的差距r
i,j
,其中,i是子数据集编号,r
i,j
=R
j
‑
R
i,j
;从所述图像数据集中剩余的包括对象的图像样本中,随机抽取N个图像样本;循...
【专利技术属性】
技术研发人员:冯小雪,韩锋,涂威威,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。