数据收集方法及装置制造方法及图纸

技术编号:21091200 阅读:45 留言:0更新日期:2019-05-11 10:33
本发明专利技术提供了一种数据收集方法及装置,该方法包括:接收待收集样本数据;获取样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比,所述样本收集数据集为大小固定的数据集;根据所述当前占比和所述待收集样本数据所属类别的样本数据的目标占比确定所述待收集样本数据所属类别的样本数据的收集概率;根据所述收集概率将所述待收集样本数据添加至所述样本收集数据集中,以用于训练神经网络模型。通过上述方案能够在不断有新样本生成的情况下得到满足机器学习的类别分布要求的样本数据集。

Data Collection Method and Device

【技术实现步骤摘要】
数据收集方法及装置
本专利技术涉及深度学习
,尤其涉及一种数据收集方法及装置。
技术介绍
深度学习中常用的神经网络需要使用大量样本数据进行训练。如果样本数据集中样本数据的类别分布不均衡,神经网络模型将会训练失败。对于分类问题而言,样本数据不均衡,即,数据集中每个类别的样本数据的数目差别很大。更具体地,例如,在一个二分类问题中,如果共有100个样本数据(100行数据,每一行数据为一个样本的表征),其中80个样本数据属于类别1,其余20个样本数据属于类别2,类别1:类别2=80:20=4:1,这便属于类别不均衡。在强化学习中,AI(人工智能)与环境互动会产生大量样本数据,如果将样本数据进行分类,那么不同类别的样本数据的生成概率是不同的。样本数据集中样本数据的类别不均衡是机器学习中典型存在的问题。针对具体、固定的样本数据集,通常的解决方法是,通过对样本数目较多的类别进行数据欠采样,或者对样本数目较少的类别进行数据过采样,从而通过重采样得到类别平衡的样本数据集;另一种方式是,利用现有样本数据人工生成新样本数据;还有方法不是从数据集本身出发,而是通过惩罚分类器的算法来改进模型训练的效果。本文档来自技高网...

【技术保护点】
1.一种数据收集方法,其特征在于,包括:接收待收集样本数据;获取样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比,所述样本收集数据集为大小固定的数据集;根据所述当前占比和所述待收集样本数据所属类别的样本数据的目标占比确定所述待收集样本数据所属类别的样本数据的收集概率;根据所述收集概率将所述待收集样本数据添加至所述样本收集数据集中,以用于训练神经网络模型。

【技术特征摘要】
1.一种数据收集方法,其特征在于,包括:接收待收集样本数据;获取样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比,所述样本收集数据集为大小固定的数据集;根据所述当前占比和所述待收集样本数据所属类别的样本数据的目标占比确定所述待收集样本数据所属类别的样本数据的收集概率;根据所述收集概率将所述待收集样本数据添加至所述样本收集数据集中,以用于训练神经网络模型。2.如权利要求1所述的数据收集方法,其特征在于,获取样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比,包括:统计计算类别标签数据集中所述待收集样本数据所属类别的标签的占比,得到样本收集数据集中属于所述待收集样本数据所属类别的样本数据的当前占比;所述类别标签数据集用于存储所述样本收集数据集中各样本数据的类别标签,所述类别标签数据集的大小与所述样本收集数据集的大小相同。3.如权利要求1所述的数据收集方法,其特征在于,根据所述当前占比和所述待收集样本数据所属类别的样本数据的目标占比确定所述待收集样本数据所属类别的样本数据的收集概率,包括:在所述当前占比小于或等于所述待收集样本数据所属类别的目标占比的情况下,将第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,在所述当前占比大于所述目标占比的情况下,将第二概率确定为所述收集概率;所述第一概率大于所述第二概率。4.如权利要求3所述的数据收集方法,其特征在于,在所述当前占比小于或等于所述待收集样本数据所属类别的目标占比的情况下,将第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,在所述当前占比大于所述目标占比的情况下,将第二概率确定为所述收集概率,包括:获取所述样本收集数据集中样本数据的当前类别分布;计算所述当前类别分布和所述样本收集数据集中样本数据的目标类别分布之间的均方差;在所述均方差小于或等于根据所述样本收集数据集的样本总数设定的误差阈值的情况下,当所述当前占比小于或等于所述待收集样本数据所属类别的目标占比时,将由0.5加上所述均方差得到的第一概率确定为所述待收集样本数据所属类别的样本数据的收集概率,当所述当前占比大于所述...

【专利技术属性】
技术研发人员:李超然
申请(专利权)人:北京深极智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1