数据清洗方法、数据清洗设备以及计算机存储介质技术

技术编号:23604608 阅读:40 留言:0更新日期:2020-03-28 05:43
本申请提供了一种数据清洗方法、数据清洗设备以及计算机存储介质。该数据清洗方法包括:获取待清洗的训练样本集合;对训练样本集合进行聚类分析,获得训练样本集合的多个聚类分类,其中,每个聚类分类中包括多个训练样本;检测多个聚类分类中的训练样本,以获取每个聚类分类的训练样本中的误报样本;对误报样本所在的聚类分类进行数据清洗。本申请的数据清洗方法能够自动进行数据清洗,以加快数据清洗进程,以及提高数据清洗的准确性。

Data cleaning method, data cleaning equipment and computer storage medium

【技术实现步骤摘要】
数据清洗方法、数据清洗设备以及计算机存储介质
本申请涉及计算机
,特别是涉及一种数据清洗方法、数据清洗设备以及计算机存储介质。
技术介绍
在AI算法开发过程中,用于训练的数据的准确性非常重要。如果在训练过程中输入训练模型的是垃圾数据,就会导致模型输出的也是垃圾,达不到图像识别效果。因此,在模型训练过程中,对数据的清洗很重要,需要在输入模型之前删除无效、错误的数据。目前的数据清洗技术一般有人工参与,这个过程由于数据量非常庞大,非常耗费人力成本和时间成本;在人工清洗检查标签准确性的过程中,也存在人的主观性,无法保证标签一定正确。
技术实现思路
本申请提供了一种数据清洗方法、数据清洗设备以及计算机存储介质,用于解决现有技术中人工数据清洗耗时长,准确性低的问题。为解决上述技术问题,本申请提供了一种数据清洗方法,所述数据清洗方法包括:获取待清洗的训练样本集合;对所述训练样本集合进行聚类分析,获得所述训练样本集合的多个聚类分类,其中,每个聚类分类中包括多个训练样本;检测多个所述聚类分类中的训本文档来自技高网...

【技术保护点】
1.一种数据清洗方法,其特征在于,所述数据清洗方法包括:/n获取待清洗的训练样本集合;/n对所述训练样本集合进行聚类分析,获得所述训练样本集合的多个聚类分类,其中,每个聚类分类中包括多个训练样本;/n检测多个所述聚类分类中的训练样本,以获取每个所述聚类分类的训练样本中的误报样本;/n对所述误报样本所在的聚类分类进行数据清洗。/n

【技术特征摘要】
1.一种数据清洗方法,其特征在于,所述数据清洗方法包括:
获取待清洗的训练样本集合;
对所述训练样本集合进行聚类分析,获得所述训练样本集合的多个聚类分类,其中,每个聚类分类中包括多个训练样本;
检测多个所述聚类分类中的训练样本,以获取每个所述聚类分类的训练样本中的误报样本;
对所述误报样本所在的聚类分类进行数据清洗。


2.根据权利要求1所述的数据清洗方法,其特征在于,
在所述对所述误报样本所在的聚类分类进行数据清洗的步骤之前,所述方法包括:
获取所述误报样本的数量,判断所述误报样本的数量是否大于预设数据量;
若是,则对该聚类分类进行数据清洗。


3.根据权利要求1所述的数据清洗方法,其特征在于,
在所述对所述误报样本所在的聚类分类进行数据清洗的步骤之前,所述方法包括:
根据所述误报样本计算所述聚类分类中的误报率;
当所述聚类分类中的误报率大于预设误报率时,对该聚类分类进行数据清洗。


4.根据权利要求3所述的数据清洗方法,其特征在于。
所述当所述聚类分类中的误报率大于预设误报率时,对该聚类分类进行数据清洗的步骤,包括:
当所述聚类分类中的误报率与所述预设误报率的差值大于差值阈值时,对该聚类分类进行数据清洗。


5.根据权利要求1所述的数据清洗方法,其特征在于,
所述对所述误报样本所在的聚类分类进行数据清洗的步骤,包括:
删...

【专利技术属性】
技术研发人员:祁春超周华明黄雄伟
申请(专利权)人:深圳市华讯方舟太赫兹科技有限公司华讯方舟科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1