数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:19934129 阅读:34 留言:0更新日期:2018-12-29 04:31
本发明专利技术涉及一种数据处理方法、装置、计算机设备和存储介质,方法包括:获取本轮的待抽样清洗数据;获取本轮的每个待抽样清洗数据在多个随机树上的路径长度,多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到;根据路径长度确定本轮的每个待抽样清洗数据的抽样概率;对抽样概率在预设阈值以上的本轮的待抽样清洗数据进行抽样,得到相应的抽样数据;清洗抽样数据;当不满足清洗结束条件时,将下一轮当作本轮,返回获取本轮的待抽样清洗数据的步骤以继续清洗数据,直至满足清洗结束条件。本申请中的数据处理方法,基于不需要样本标记的训练得到的多个随机树来发现疑似脏数据并清洗,节省了人工标记训练样本的时间,提高了数据清洗效率。

【技术实现步骤摘要】
数据处理方法、装置、计算机设备和存储介质
本专利技术涉及计算机
,特别是涉及一种数据处理方法、装置、计算机设备和存储介质。
技术介绍
大多数据集合中往往包含有脏数据,而大量脏数据的存在往往会对数据的处理结果造成影响(比如,根据数据训练机器学习模型时,大量脏数据影响机器学习模型的准确率),一般需要对数据集合中的数据进行一定程度的清洗。在对数据清洗的过程中,往往需要从数据集合中发现疑似脏数据,然后对这些发现的疑似脏数据进行清洗。在传统方法中,是通过人工大量标记样本,对标记的样本进行训练,得到相应的分类器,以根据该分类器来从数据集中发现疑似脏数据。目前,这种根据人工大量标记样本训练分类器发现疑似脏数据的方法,造成人工标记样本的工作量非常大,从而导致数据清洗效率低。
技术实现思路
基于此,有必要针对目前人工大量标记样本训练分类器发现疑似脏数据导致数据清洗效率低的技术问题,提供一种数据处理方法、装置、计算机设备和存储介质。一种数据处理方法,所述方法包括:获取本轮的待抽样清洗数据;获取本轮的每个所述待抽样清洗数据在多个随机树上的路径长度,所述多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练本文档来自技高网...

【技术保护点】
1.一种数据处理方法,所述方法包括:获取本轮的待抽样清洗数据;获取本轮的每个所述待抽样清洗数据在多个随机树上的路径长度,所述多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到;根据所述路径长度确定本轮的每个所述待抽样清洗数据的抽样概率;对抽样概率在预设阈值以上的本轮的所述待抽样清洗数据进行抽样,得到相应的抽样数据;清洗所述抽样数据;当不满足清洗结束条件时,将下一轮当作本轮,返回所述获取本轮的待抽样清洗数据的步骤以继续清洗数据,直至满足清洗结束条件。

【技术特征摘要】
1.一种数据处理方法,所述方法包括:获取本轮的待抽样清洗数据;获取本轮的每个所述待抽样清洗数据在多个随机树上的路径长度,所述多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到;根据所述路径长度确定本轮的每个所述待抽样清洗数据的抽样概率;对抽样概率在预设阈值以上的本轮的所述待抽样清洗数据进行抽样,得到相应的抽样数据;清洗所述抽样数据;当不满足清洗结束条件时,将下一轮当作本轮,返回所述获取本轮的待抽样清洗数据的步骤以继续清洗数据,直至满足清洗结束条件。2.根据权利要求1所述的方法,其特征在于,所述获取本轮的待抽样清洗数据,包括:获取本轮未清洗且未携带必清洗标记的数据,得到本轮的待抽样清洗数据;所述清洗所述抽样数据包括:清洗所述抽样数据和本轮未清洗且携带必清洗标记的数据;当不满足清洗结束条件时,在将下一轮当作本轮之前,所述方法还包括:在本轮除去所述抽样数据后的待抽样清洗数据中,将与本轮清洗中判断得到的脏数据特征相似的数据添加必清洗标记。3.根据权利要求2所述的方法,其特征在于,所述在本轮除去所述抽样数据后的待抽样清洗数据中,将与本轮清洗中判断得到的脏数据特征相似的数据添加必清洗标记,包括:确定本轮清洗中判断得到的脏数据在所述多个随机树上对应的节点;获取与所述本轮清洗中判断得到的脏数据对应的需添加必清洗标记的数据数量;在所述多个随机树上从所述节点起进行回溯搜索,并按照所述数据数量从回溯搜索过程中经历的节点中获取相互间不重复的数据;在本轮除去所述抽样数据后的待抽样清洗数据中,将与获取的所述数据一致的数据添加必清洗标记。4.根据权利要求3所述的方法,其特征在于,所述获取与本轮清洗中判断得到的脏数据对应的需添加必清洗标记的数据数量,包括:根据所述本轮清洗中判断得到的脏数据在所述多个随机树上的路径长度,得到所述需添加必清洗标记的数据数量;所述需添加必清洗标记的数据数量与所述路径长度正相关。5.根据权利要求1所述的方法,其特征在于,所述根据所述路径长度确定本轮的每个所述待抽样清洗数据的抽样概率,包括:根据所述路径长度,获得本轮的每个所述待抽样清洗数据在所述多个随机树上的平均路径长度;根据所述平均路径长度确定本轮的每个所述待抽样清洗数据的抽样概率,所述抽样概率与相应的所述平均路径长度负相关。6.根据权利要求5所述的方法,其特征在于,所述根据所述平均路径长度确定本轮的每个所述待抽样清洗数据的抽样概率,所述抽样概率与相应的所述平均路径长度负相关,包括:获取所述多个随机树的平均路径长度;根据本轮的每个所述待抽样清洗数据在所述多个随机树上的平均路径长度和所述多个随机树的平均路径长度,生成异常分数;其中,所述异常分数与本轮的每个所述待抽样清洗数据在所述多个随机树上的平均路径长度负相关,且与所述多个随机树的平均路径长度正相关;根据所述异常分数,确定本轮的每个所述待抽样清洗数据的抽样概率;所述抽样概率与所述异常分数正相关。7.根据权利要求1所述的方法,其特征在于,在所述当不满足清洗结束条件时,将下一轮当作本轮之前,所述方法还包括:获取本轮清洗后得到的干净数据;根据所述干净数据和抽样概率在预设阈值以下的本轮的所述待抽样清洗数据,对根据前一轮清洗后的数据训练得到的机器学习模型进行更新;当更...

【专利技术属性】
技术研发人员:张浩尹红军
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1