基于动态渐进式采样的数据分类清洗系统及清洗方法技术方案

技术编号:24091554 阅读:34 留言:0更新日期:2020-05-09 08:18
本发明专利技术公开了一种数据分类清洗系统、方法,其中系统包括:标签样图放置模块,用于将标签样图放置到样本数据集中的每一类数据子集中;迭代模型训练模块,用于以各标签样图形成的标签数据集L为训练样本,训练形成数据分类清洗模型;数据伪标签生成模块,用于基于数据分类清洗模型对待清洗的数据集进行数据分类清洗,并对清洗到的各未标记数据进行伪标记;数据筛选模块,用于对伪标记得到伪标记数据集进行数据筛选,得到伪标签候选者集合S;迭代模型训练模块还用于以伪标签候选者集合S和标签数据集L为训练样本,迭代训练数据分类清洗模型,本发明专利技术提高数据分类清洗的准确率。

Data classification cleaning system and cleaning method based on dynamic progressive sampling

【技术实现步骤摘要】
基于动态渐进式采样的数据分类清洗系统及清洗方法
本专利技术涉及数据清洗
,具体涉及一种基于动态渐进式采样的数据分类清洗系统及清洗方法。
技术介绍
目前对于图片数据集的数据清理主要依赖于人工清理或者基于大量的带标注的图片样本训练所得的模型进行识别清理,但人工清理效率低下,往往需要进行多次核查,才能相对确保清理准确率,无法满足用户对图片数据集的自动清理要求。而基于大量带标注的图片样本的数据清理方法同样需要人为对图片进行标注,标注成本高、标注周期长、标注质量难以保证,对于所作出的数据分类结果同样具有准确率低的技术问题。
技术实现思路
本专利技术的目的在于提供一种基于动态渐进式采样的数据分类清洗系统、方法,以解决上述技术问题。为达此目的,本专利技术采用以下技术方案:提供一种基于动态渐进式采样的数据分类清洗系统,包括:标签样图放置模块,用于提供给用户将带有标签的标签样图放置到样本数据集中的每一类数据子集中,每一张标签样图对应表示一种数据类别;迭代模型训练模块,连接所述标签样图放置模块,用于以放置的各所述标签样图形成的标签数据集L作为训练样本,初始训练形成一数据分类清洗模型;数据伪标签生成模块,连接所述迭代模型训练模块,用于将待清洗的数据集输入到所述数据分类清洗模型中,通过所述数据分类清洗模型预测所述数据集中的未标记数据的数据类型,并对预测得到的各所述未标记数据进行伪标记,得到一伪标记数据集;数据筛选模块,连接所述数据伪标签生成模块,用于对所述伪标记数据集进行数据筛选,得到伪标签候选者集合S;所述迭代模型训练模块还连接所述数据筛选模块,所述迭代模型训练模块还用于以所述伪标签候选者集合S和所述标签数据集L形成的扩展训练数据集D为训练样本,迭代训练所述数据分类清洗模型;所述数据伪标签生成模块基于迭代训练而得的所述数据分类清洗模型对所述数据集进行进一步的数据清洗,直至完成对所述数据集的分类清洗过程。作为本专利技术的一种优选方案,所述数据分类清洗系统还包括:索引数据标记模块,连接所述数据伪标签生成模块,用于在所述数据伪标签生成模块完成对所述数据集中的各所述未标记数据的伪标记后,将所述数据集中剩余的各所述未标记数据标记为索引标签数据;所述索引数据标记模块还连接所述迭代模型训练模块,所述迭代模型训练模块用于以所述扩展训练数据集D和各所述索引标签数据为训练样本,迭代训练更新所述数据分类清洗模型;所述数据伪标签生成模块根据迭代更新的数据分类清洗模型对数据集进行数据分类清洗,直至完成对所述数据集中的所有数据的数据分类清洗过程。本专利技术还提供一种基于动态渐进式采样的数据分类清洗方法,通过应用所述数据分类清洗系统实现,包括如下步骤:步骤S1,所述数据分类清洗系统获取所述标签样图,并将所获取的每一张所述标签样图对应放置到所述样本数据集的每一类所述数据子集中;步骤S2,所述数据分类清洗系统以各所述标签样图形成的标签数据集L为训练样本,初始训练形成所述数据分类清洗模型;步骤S3,所述数据分类清洗系统将待清洗的所述数据集输入到所述数据分类清洗模型中,通过所述数据分类清洗模型预测所述数据集中的各所述未标记数据的数据类型,并对预测得到的各所述未标记数据进行伪标记,得到一伪标记数据集;步骤S4,所述数据分类清洗系统对所述伪标记数据集中的数据进行数据筛选,得到一伪标签候选者集合S;步骤S5,所述数据分类清洗系统以所述伪标签候选者集合S和所述标签数据集L形成的扩展训练数据集D为训练样本,迭代训练所述数据分类清洗模型;步骤S6,所述数据分类清洗系统基于迭代训练而得的所述数据分类清洗模型继续对所述数据集进行数据分类清洗,直至完成对数据的分类清洗过程。本专利技术还另外提供一种基于动态渐进式采样的数据分类清洗方法,通过应用所述数据分类清洗系统实现,包括如下步骤:步骤L1,所述数据分类清洗系统获取所述标签样图,并将所获取的每一张所述标签样图对应放置到所述样本数据集的每一类所述数据子集中;步骤L2,所述数据分类清洗系统以各所述标签样图形成的标签数据集L为训练样本,初始训练形成所述数据分类清洗模型;步骤L3,所述数据分类清洗系统将待清洗的所述数据集输入到所述数据分类清洗模型中,通过所述数据分类清洗模型预测所述数据集中的各所述未标记数据的数据类型,并对预测得到的各所述未标记数据进行伪标记,得到一伪标记数据集;步骤L4,所述数据分类清洗系统对所述伪标记数据集进行数据筛选,得到一伪标签候选者集合S;步骤L5,所述数据分类清洗系统以所述伪标签候选者集合S和所述标签数据集L形成的扩展训练数据集D为训练样本,迭代训练所述数据分类清洗模型;步骤L6,所述数据分类清洗系统在完成对所述数据集中的各所述未标记数据的伪标记后,将所述数据集中剩余的各所述未标记数据标记为索引标签数据;步骤L7,所述数据分类清洗系统以所述扩展训练数据集D和各所述索引标签数据为训练样本,迭代训练更新所述数据分类清洗模型;步骤L8,所述数据分类清洗系统基于迭代训练而得的所述数据分类清洗模型继续对所述数据集进行数据清洗,直至完成对所有数据的分类清洗过程。本专利技术提供的基于动态渐进式的数据分类清洗系统仅需要对待分类的数据集中的每一类数据子集中的一张图片进行人工标注,然后系统将根据所标注的各标签样图进行模型训练,然后通过训练的数据分类清洗模型对数据集进行数据分类清洗,然后通过对清洗出的各未标记数据进行自动标记,并以清洗得到并自动标记的数据和之前的各标签样图为训练样本,迭代更新数据分类清洗模型,直至完成对数据集中的数据的分类清洗过程。本专利技术大幅降低了人工标注的时间成本,并通过对数据集进行反复的数据分类清洗标注,提高了数据分类清洗的准确率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一所述的基于动态渐进式采样的数据分类清洗系统的结构示意图;图2是本专利技术实施例二所述的基于动态渐进式采样的数据分类清洗系统的结构示意图;图3是应用本专利技术实施例一所述的数据分类清洗系统实现对数据分类清洗的方法步骤图;图4是应用本专利技术实施例二所述的数据分类清洗系统实现对数据分类清洗的方法步骤图。具体实施方式下面结合附图并通过具体实施方式来进一步说明本专利技术的技术方案。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本专利技术的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。本专利技术实施例的附图中相同或相似的标号对应相同或相似的部件;本文档来自技高网...

【技术保护点】
1.一种基于动态渐进式采样的数据分类清洗系统,其特征在于,包括:/n标签样图放置模块,用于提供给用户将带有标签的标签样图放置到样本数据集中的每一类数据子集中,每一张标签样图对应表示一种数据类别;/n迭代模型训练模块,连接所述标签样图放置模块,用于以放置的各所述标签样图形成的标签数据集L作为训练样本,初始训练形成一数据分类清洗模型;/n数据伪标签生成模块连接所述迭代模型训练模块,用于将待清洗的数据集输入到所述数据分类清洗模型中,通过所述数据分类清洗模型预测所述数据集中的未标记数据的数据类型,并对预测得到的各所述未标记数据进行伪标记,得到一伪标记数据集;/n数据筛选模块,连接所述数据伪标签生成模块,用于对所述伪标记数据集进行数据筛选,得到伪标签候选者集合S;/n所述迭代模型训练模块还连接所述数据筛选模块,所述迭代模型训练模块还用于以所述伪标签候选者集合S和所述标签数据集L形成的扩展训练数据集D为训练样本,迭代训练所述数据分类清洗模型;/n所述数据伪标签生成模块基于迭代训练而得的所述数据分类清洗模型对所述数据集进行进一步的数据清洗,直至完成对所述数据集的分类清洗过程。/n

【技术特征摘要】
1.一种基于动态渐进式采样的数据分类清洗系统,其特征在于,包括:
标签样图放置模块,用于提供给用户将带有标签的标签样图放置到样本数据集中的每一类数据子集中,每一张标签样图对应表示一种数据类别;
迭代模型训练模块,连接所述标签样图放置模块,用于以放置的各所述标签样图形成的标签数据集L作为训练样本,初始训练形成一数据分类清洗模型;
数据伪标签生成模块连接所述迭代模型训练模块,用于将待清洗的数据集输入到所述数据分类清洗模型中,通过所述数据分类清洗模型预测所述数据集中的未标记数据的数据类型,并对预测得到的各所述未标记数据进行伪标记,得到一伪标记数据集;
数据筛选模块,连接所述数据伪标签生成模块,用于对所述伪标记数据集进行数据筛选,得到伪标签候选者集合S;
所述迭代模型训练模块还连接所述数据筛选模块,所述迭代模型训练模块还用于以所述伪标签候选者集合S和所述标签数据集L形成的扩展训练数据集D为训练样本,迭代训练所述数据分类清洗模型;
所述数据伪标签生成模块基于迭代训练而得的所述数据分类清洗模型对所述数据集进行进一步的数据清洗,直至完成对所述数据集的分类清洗过程。


2.如权利要求1所述的数据分类清洗系统,其特征在于,还包括:
索引数据标记模块,连接所述数据伪标签生成模块,用于在所述数据伪标签生成模块完成对所述数据集中的各所述未标记数据的伪标记后,将所述数据集中剩余的各所述未标记数据标记为索引标签数据;
所述索引数据标记模块还连接所述迭代模型训练模块,所述迭代模型训练模块用于以所述扩展训练数据集D和各所述索引标签数据为训练样本,迭代训练更新所述数据分类清洗模型;
所述数据伪标签生成模块根据迭代更新的数据分类清洗模型对数据集进行数据分类清洗,直至完成对所述数据集中的所有数据的数据分类清洗过程。


3.一种基于动态渐进式采样的数据分类清洗方法,通过应用权1所述的数据分类清洗系统实现,其特征在于,包括如下步骤:
步骤S1,所述数据分类清洗系统获取所述标签样图,并将所获取的每一张所述标签样图对应放置到所述样本数据集的每一类所述数据子集中;
步骤S2,所述数据分类清洗系统以各所述标签样图形成的标签数据...

【专利技术属性】
技术研发人员:秦永强张发恩李素莹纪双西
申请(专利权)人:创新奇智合肥科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1