【技术实现步骤摘要】
标注数据清洗装置和方法
本专利技术涉及数据处理领域,特别是涉及一种标注数据清洗装置。本专利技术还涉及一种标注数据清洗方法。
技术介绍
目前标注数据清洗比较初级,要么需要人工手动将标注质量差的数据挑出,要么需要人工设计规则筛选出需要重新标注的数据。自动化程度低。而数据质量对于后续算法研发结果息息相关,直接影响算法性能的表现。高质量的清洗干净的数据十分重要。中国专利技术专利申请CN108764372A公开了数据集的构建方法和装置、移动终端、可读存储介质,其本质是在数据库中更自动化选择新的数据是哪一批,与我们解决的技术问题不同。中国专利技术专利申请CN109753498A公开了基于机器学习的数据清洗方法及终端设备,其使用隐马尔科夫模型,是个在作为无监督学习的方式。将干净数据和脏数据混合的方式,利用干净数据找到脏数据中的离群点,认为是需要清洗的数据并清晰。实际上需要比较强的先验一批干净数据,并且对更多模态的数据比较弱。无监督学习性能一般较差。
技术实现思路
本专利技术所要解决的技术问题是提供一种标注数据清洗装置,能实现标注数据的自动清洗,能提高清洗效率和清洗质量。为此,本专利技术还提供一种标注数据清洗方法。为解决上述技术问题,,本专利技术采用如下技术方案:第一方面,本专利技术提供的标注数据清洗装置包括:标注数据库,包括了所有待清洗的已标注数据。算法模型结构,包括了所述已标注数据所对应的任务的算法模型。数据等分模块,用于实现:对所述标注数据库的数据进行 ...
【技术保护点】
1.一种标注数据清洗装置,其特征在于,包括:/n标注数据库,包括了所有待清洗的已标注数据;/n算法模型结构,包括了所述已标注数据所对应的任务的算法模型;/n数据等分模块,用于实现:对所述标注数据库的数据进行等分并形成多个子数据集,令所述子数据集的数量为N,N大于等于2,各所述子数据集的编号分别为1至N;/n子数据集设置模块,用于实现:从编号1至N,依次选择一个所述子数据集作为子训练集,令所述子训练集对应的所述子数据集的编号为k,1≤k≤N,则第k子数据集之外的N-1个所述子数据集都分别为一个子测试集,一个所述子训练集和N-1个所述子测试集形成一个训练测试组,共有N个所述训练测试组,令各所述训练测试组的编号分别为1至N;/n训练模块,用于实现:从编号1至N,依次选择编号对应的所述训练测试组中的所述子训练集对所述算法模型结构进行训练并得到对应编号的已训练算法模型;/n测试模块,从编号1至N,采用编号对应的所述已训练算法模型依次对编号对应的所述训练测试组中的各所述子测试集进行测试并形成测试结果,从各次测试形成的所述测试结果中收集所有错误例子,对所述错误例子对应的所述已标注数据进行清洗并形成清 ...
【技术特征摘要】
1.一种标注数据清洗装置,其特征在于,包括:
标注数据库,包括了所有待清洗的已标注数据;
算法模型结构,包括了所述已标注数据所对应的任务的算法模型;
数据等分模块,用于实现:对所述标注数据库的数据进行等分并形成多个子数据集,令所述子数据集的数量为N,N大于等于2,各所述子数据集的编号分别为1至N;
子数据集设置模块,用于实现:从编号1至N,依次选择一个所述子数据集作为子训练集,令所述子训练集对应的所述子数据集的编号为k,1≤k≤N,则第k子数据集之外的N-1个所述子数据集都分别为一个子测试集,一个所述子训练集和N-1个所述子测试集形成一个训练测试组,共有N个所述训练测试组,令各所述训练测试组的编号分别为1至N;
训练模块,用于实现:从编号1至N,依次选择编号对应的所述训练测试组中的所述子训练集对所述算法模型结构进行训练并得到对应编号的已训练算法模型;
测试模块,从编号1至N,采用编号对应的所述已训练算法模型依次对编号对应的所述训练测试组中的各所述子测试集进行测试并形成测试结果,从各次测试形成的所述测试结果中收集所有错误例子,对所述错误例子对应的所述已标注数据进行清洗并形成清洗后的所述标注数据库。
2.如权利要求1所述的标注数据清洗装置,其特征在于:标注数据清洗装置还包括控制模块,所述控制模块用于实现:控制所述数据等分模块、所述子数据集设置模块、所述训练模块和所述测试模块依次循环工作,当一次循环工作完成后重新下一次循环工作,下一次循环工作对应的所述标注数据库采用前一次循环工作形成的清洗后的所述标注数据库。
3.如权利要求1所述的标注数据清洗装置,其特征在于:对所述错误例子对应的所述已标注数据进行清洗包括:
将所述错误例子对应的所述已标注数据的标注去除并将所述错误例子对应的所述已标注数据从所述标注数据库中剔除;
或者,将所述错误例子对应的所述已标注数据的标注去除并重新对所述错误例子对应的所述已标注数据进行标注。
4.一种标注数据清洗方法,其特征在于,包括如下步骤:
步骤一、提供包括了所有待清洗的已标注数据的标注数据库;
步骤二、根据所述已标注数据选择对应的任务的算法模型并形成算法模型结构;
步骤三、进行数据等分,包括:对所述标注数据库的数据进行等分并形成多个子数据集,令所述子数据集的数量为N,N大于等于2,各所述子数据集的编...
【专利技术属性】
技术研发人员:章子誉,颜泽鑫,
申请(专利权)人:上海依图网络科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。