标注数据清洗装置和方法制造方法及图纸

技术编号:24206118 阅读:17 留言:0更新日期:2020-05-20 14:44
本发明专利技术公开了一种标注数据清洗装置,包括:标注数据库,算法模型结构,数据等分模块,子数据集设置模块,训练模块和测试模块;子数据集设置模块依次从N个子数据集中选择一个作为子训练集,剩余的各子数据集都分别为一个子测试集,一个子训练集和N‑1个子测试集形成一个训练测试组。训练模块采用各训练测试组中的子训练集对算法模型结构进行训练。测试模块采用各子测试集依次对对应的已训练算法模型进行测试并形成测试结果,从测试结果中收集所有错误例子并对错误例子对应的已标注数据进行清洗。本发明专利技术还公开了一种标注数据清洗方法。本发明专利技术能实现标注数据的自动清洗,能提高清洗效率和清洗质量。

Label data cleaning device and method

【技术实现步骤摘要】
标注数据清洗装置和方法
本专利技术涉及数据处理领域,特别是涉及一种标注数据清洗装置。本专利技术还涉及一种标注数据清洗方法。
技术介绍
目前标注数据清洗比较初级,要么需要人工手动将标注质量差的数据挑出,要么需要人工设计规则筛选出需要重新标注的数据。自动化程度低。而数据质量对于后续算法研发结果息息相关,直接影响算法性能的表现。高质量的清洗干净的数据十分重要。中国专利技术专利申请CN108764372A公开了数据集的构建方法和装置、移动终端、可读存储介质,其本质是在数据库中更自动化选择新的数据是哪一批,与我们解决的技术问题不同。中国专利技术专利申请CN109753498A公开了基于机器学习的数据清洗方法及终端设备,其使用隐马尔科夫模型,是个在作为无监督学习的方式。将干净数据和脏数据混合的方式,利用干净数据找到脏数据中的离群点,认为是需要清洗的数据并清晰。实际上需要比较强的先验一批干净数据,并且对更多模态的数据比较弱。无监督学习性能一般较差。
技术实现思路
本专利技术所要解决的技术问题是提供一种标注数据清洗装置,能实现标注数据的自动清洗,能提高清洗效率和清洗质量。为此,本专利技术还提供一种标注数据清洗方法。为解决上述技术问题,,本专利技术采用如下技术方案:第一方面,本专利技术提供的标注数据清洗装置包括:标注数据库,包括了所有待清洗的已标注数据。算法模型结构,包括了所述已标注数据所对应的任务的算法模型。数据等分模块,用于实现:对所述标注数据库的数据进行等分并形成多个子数据集,令所述子数据集的数量为N,N大于等于2,各所述子数据集的编号分别为1至N。子数据集设置模块,用于实现:从编号1至N,依次选择一个所述子数据集作为子训练集,令所述子训练集对应的所述子数据集的编号为k,1≤k≤N,则第k子数据集之外的N-1个所述子数据集都分别为一个子测试集,一个所述子训练集和N-1个所述子测试集形成一个训练测试组,共有N个所述训练测试组,令各所述训练测试组的编号分别为1至N。训练模块,用于实现:从编号1至N,依次选择编号对应的所述训练测试组中的所述子训练集对所述算法模型结构进行训练并得到对应编号的已训练算法模型。测试模块,从编号1至N,采用编号对应的所述训练测试组中的各所述子测试集依次对编号对应的所述已训练算法模型进行测试并形成测试结果,从各次测试形成的所述测试结果中收集所有错误例子,对所述错误例子对应的所述已标注数据进行清洗并形成清洗后的所述标注数据库。进一步的改进是,所述已标注数据为标注员对未标注数据进行标注后形成的数据。进一步的改进是,所述已标注数据所对应的任务包括:类别分类任务、物体检出任务、图像分割任务。进一步的改进是,标注数据清洗装置还包括控制模块,所述控制模块用于实现:控制所述数据等分模块、所述子数据集设置模块、所述训练模块和所述测试模块依次循环工作,当一次循环工作完成后重新下一次循环工作,下一次循环工作对应的所述标注数据库采用前一次循环工作形成的清洗后的所述标注数据库。进一步的改进是,随着循环的次数的增加,所述测试模块收集所述错误例子的数量减少,当所述错误例子的数量减少到要求值时停止所述循环工作。进一步的改进是,当所述错误例子的数量减少0时停止所述循环工作。进一步的改进是,下一次循环工作对应的所述标注数据库采用在前一次循环工作形成的清洗后的所述标注数据库的基础上增加新注入的已标注数据形成的标注数据库。进一步的改进是,所述算法模型结构中算法模型根据所述测试结果进行优化。进一步的改进是,对所述错误例子对应的所述已标注数据进行清洗包括:将所述错误例子对应的所述已标注数据的标注去除并将所述错误例子对应的所述已标注数据从所述标注数据库中剔除。或者,将所述错误例子对应的所述已标注数据的标注去除并重新对所述错误例子对应的所述已标注数据进行标注。第二方面,本专利技术提供的标注数据清洗方法,包括如下步骤:步骤一、提供包括了所有待清洗的已标注数据的标注数据库。步骤二、根据所述已标注数据选择对应的任务的算法模型并形成算法模型结构。步骤三、进行数据等分,包括:对所述标注数据库的数据进行等分并形成多个子数据集,令所述子数据集的数量为N,N大于等于2,各所述子数据集的编号分别为1至N。步骤四、进行子数据集设置,包括:从编号1至N,依次选择一个所述子数据集作为子训练集,令所述子训练集对应的所述子数据集的编号为k,1≤k≤N,则第k子数据集之外的N-1个所述子数据集都分别为一个子测试集,一个所述子训练集和N-1个所述子测试集形成一个训练测试组,共有N个所述训练测试组,令各所述训练测试组的编号分别为1至N。步骤五、进行训练,包括:从编号1至N,依次选择编号对应的所述训练测试组中的所述子训练集对所述算法模型结构进行训练并得到对应编号的已训练算法模型。步骤六、进行测试,从编号1至N,采用编号对应的所述已训练算法模型依次对编号对应的所述训练测试组中的各所述子测试集进行测试并形成测试结果,从各次测试形成的所述测试结果中收集所有错误例子,对所述错误例子对应的所述已标注数据进行清洗并形成清洗后的所述标注数据库。进一步的改进是,所述已标注数据为标注员对未标注数据进行标注后形成的数据。进一步的改进是,所述已标注数据所对应的任务包括:类别分类任务、物体检出任务、图像分割任务。进一步的改进是,将步骤三至步骤六作为一次循环工作,当一次循环工作完成后重新下一次循环工作,下一次循环工作对应的所述标注数据库采用前一次循环工作形成的清洗后的所述标注数据库。进一步的改进是,随着循环的次数的增加,步骤六收集所述错误例子的数量减少,当所述错误例子的数量减少到要求值时停止所述循环工作。进一步的改进是,当所述错误例子的数量减少0时停止所述循环工作。进一步的改进是,下一次循环对应的所述标注数据库采用在前一次循环工作形成的清洗后的所述标注数据库的基础上增加新注入的已标注数据形成的标注数据库。进一步的改进是,步骤二中,还包括根据所述测试结果对算法模型进行优化的步骤。进一步的改进是,对所述错误例子对应的所述已标注数据进行清洗包括:将所述错误例子对应的所述已标注数据的标注去除并将所述错误例子对应的所述已标注数据从所述标注数据库中剔除。或者,将所述错误例子对应的所述已标注数据的标注去除并重新对所述错误例子对应的所述已标注数据进行标注。所述算法模型优选为神经网络算法模型。思维学普遍认为,人类大脑的思维分为抽象(逻辑)思维、形象(直观)思维和灵感(顿悟)思维三种基本方式。人工神经网络就是模拟人思维的第二种方式。这是一个非线性动力学系统,其特色在于信息的分布式存储和并行协同处理。虽然单个神经元的结构极其简单,功能有限,但大量神经元构成的网络系统所能实现的行为却是极其丰富多彩的。人工神经网络是在现代神经科学的基础上提出和发展起来的,旨在反映人脑结构及功能的一种抽象数学本文档来自技高网...

【技术保护点】
1.一种标注数据清洗装置,其特征在于,包括:/n标注数据库,包括了所有待清洗的已标注数据;/n算法模型结构,包括了所述已标注数据所对应的任务的算法模型;/n数据等分模块,用于实现:对所述标注数据库的数据进行等分并形成多个子数据集,令所述子数据集的数量为N,N大于等于2,各所述子数据集的编号分别为1至N;/n子数据集设置模块,用于实现:从编号1至N,依次选择一个所述子数据集作为子训练集,令所述子训练集对应的所述子数据集的编号为k,1≤k≤N,则第k子数据集之外的N-1个所述子数据集都分别为一个子测试集,一个所述子训练集和N-1个所述子测试集形成一个训练测试组,共有N个所述训练测试组,令各所述训练测试组的编号分别为1至N;/n训练模块,用于实现:从编号1至N,依次选择编号对应的所述训练测试组中的所述子训练集对所述算法模型结构进行训练并得到对应编号的已训练算法模型;/n测试模块,从编号1至N,采用编号对应的所述已训练算法模型依次对编号对应的所述训练测试组中的各所述子测试集进行测试并形成测试结果,从各次测试形成的所述测试结果中收集所有错误例子,对所述错误例子对应的所述已标注数据进行清洗并形成清洗后的所述标注数据库。/n...

【技术特征摘要】
1.一种标注数据清洗装置,其特征在于,包括:
标注数据库,包括了所有待清洗的已标注数据;
算法模型结构,包括了所述已标注数据所对应的任务的算法模型;
数据等分模块,用于实现:对所述标注数据库的数据进行等分并形成多个子数据集,令所述子数据集的数量为N,N大于等于2,各所述子数据集的编号分别为1至N;
子数据集设置模块,用于实现:从编号1至N,依次选择一个所述子数据集作为子训练集,令所述子训练集对应的所述子数据集的编号为k,1≤k≤N,则第k子数据集之外的N-1个所述子数据集都分别为一个子测试集,一个所述子训练集和N-1个所述子测试集形成一个训练测试组,共有N个所述训练测试组,令各所述训练测试组的编号分别为1至N;
训练模块,用于实现:从编号1至N,依次选择编号对应的所述训练测试组中的所述子训练集对所述算法模型结构进行训练并得到对应编号的已训练算法模型;
测试模块,从编号1至N,采用编号对应的所述已训练算法模型依次对编号对应的所述训练测试组中的各所述子测试集进行测试并形成测试结果,从各次测试形成的所述测试结果中收集所有错误例子,对所述错误例子对应的所述已标注数据进行清洗并形成清洗后的所述标注数据库。


2.如权利要求1所述的标注数据清洗装置,其特征在于:标注数据清洗装置还包括控制模块,所述控制模块用于实现:控制所述数据等分模块、所述子数据集设置模块、所述训练模块和所述测试模块依次循环工作,当一次循环工作完成后重新下一次循环工作,下一次循环工作对应的所述标注数据库采用前一次循环工作形成的清洗后的所述标注数据库。


3.如权利要求1所述的标注数据清洗装置,其特征在于:对所述错误例子对应的所述已标注数据进行清洗包括:
将所述错误例子对应的所述已标注数据的标注去除并将所述错误例子对应的所述已标注数据从所述标注数据库中剔除;
或者,将所述错误例子对应的所述已标注数据的标注去除并重新对所述错误例子对应的所述已标注数据进行标注。


4.一种标注数据清洗方法,其特征在于,包括如下步骤:
步骤一、提供包括了所有待清洗的已标注数据的标注数据库;
步骤二、根据所述已标注数据选择对应的任务的算法模型并形成算法模型结构;
步骤三、进行数据等分,包括:对所述标注数据库的数据进行等分并形成多个子数据集,令所述子数据集的数量为N,N大于等于2,各所述子数据集的编...

【专利技术属性】
技术研发人员:章子誉颜泽鑫
申请(专利权)人:上海依图网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1