一种数据集的标注方法、装置、终端和可存储介质制造方法及图纸

技术编号:22168339 阅读:52 留言:0更新日期:2019-09-21 11:12
本发明专利技术实施例涉及数据处理领域,公开了一种数据集的标注方法、装置、终端和可存储介质。本发明专利技术中数据集的标注方法包括:分配步骤,对数据集中的各数据分别分配预设的分类标识,获得第一分类结果;特征学习步骤,利用分配分类标识后的数据集对各预设分类进行特征学习,获得各分类的数据特征;测试步骤,利用各分类的数据特征对数据集中的各数据分类,获得第二分类结果;在第二分类结果和第一分类结果的匹配度小于或等于第一阈值时,重新执行分配步骤至测试步骤,直至第二分类结果和第一分类结果的匹配度大于第一阈值;根据所分配的分类标识,确定数据集中各数据的标注,上述方案使得对数据自动标注,且准确性高。

A Data Set Labeling Method, Device, Terminal and Storable Media

【技术实现步骤摘要】
一种数据集的标注方法、装置、终端和可存储介质
本专利技术实施例涉及数据处理领域,特别涉及数据集的标注方法、装置、终端和可存储介质。
技术介绍
近年来,深度学习的分类方法在分类效果上实现了显著的突破,彻底超越了传统方法所能够到达的水平。随着Resnet(残差网络)等各种各样深度学习网络模型被不断地提出,深度学习方法不断的刷新着数据分类在准确性上的极限,使得深度学习方法已经成为了当下分类方法中最热门最可靠的一种。深度学习主要通过巨大数量的训练集在模型中进行前向传导和反向传输,通过不断的往复来自动地改进模型的参数,促使模型最终达到理想的分类效果。因此,训练得到的模型效果除了受模型结构的影响外,还大大依赖于训练集对所属类别的代表性以及其对应标签的准确性。为了保证标签的准确性,目前的训练集标签都是采用人工标注的方法,即通过人类的认知来对每个数据的类别进行标注。这样的方法固然在一定程度上保证了数据集的准确性,但却也有极大的缺陷。因为对于一些较为复杂的分类任务,需要的数据集数量往往是十万乃至百万千万的级别,对这些数据的人工标注将耗费较大的人力和时间。像影响力巨大的imagenet图像分类大赛,其提供数据也不是由单一组织进行标注,而是依靠着Mturk众包平台来实现的。同时,由于人工标注的主观性,为了保证标注结果的客观性和准确性,往往还需要对标注结果进行筛查或者对标注过程进行监管,从而进一步加大了人工标注的成本。因此,对模型的训练大多依靠固定的几个数据集,也就只能对这些数据集所包含的类别进行分类。但在现实生产中,往往需要针对不同的环境和需求,对不同的类别做分类,而且类别多样繁复,固定的几个数据集显然无法将这些种类全部含括。因此,现实场景中,往往需要根据自己的需求构建自己的数据集,以实现对特定类别的分类。但自行构建数据集,将耗费较大的人力来对数据进行标注和标注后的校验。因此,对人工标注的依赖极大的限制了深度学习在实际应用中的全面推广。
技术实现思路
本专利技术实施方式的目的在于提供一种数据集的标注方法、装置、终端和可存储介质,使得对数据自动标注,且准确性高。为解决上述技术问题,本专利技术的实施方式提供了一种数据集的标注方法,包括:分配步骤,对数据集中的各数据分别分配预设的分类标识,获得第一分类结果;特征学习步骤,利用分配分类标识后的数据集对各预设分类进行特征学习,获得各分类的数据特征;测试步骤,利用所述数据特征对所述数据集中的各数据分类,获得第二分类结果;在所述第二分类结果和所述第一分类结果的匹配度小于或等于第一阈值时,重新执行所述分配步骤至所述测试步骤,直至所述第二分类结果和所述第一分类结果的匹配度大于第一阈值;根据所述第二分类结果和所述第一分类结果的匹配度大于第一阈值时所分配的分类标识,确定所述数据集中各数据的标注。本专利技术的实施方式还提供了一种数据集的标注装置,包括:分配模块,用于对数据集中的各数据分别分配预设的分类标识,获得第一分类结果;特征学习模块,用于利用分配分类标识后的数据集对各预设分类进行特征学习,获得各分类的数据特征;测试模块,用于利用所述数据特征对所述数据集中的各数据分类,获得第二分类结果;比对模块,用于在所述第二分类结果和所述第一分类结果的匹配度小于或等于第一阈值时,重新执行所述分配步骤至所述测试步骤,直至所述第二分类结果和所述第一分类结果的匹配度大于第一阈值;标注确定模块,用于根据所述第二分类结果和所述第一分类结果的匹配度大于第一阈值时所分配的分类标识,确定所述数据集中各数据的标注。本专利技术的实施方式还提供了一种终端,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的数据集的标注方法。本专利技术的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述的数据集的标注方法。本专利技术实施方式相对于现有技术而言,通过对数据集分配不确定是否正确的分类标识,并利用这样的分类结果确定各分类下的数据特征,再根据一分类标识下数据的特征基本一致的特点,反向验证之前分配的分类标识是否准确,并在不准确时,更换分配的标识,直至分配的分类标识符合所属分类中数据的特征一致,实现可以自动确认出数据集的标注,且结果准确可信,避免现有数据集均为人工标注的方式,不仅大大降低人力成本,还能避免人为误差,使得标注结果更为客观准确。作为进一步改进,所述特征学习步骤具体利用对所述分配分类标识后的数据集进行模型训练的方式,对各预设分类进行特征学习。上述方案明确通过模型训练的方式进行特征学习,使得特征学习不受预定特征的限制,从而可以找到更合适的特征表征,使得数据特征更为准确合适。作为进一步改进,所述分配步骤包括:对数据集中的一部分数据人工分配,对数据集中的另一部分数据自动分配;在重新执行所述分配步骤时,对所述数据集中自动分配分类标识的数据重新分配分类标识。上述方案明确分配标识时,有部分数据为人工分配,在重新分配时,仅对自动分配分类标识的数据进行重新分配,使得这部分数据的标识结果准确,减少不确定标识的数据量,加快找到合适的分类标识分配结果。同时,仅对部分数据进行人工分配,在降低人力成本的同时,大大加快标注结果的获得。作为进一步改进,人工分配部分的数据量小于自动分配的数据量。明确人工分配的量较自动分配量为少,在控制人工工作量的同时,大大加快找到合适分类结果的速度。作为进一步改进,所述比对步骤之后,以及所述标注确定步骤之前,包括:类别扩展步骤,在所述第二分类结果和所述第一分类结果的匹配度大于第一阈值时所述数据集中数据对应的分类标识的数量小于第二阈值时,对各分类标识进行类别扩展,对所述数据集中的数据分配扩展后的分类标识,并重新执行所述特征学习步骤至所述比对步骤,直至所述第二分类结果和所述第一分类结果的匹配度大于第一阈值,且扩展后的分类标识的数量大于或等于所述第二阈值;所述标注确定步骤,根据所述第二分类结果和所述第一分类结果的匹配度大于第一阈值,且扩展后的分类标识的数量大于或等于所述第二阈值时所分配的分类标识,确定所述数据集中各数据的标注。上述方案明确在预设分类标识时,可以先设较少类别,由于标识数量较少,可以加快找到准确分类结果的速度,之后再逐步做类内扩展,增加分类,通过上述由粗到细的过程,使得找到准确分类结果的整体速度得以有效加快。作为进一步改进,在重新执行所述分配步骤之前,包括:分别计算各分类标识下的分类结果匹配度;确定出匹配度小于或等于第三阈值的分类标识,记做第一类分类标识;对所述数据集中各数据重新分配分类标识,具体为:对所述数据集中所属所述第一类分类标识的各数据重新分配分类标识。本实施例通过重分配时仅重分配分类结果较差的标识,减少重分配量,有利于加快获得合适的分类结果的速度。作为进一步改进,所述第二分类结果包括:各数据的分类结果的置信度;在重新执行所述分配步骤时,对所述数据集中分类结果的置信度较低的各数据重新分配分类标识。本实施例在测试时结合置信度的判定,置信度高的认为基本准确,可以不再重分配,使得减少重分配的数据量,使得找到准确分类结果的速度更快。附图说明一个或多个实施例通过本文档来自技高网
...

【技术保护点】
1.一种数据集的标注方法,其特征在于,包括:分配步骤,对数据集中的各数据分别分配预设的分类标识,获得第一分类结果;特征学习步骤,利用分配分类标识后的数据集对各预设分类进行特征学习,获得各分类的数据特征;测试步骤,利用所述各分类的数据特征对所述数据集中的各数据分类,获得第二分类结果;比对步骤,在所述第二分类结果和所述第一分类结果的匹配度小于或等于第一阈值时,重新执行所述分配步骤至所述测试步骤,直至所述第二分类结果和所述第一分类结果的匹配度大于第一阈值;标注确定步骤,根据所述第二分类结果和所述第一分类结果的匹配度大于第一阈值时所分配的分类标识,确定所述数据集中各数据的标注。

【技术特征摘要】
1.一种数据集的标注方法,其特征在于,包括:分配步骤,对数据集中的各数据分别分配预设的分类标识,获得第一分类结果;特征学习步骤,利用分配分类标识后的数据集对各预设分类进行特征学习,获得各分类的数据特征;测试步骤,利用所述各分类的数据特征对所述数据集中的各数据分类,获得第二分类结果;比对步骤,在所述第二分类结果和所述第一分类结果的匹配度小于或等于第一阈值时,重新执行所述分配步骤至所述测试步骤,直至所述第二分类结果和所述第一分类结果的匹配度大于第一阈值;标注确定步骤,根据所述第二分类结果和所述第一分类结果的匹配度大于第一阈值时所分配的分类标识,确定所述数据集中各数据的标注。2.根据权利要求1所述的数据集的标注方法,其特征在于,所述特征学习步骤具体利用对所述分配分类标识后的数据集进行模型训练的方式,对各预设分类进行特征学习。3.根据权利要求1所述的数据集的标注方法,其特征在于,所述分配步骤包括:对数据集中的一部分数据人工分配,对数据集中的另一部分数据自动分配;在重新执行所述分配步骤时,对所述数据集中自动分配分类标识的数据重新分配分类标识。4.根据权利要求3所述的数据集的标注方法,其特征在于,人工分配部分的数据量小于自动分配的数据量。5.根据权利要求1所述的数据集的标注方法,其特征在于,所述比对步骤之后,以及所述标注确定步骤之前,包括:类别扩展步骤,在所述第二分类结果和所述第一分类结果的匹配度大于第一阈值时所述数据集中数据对应的分类标识的数量小于第二阈值时,对各分类标识进行类别扩展,对所述数据集中的数据分配扩展后的分类标识,并重新执行所述特征学习步骤至所述比对步骤,直至所述第二分类结果和所述第一分类结果的匹配度大于第一阈值,且扩展后的分类标识的数量大于或等于所述第二阈值;所述标注确定步骤,根据所述第二分类结果和所述第一分类结果的匹配度大于第一阈值,且扩展后的分...

【专利技术属性】
技术研发人员:梁昊南一冰廉士国
申请(专利权)人:深圳前海达闼云端智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1