一种数据集的标注方法、装置、终端和可存储介质制造方法及图纸

技术编号：22168339 阅读：52 留言：0更新日期：2019-09-21 11:12

本发明专利技术实施例涉及数据处理领域，公开了一种数据集的标注方法、装置、终端和可存储介质。本发明专利技术中数据集的标注方法包括：分配步骤，对数据集中的各数据分别分配预设的分类标识，获得第一分类结果；特征学习步骤，利用分配分类标识后的数据集对各预设分类进行特征学习，获得各分类的数据特征；测试步骤，利用各分类的数据特征对数据集中的各数据分类，获得第二分类结果；在第二分类结果和第一分类结果的匹配度小于或等于第一阈值时，重新执行分配步骤至测试步骤，直至第二分类结果和第一分类结果的匹配度大于第一阈值；根据所分配的分类标识，确定数据集中各数据的标注，上述方案使得对数据自动标注，且准确性高。

A Data Set Labeling Method, Device, Terminal and Storable Media

全部详细技术资料下载

【技术实现步骤摘要】
一种数据集的标注方法、装置、终端和可存储介质
本专利技术实施例涉及数据处理领域，特别涉及数据集的标注方法、装置、终端和可存储介质。
技术介绍
近年来，深度学习的分类方法在分类效果上实现了显著的突破，彻底超越了传统方法所能够到达的水平。随着Resnet(残差网络)等各种各样深度学习网络模型被不断地提出，深度学习方法不断的刷新着数据分类在准确性上的极限，使得深度学习方法已经成为了当下分类方法中最热门最可靠的一种。深度学习主要通过巨大数量的训练集在模型中进行前向传导和反向传输，通过不断的往复来自动地改进模型的参数，促使模型最终达到理想的分类效果。因此，训练得到的模型效果除了受模型结构的影响外，还大大依赖于训练集对所属类别的代表性以及其对应标签的准确性。为了保证标签的准确性，目前的训练集标签都是采用人工标注的方法，即通过人类的认知来对每个数据的类别进行标注。这样的方法固然在一定程度上保证了数据集的准确性，但却也有极大的缺陷。因为对于一些较为复杂的分类任务，需要的数据集数量往往是十万乃至百万千万的级别，对这些数据的人工标注将耗费较大的人力和时间。像影响力巨大的imagenet图像分类大赛，其提供数据也不是由单一组织进行标注，而是依靠着Mturk众包平台来实现的。同时，由于人工标注的主观性，为了保证标注结果的客观性和准确性，往往还需要对标注结果进行筛查或者对标注过程进行监管，从而进一步加大了人工标注的成本。因此，对模型的训练大多依靠固定的几个数据集，也就只能对这些数据集所包含的类别进行分类。但在现实生产中，往往需要针对不同的环境和需求，对不同的类别做分类，而且类别多样...

【技术保护点】
1.一种数据集的标注方法，其特征在于，包括：分配步骤，对数据集中的各数据分别分配预设的分类标识，获得第一分类结果；特征学习步骤，利用分配分类标识后的数据集对各预设分类进行特征学习，获得各分类的数据特征；测试步骤，利用所述各分类的数据特征对所述数据集中的各数据分类，获得第二分类结果；比对步骤，在所述第二分类结果和所述第一分类结果的匹配度小于或等于第一阈值时，重新执行所述分配步骤至所述测试步骤，直至所述第二分类结果和所述第一分类结果的匹配度大于第一阈值；标注确定步骤，根据所述第二分类结果和所述第一分类结果的匹配度大于第一阈值时所分配的分类标识，确定所述数据集中各数据的标注。

【技术特征摘要】
1.一种数据集的标注方法，其特征在于，包括：分配步骤，对数据集中的各数据分别分配预设的分类标识，获得第一分类结果；特征学习步骤，利用分配分类标识后的数据集对各预设分类进行特征学习，获得各分类的数据特征；测试步骤，利用所述各分类的数据特征对所述数据集中的各数据分类，获得第二分类结果；比对步骤，在所述第二分类结果和所述第一分类结果的匹配度小于或等于第一阈值时，重新执行所述分配步骤至所述测试步骤，直至所述第二分类结果和所述第一分类结果的匹配度大于第一阈值；标注确定步骤，根据所述第二分类结果和所述第一分类结果的匹配度大于第一阈值时所分配的分类标识，确定所述数据集中各数据的标注。2.根据权利要求1所述的数据集的标注方法，其特征在于，所述特征学习步骤具体利用对所述分配分类标识后的数据集进行模型训练的方式，对各预设分类进行特征学习。3.根据权利要求1所述的数据集的标注方法，其特征在于，所述分配步骤包括：对数据集中的一部分数据人工分配，对数据集中的另一部分数据自动分配；在重新执行所述分配步骤时，对所述数据集中自动分配分类标识的数据重新分配分类标识。4.根据权利要求3所述的数据集的标注方法，其特征在于，人工分配部分的数据量小于自动分配的数据量。5.根据权利要求1所述的数据集的标注方法，其特征在于，所述比对步骤之后，以及所述标注确定步骤之前，包括：类别扩展步骤，在所述第二分类结果和所述第一分类结果的匹配度大于第一阈值时所述数据集中数据对应的分类标识的数量小于第二阈值时，对各分类标识进行类别扩展，对所述数据集中的数据分配扩展后的分类标识，并重新执行所述特征学习步骤至所述比对步骤，直至所述第二分类结果和所述第一分类结果的匹配度大于第一阈值，且扩展后的分类标识的数量大于或等于所述第二阈值；所述标注确定步骤，根据所述第二分类结果和所述第一分类结果的匹配度大于第一阈值，且扩展后的分...

【专利技术属性】
技术研发人员：梁昊，南一冰，廉士国，
申请(专利权)人：深圳前海达闼云端智能科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人