数据标注方法、装置、系统及存储介质制造方法及图纸

技术编号：22755389 阅读：21 留言：0更新日期：2019-12-07 04:06

本发明专利技术提供一种数据标注方法、装置、系统及存储介质，该方法包括：获取待标记数据的数据特征；将所述数据特征分发给各个分层的分类网络；根据所述数据特征，通过所述分类网络获取不同分层的分类结果；将分类网络的分类结果作为数据标注结果。本发明专利技术适用于多个标签的数据标注场景，可以有效减少人力成本投入，提高数据标注效率和数据标注质量。

Data annotation method, device, system and storage medium

The invention provides a data annotation method, device, system and storage medium, the method includes: acquiring data characteristics of the data to be labeled; distributing the data characteristics to each layered classification network; obtaining classification results of different layers through the classification network according to the data characteristics; and taking the classification results of the classification network as the data annotation results. The invention is suitable for data annotation scenarios of multiple labels, can effectively reduce labor cost investment, and improve data annotation efficiency and data annotation quality.

全部详细技术资料下载

【技术实现步骤摘要】
数据标注方法、装置、系统及存储介质
本专利技术涉及数据处理
，尤其涉及一种数据标注方法、装置、系统及存储介质。
技术介绍
随着计算机技术的发展，人工智能系统的数据处理能力也越来越强大。目前，人工智能系统大多基于神经网络进行构建。大部分神经网络系统都离不开大量标注数据的使用。在这些标注数据中，很大一部分数据属于对输入进行分类的分类标注数据。因此，获取分类标注数据成为很多人工智能项目的首要工作。而分类标注数据的质量直接决定了人工智能系统的分析能力。现有技术中，对原始数据进行分类标记一般是直接让标注人员从候选类别中选出正确的标签。但是，这种方式只能适用于候选标签个数比较少的情况，当标签个数较多时，这种方式的标注效率和标注准确度会大大降低，从而影响标注数据的质量。
技术实现思路
本专利技术提供一种数据标注方法、装置、系统及存储介质，适用于多个标签的数据标注场景，可以有效减少人力成本投入，提高数据标注效率和数据标注质量。第一方面，本专利技术实施例提供一种数据标注方法，包括：获取待标记数据的数据特征；将所述数据特征分发给各个分层的分类网络；根据所述数据特征，通过所述分类网络获取不同分层的分类结果；将分类网络的分类结果作为数据标注结果。在一种可能的设计中，在根据所述数据特征，通过所述分类网络获取不同分层的分类结果之后，还包括：从第一层分类网络的分类结果开始，依次审核各个分层的分类网络的分类结果；若所有分层的分类结果均审核通过，...

【技术保护点】
1.一种数据标注方法，其特征在于，包括：/n获取待标记数据的数据特征；/n将所述数据特征分发给各个分层的分类网络；/n根据所述数据特征，通过所述分类网络获取不同分层的分类结果；/n将分类网络的分类结果作为数据标注结果。/n

【技术特征摘要】
1.一种数据标注方法，其特征在于，包括：
获取待标记数据的数据特征；
将所述数据特征分发给各个分层的分类网络；
根据所述数据特征，通过所述分类网络获取不同分层的分类结果；
将分类网络的分类结果作为数据标注结果。

2.根据权利要求1所述的方法，其特征在于，在根据所述数据特征，通过所述分类网络获取不同分层的分类结果之后，还包括：
从第一层分类网络的分类结果开始，依次审核各个分层的分类网络的分类结果；
若所有分层的分类结果均审核通过，则获取最后一层分类网络的分类结果。

3.根据权利要求2所述的方法，其特征在于，所述从第一层分类网络的分类结果开始，依次审核各个分层的分类网络的分类结果，包括：
判断当前层分类网络的分类结果是否审核通过；
若当前层分类网络的分类结果审核通过，则开启对下一层分类网络的分类结果的审核；
若当前层分类网络的分类结果审核不通过，则判断当前层分类网络的分类结果是否属于预设的候选标签集；
若属于所述预设的候选标签集，则从所述预设的候选标签集中选择正确的分类标签作为分类结果；
若不属于所述预设的候选标签集，则确定分类结果为不属于本类别。

4.根据权利要求3所述的方法，其特征在于，还包括：
若当前层分类网络的分类结果为不属于本类别，则将数据特征反馈给上一层分类网络，以对所述上一层分类网络进行迭代训练，直到所述上一层分类网络输出正确的分类结果。

5.根据权利要求2所述的方法，其特征在于，所述从第一层分类网络的分类结果开始，依次审核各个分层的分类网络的分类结果，还包括：
获取当前层分类网络的分类结果的预估准确率得分；其中，所述预估准确率得分与分...

【专利技术属性】
技术研发人员：程洲，
申请(专利权)人：百度中国有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人