数据标注方法、装置、系统及存储介质制造方法及图纸

技术编号:22755389 阅读:21 留言:0更新日期:2019-12-07 04:06
本发明专利技术提供一种数据标注方法、装置、系统及存储介质,该方法包括:获取待标记数据的数据特征;将所述数据特征分发给各个分层的分类网络;根据所述数据特征,通过所述分类网络获取不同分层的分类结果;将分类网络的分类结果作为数据标注结果。本发明专利技术适用于多个标签的数据标注场景,可以有效减少人力成本投入,提高数据标注效率和数据标注质量。

Data annotation method, device, system and storage medium

The invention provides a data annotation method, device, system and storage medium, the method includes: acquiring data characteristics of the data to be labeled; distributing the data characteristics to each layered classification network; obtaining classification results of different layers through the classification network according to the data characteristics; and taking the classification results of the classification network as the data annotation results. The invention is suitable for data annotation scenarios of multiple labels, can effectively reduce labor cost investment, and improve data annotation efficiency and data annotation quality.

【技术实现步骤摘要】
数据标注方法、装置、系统及存储介质
本专利技术涉及数据处理
,尤其涉及一种数据标注方法、装置、系统及存储介质。
技术介绍
随着计算机技术的发展,人工智能系统的数据处理能力也越来越强大。目前,人工智能系统大多基于神经网络进行构建。大部分神经网络系统都离不开大量标注数据的使用。在这些标注数据中,很大一部分数据属于对输入进行分类的分类标注数据。因此,获取分类标注数据成为很多人工智能项目的首要工作。而分类标注数据的质量直接决定了人工智能系统的分析能力。现有技术中,对原始数据进行分类标记一般是直接让标注人员从候选类别中选出正确的标签。但是,这种方式只能适用于候选标签个数比较少的情况,当标签个数较多时,这种方式的标注效率和标注准确度会大大降低,从而影响标注数据的质量。
技术实现思路
本专利技术提供一种数据标注方法、装置、系统及存储介质,适用于多个标签的数据标注场景,可以有效减少人力成本投入,提高数据标注效率和数据标注质量。第一方面,本专利技术实施例提供一种数据标注方法,包括:获取待标记数据的数据特征;将所述数据特征分发给各个分层的分类网络;根据所述数据特征,通过所述分类网络获取不同分层的分类结果;将分类网络的分类结果作为数据标注结果。在一种可能的设计中,在根据所述数据特征,通过所述分类网络获取不同分层的分类结果之后,还包括:从第一层分类网络的分类结果开始,依次审核各个分层的分类网络的分类结果;若所有分层的分类结果均审核通过,则获取最后一层分类网络的分类结果。在一种可能的设计中,所述从第一层分类网络的分类结果开始,依次审核各个分层的分类网络的分类结果,包括:判断当前层分类网络的分类结果是否审核通过;若当前层分类网络的分类结果审核通过,则开启对下一层分类网络的分类结果的审核;若当前层分类网络的分类结果审核不通过,则判断当前层分类网络的分类结果是否属于预设的候选标签集;若属于所述预设的候选标签集,则从所述预设的候选标签集中选择正确的分类标签作为分类结果;若不属于所述预设的候选标签集,则确定分类结果为不属于本类别。在一种可能的设计中,还包括:若当前层分类网络的分类结果为不属于本类别,则将数据特征反馈给上一层分类网络,以对所述上一层分类网络进行迭代训练,直到所述上一层分类网络输出正确的分类结果。在一种可能的设计中,所述从第一层分类网络的分类结果开始,依次审核各个分层的分类网络的分类结果,还包括:获取当前层分类网络的分类结果的预估准确率得分;其中,所述预估准确率得分与分类结果正确的次数正相关;若当前层分类网络的分类结果的预估准确率得分大于预设阈值,则直接跳过对当前层分类网络的分类结果的审核。第二方面,本专利技术实施例提供一种数据标注装置,包括:提取模块,用于获取待标记数据的数据特征;分发模块,用于将所述数据特征分发给各个分层的分类网络;分类模块,用于根据所述数据特征,通过所述分类网络获取不同分层的分类结果;输出模块,用于将分类网络的分类结果作为数据标注结果。在一种可能的设计中,还包括:审核模块,用于:从第一层分类网络的分类结果开始,依次审核各个分层的分类网络的分类结果;若所有分层的分类结果均审核通过,则获取最后一层分类网络的分类结果。在一种可能的设计中,所述审核模块,还用于:判断当前层分类网络的分类结果是否审核通过;若当前层分类网络的分类结果审核通过,则开启对下一层分类网络的分类结果的审核;若当前层分类网络的分类结果审核不通过,则判断当前层分类网络的分类结果是否属于预设的候选标签集;若属于所述预设的候选标签集,则从所述预设的候选标签集中选择正确的分类标签作为分类结果;若不属于所述预设的候选标签集,则确定分类结果为不属于本类别。在一种可能的设计中,还包括:反馈模块,用于:若当前层分类网络的分类结果为不属于本类别,则将数据特征反馈给上一层分类网络,以对所述上一层分类网络进行迭代训练,直到所述上一层分类网络输出正确的分类结果。在一种可能的设计中,所述审核模块,还用于:获取当前层分类网络的分类结果的预估准确率得分;其中,所述预估准确率得分与分类结果正确的次数正相关;若当前层分类网络的分类结果的预估准确率得分大于预设阈值,则直接跳过对当前层分类网络的分类结果的审核。第三方面,本专利技术提供一种数据标注系统,包括:处理器和存储器;存储器中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行如第一方面中任一项所述的数据标注方法。第四方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述的数据标注方法。第五方面,本专利技术实施例提供一种程序产品,所述程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,服务器的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得服务器执行第一方面中任一所述的数据标注方法。本专利技术提供的一种数据标注方法、装置、系统及存储介质,通过获取待标记数据的数据特征;将所述数据特征分发给各个分层的分类网络;根据所述数据特征,通过所述分类网络获取不同分层的分类结果;将分类网络的分类结果作为数据标注结果。本专利技术适用于多个标签的数据标注场景,可以有效减少人力成本投入,提高数据标注效率和数据标注质量。附图说明图1为本专利技术一应用场景的原理示意图;图2为本专利技术实施例一提供的数据标注方法的流程图;图3为本专利技术实施例二提供的数据标注方法的流程图;图4为本专利技术实施例提供的动物场景的层次化标签网络示意图;图5为本专利技术实施例提供的分类结果审核的流程示意图;图6为本专利技术实施例三提供的数据标注装置的结构示意图;图7为本专利技术实施例四提供的数据标注装置的结构示意图;图8为本专利技术实施例五提供的数据标注系统的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产本文档来自技高网...

【技术保护点】
1.一种数据标注方法,其特征在于,包括:/n获取待标记数据的数据特征;/n将所述数据特征分发给各个分层的分类网络;/n根据所述数据特征,通过所述分类网络获取不同分层的分类结果;/n将分类网络的分类结果作为数据标注结果。/n

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:
获取待标记数据的数据特征;
将所述数据特征分发给各个分层的分类网络;
根据所述数据特征,通过所述分类网络获取不同分层的分类结果;
将分类网络的分类结果作为数据标注结果。


2.根据权利要求1所述的方法,其特征在于,在根据所述数据特征,通过所述分类网络获取不同分层的分类结果之后,还包括:
从第一层分类网络的分类结果开始,依次审核各个分层的分类网络的分类结果;
若所有分层的分类结果均审核通过,则获取最后一层分类网络的分类结果。


3.根据权利要求2所述的方法,其特征在于,所述从第一层分类网络的分类结果开始,依次审核各个分层的分类网络的分类结果,包括:
判断当前层分类网络的分类结果是否审核通过;
若当前层分类网络的分类结果审核通过,则开启对下一层分类网络的分类结果的审核;
若当前层分类网络的分类结果审核不通过,则判断当前层分类网络的分类结果是否属于预设的候选标签集;
若属于所述预设的候选标签集,则从所述预设的候选标签集中选择正确的分类标签作为分类结果;
若不属于所述预设的候选标签集,则确定分类结果为不属于本类别。


4.根据权利要求3所述的方法,其特征在于,还包括:
若当前层分类网络的分类结果为不属于本类别,则将数据特征反馈给上一层分类网络,以对所述上一层分类网络进行迭代训练,直到所述上一层分类网络输出正确的分类结果。


5.根据权利要求2所述的方法,其特征在于,所述从第一层分类网络的分类结果开始,依次审核各个分层的分类网络的分类结果,还包括:
获取当前层分类网络的分类结果的预估准确率得分;其中,所述预估准确率得分与分...

【专利技术属性】
技术研发人员:程洲
申请(专利权)人:百度中国有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1