一种提升数据标注准确率的方法及装置制造方法及图纸

技术编号:36407980 阅读:59 留言:0更新日期:2023-01-18 10:17
本发明专利技术涉及一种提升数据标注准确率的方法及装置,属于数据处理技术领域。方法包括:随机抽取第一标注人员标注的一条数据,获取所述数据的第一标注信息;将所述数据发送给第二标注人员,并提醒所述第二标注人员对所述数据进行优先标注;接收所述第二标注人员返回的对所述数据的第二标注信息;比较所述数据的所述第一标注信息和所述第二标注信息,若二者一致,则确定对所述数据的标注信息正确无误。本发明专利技术能够提高数据标注的效率和准确率。能够提高数据标注的效率和准确率。能够提高数据标注的效率和准确率。

【技术实现步骤摘要】
一种提升数据标注准确率的方法及装置


[0001]本专利技术属于数据处理
,尤其涉及一种提升数据标注准确率的方法及装置。

技术介绍

[0002]人工智能的最终目标使计算机能够模拟人的思维方式和行为,若想达到这个目标,则需要大量优质的训练数据使人工智能可以通过学习从而形成更好的模型,变得更加智能化。然而在标注人员标注数据时,面对大量的数据,标注的过程中难免出现错误数据,如果错误数据过多,人工智能通过学习错误的数据得过的模型也落后行业水平。
[0003]如果把人工智能比作金字塔,最顶端的是人工智能应用(比如无人车、机器人等),而最底端则是数据服务,简单来说,数据标注就是标注和加工原始数据、分析提炼专业特征,并通过训练和测评让算法迭代升级,即使用自动化工具通过分类、画框、注释等等对收集来的数据进行标记以形成可供计算机识别分析的优质数据的过程。
[0004]现有技术方案中包括三个角色:1)标注员标注数据;2)审核员负责被标注数据的质量;3)管理员负责人员管理,任务发放。标注流程包括:1)管理员进行任务发放,绩效管理;2)标注员熟悉标注工具,设置一些快捷键,高效正确完成标注;3)质量跟踪,审核员通过计算标注人员的正确率,对人员进行淘汰制来提高人员的标注质量。
[0005]现有技术的缺点:1)标注人员在认知范围内标注错误时,不能及时发现并纠正,造成滚雪球现象;2)审核工作在标注完成后进行,全部压力都集中到审核人员,造成极大的压力,难免会有疏忽。再者如果准确率很低的话,数据是不可逆的,将面临弃用、重新进行标记等问题,造成极大的资源浪费;3) 当下数据标注行业单次交付达标率低于50%,三次内交付达标率低于90%,远远不能满足AI企业的需求。

技术实现思路

[0006]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种提升数据标注准确率的方法及装置,能够提高数据标注的效率和准确率。
[0007]根据本专利技术的一个方面,本专利技术提供了一种提升数据标注准确率的方法,所述方法包括以下步骤:S1:随机抽取第一标注人员标注的一条数据,获取所述数据的第一标注信息;将所述数据发送给第二标注人员,并提醒所述第二标注人员对所述数据进行优先标注;S2:接收所述第二标注人员返回的对所述数据的第二标注信息;比较所述数据的所述第一标注信息和所述第二标注信息,若二者一致,则确定对所述数据的标注信息正确无误。
[0008]优选地,所述随机抽取第一标注人员标注的一条数据包括:实时统计标注人员所标注数据的数量,当所述标注人员开始标注后每标注N条数据,则在所述标注人员所标注的数据中随机抽取一条数据。
[0009]优选地,所述方法包括:比较所述数据的所述第一标注信息和所述第二标注信息,当二者不一致时,把所述第一标注信息和所述第二标注信息推送给审核员进行审核。
[0010]优选地,所述方法包括:接收审核员审核完成之后形成的审核信息,将所述审核信息推送给相关标注人员,锁定标注人员账号,强制停止标注任务,提醒标注人员优先处理所述审核信息;所述审核信息是所述审核员对所述第一标注信息和所述第二标注信息进行审核,给错误一方或双方加上标识之后形成的。
[0011]优选地,所述方法包括:在标注人员对所述审核信息有异议发起复核,并由审核员发起投票的情况下,实时统计投票结果,并把投票结果推送给审核员和标注人员。
[0012]根据本专利技术的另一个方面,本专利技术还提供了一种提升数据标注准确率的装置,所述装置包括:抽取模块,用于随机抽取第一标注人员标注的一条数据,获取所述数据的第一标注信息;收发模块,用于将所述数据发送给第二标注人员,并提醒所述第二标注人员对所述数据进行优先标注;接收所述第二标注人员返回的对所述数据的第二标注信息;判断模块,用于比较所述数据的所述第一标注信息和所述第二标注信息,若二者一致,则确定对所述数据的标注信息正确无误。
[0013]优选地,所述抽取模块随机抽取第一标注人员标注的一条数据包括:实时统计标注人员所标注数据的数量,当所述标注人员开始标注后每标注N条数据,则在所述标注人员所标注的数据中随机抽取一条数据。
[0014]优选地,所述判断模块比较所述数据的所述第一标注信息和所述第二标注信息,当二者不一致时,所述收发模块把所述第一标注信息和所述第二标注信息推送给审核员进行审核。
[0015]优选地,所述收发模块还用于:接收审核员审核完成之后形成的审核信息,将所述审核信息推送给相关标注人员,锁定标注人员账号,强制停止标注任务,提醒标注人员优先处理所述审核信息;所述审核信息是所述审核员对所述第一标注信息和所述第二标注信息进行审核,给错误一方或双方加上标识之后形成的。
[0016]优选地,所述收发模块还用于:在标注人员对所述审核信息有异议发起复核,并由审核员发起投票的情况下,实时统计投票结果,并把投票结果推送给审核员和标注人员。
[0017]有益效果:本专利技术通过对标注数据进行抽查,由审核人员进行标注信息的审核,在标注人员对审核信息有异议的情况下发起投票,能够提高数据标注的效率和准确率。
[0018]通过参照以下附图及对本专利技术的具体实施方式的详细描述,本专利技术的特征及优点将会变得清楚。
附图说明
[0019]图1是本申请的一种提升数据标注准确率的方法流程图;图2是本申请的一种数据标注投票示意图;图3是本申请的一种数据标注装置通知和统计示意图;图4是本申请的一种提升数据标注准确率的装置结构示意图。
具体实施方式
[0020]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]实施例1图1是本申请的一种提升数据标注准确率的方法流程图。如图1所示,本专利技术提供了本专利技术提供了一种提升数据标注准确率的方法,所述方法包括以下步骤:S1:随机抽取第一标注人员标注的一条数据,获取所述数据的第一标注信息;将所述数据发送给第二标注人员,并提醒所述第二标注人员对所述数据进行优先标注。
[0022]具体地,管理员根据数据量确定标注人员个数,把数据平均分发给标注员,同时设置期望的验证比例,此案例以10:1为标准。
[0023]标注员在在线平台上进行标注,平台提供快捷键,标注员第一次使用会有指导层提示,帮助标注员快速上手。
[0024]标注员收到待核验的数据时,装置会优先让其处理该数据;标注员对待核验的数据是无感的,正常标注完成后,会计入工作量。
[0025]优选地,所述随机抽取第一标注人员标注的一条数据包括:实时统计标注人员所标注数据的数量,当所述标注人员开始标注后每标注N条数据,则在所述标注人员所标注的数据中随机抽取一条数据。
[0026]具体地,标注员开始标注后每标10条数据,装置就会在其中随机抽取一条数据,发送给其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提升数据标注准确率的方法,其特征在于,所述方法包括以下步骤:S1:随机抽取第一标注人员标注的一条数据,获取所述数据的第一标注信息;将所述数据发送给第二标注人员,并提醒所述第二标注人员对所述数据进行优先标注; S2:接收所述第二标注人员返回的对所述数据的第二标注信息;比较所述数据的所述第一标注信息和所述第二标注信息,若二者一致,则确定对所述数据的标注信息正确无误。2.根据权利要求1所述的方法,其特征在于,所述随机抽取第一标注人员标注的一条数据包括:实时统计标注人员所标注数据的数量,当所述标注人员开始标注后每标注N条数据,则在所述标注人员所标注的数据中随机抽取一条数据。3.根据权利要求1所述的方法,其特征在于,所述方法包括:比较所述数据的所述第一标注信息和所述第二标注信息,当二者不一致时,把所述第一标注信息和所述第二标注信息推送给审核员进行审核。4.根据权利要求3所述的方法,其特征在于,所述方法包括:接收审核员审核完成之后形成的审核信息,将所述审核信息推送给相关标注人员,锁定标注人员账号,强制停止标注任务,提醒标注人员优先处理所述审核信息;所述审核信息是所述审核员对所述第一标注信息和所述第二标注信息进行审核,给错误一方或双方加上标识之后形成的。5.根据权利要求4所述的方法,其特征在于,所述方法包括:在标注人员对所述审核信息有异议发起复核,并由审核员发起投票的情况下,实时统计投票结果,并把投票结果推送给审核员和标注人员。6.一种提升数据标注准确率的装置,其特征...

【专利技术属性】
技术研发人员:丁怀强毕旭东蔡永维田阔
申请(专利权)人:中化现代农业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1