一种标注数据的审核推送方法及装置制造方法及图纸

技术编号:22075975 阅读:22 留言:0更新日期:2019-09-12 14:13
本发明专利技术公开了一种标注数据的审核推送方法及装置,涉及数据处理技术领域,主要目的在于推送更有审核价值的标注数据供审核,从而提高标注数据审核效率;主要技术方案包括:确定未审核标注数据集中的各未审核标注数据的排序;基于未审核标注数据集中的各未审核标注数据排序,从未审核标注数据集中提取未审核标注数据推送给设定的审核员;以及收集审核员的审核结果数据,按照一定频率基于所收集的审核结果数据,更新未审核标注数据集中的各未审核标注数据的排序。

A Method and Device for Auditing and Pushing Labeled Data

【技术实现步骤摘要】
一种标注数据的审核推送方法及装置
本专利技术涉及数据处理
,特别是涉及一种标注数据的审核推送方法及装置。
技术介绍
随着大数据时代的来临,众多行业的数据量成几何级数的增长。为了更好的对海量数据进行利用,通常对数据进行标注,以便使数据可以更好的驱动生产、经营、生活等各种活动。在数据应用于机器学习以及数据挖掘等场景下时,为了使已标注的标注数据更好更准确,通常在对已标注好的标注数据进行审核。目前,通常采用人工审核方式对已标注好的标注数据进行审核。在人工审核时,审核员需要逐个对标注数据进行人工审核,且全部的标注数据均要逐个被审核后才能完成整个人工审核过程。可见,这种人工审核方式完全依赖于审核员的主动识别来完成审核,且无论标注数据的质量好或坏均需要挨个审核,审核盲目性较大,从而导致审核效率较低。
技术实现思路
有鉴于此,本专利技术提出了一种标注数据的审核方法及装置,主要目的在于推送更有审核价值的标注数据供审核,从而提高标注数据审核效率。第一方面,本专利技术提供了一种标注数据的审核推送,该方法包括:确定未审核标注数据集中的各未审核标注数据的排序;基于未审核标注数据集中的各未审核标注数据排序,从未审核标注数据集中提取未审核标注数据推送给设定的审核员;以及收集审核员的审核结果数据,按照一定频率基于所收集的审核结果数据,更新未审核标注数据集中的各未审核标注数据的排序。第二方面,本专利技术提供了一种标注数据的审核装置,该装置包括:确定单元,用于确定未审核标注数据集中的各未审核标注数据的排序;推送单元,用于基于未审核标注数据集中的各未审核标注数据排序,从未审核标注数据集中提取未审核标注数据推送给设定的审核员;以及更新单元,用于收集审核员的审核结果数据,按照一定频率基于所收集的审核结果数据,更新未审核标注数据集中的各未审核标注数据的排序。第三方面,本专利技术提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行第一方面中任意一项所述的标注数据的审核推送方法。第四方面,本专利技术提供了一种存储管理设备,包括:存储器,用于存储程序;处理器,耦合至所述存储器,用于运行所述程序以执行第一方面中任意一项所述的标注数据的审核推送方法。借由上述技术方案,本专利技术提供的标注数据的审核推送方法及装置,确定未审核标注数据集中的各未审核标注数据的排序,并基于未审核标注数据集中的各未审核标注数据排序,从未审核标注数据集中提取未审核标注数据推送给设定的审核员。在审核员审核完标注数据时,收集审核员的审核结果数据,按照一定频率基于所收集的审核结果数据,更新未审核标注数据集中的各未审核标注数据的排序。可见,在审核标注数据时,依据能够更新的未审核标注数据排序推送更有审核价值的标注数据供审核员审核,因此可以提高标注数据审核效率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本专利技术一个实施例提供的一种标注数据的审核推送方法的流程图;图2示出了本专利技术另一个实施例提供的一种标注数据的审核推送方法的流程图;图3示出了本专利技术一个实施例提供的一种标注数据的审核推送装置的结构示意图;图4示出了本专利技术另一个实施例提供的一种标注数据的审核推送装置的结构示意图。具体实施方式下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。如图1所示,本专利技术实施例提供了一种标注数据的审核推送方法,该方法主要包括:101、确定未审核标注数据集中的各未审核标注数据的排序。在实际应用中,未审核标注数据集中会有大量的未审核标注数据,这些标注数据是由至少一个标注者通过标注原始未标注数据而得,这里所述的原始未标注数据可以包括但不限于文本数据、图像数据、语音数据和视频数据中的至少一种或多种。具体的,基于不同的未审核标注数据集的维护方法和不同的审核要求,未审核标注数据集至少存在如下几种:第一种,未审核标注数据集中包括设定数量的未审核标注数据,未审核标注数据集中的未审核标注数据的数量随着标注数据的人工审核过程而减少。第二种,未审核标注数据集中包括设定数量的未审核标注数据,未审核标注数据集中的标注数据的数量随着标注数据的人工审核过程,通过指定的接口获取至少一个标注者相应的新的标注数据补充到未审核标注数据集中,从而维持未审核标注数据集中的未审核标注数据的数量不变。第三种,未审核标注数据集中的未审核标注数据的数量不做限定,其对应于特定的至少一个标注者,特定的标注者在设定的时间段内的标注数据均收集到未审核标注数据中。第四种,未审核标注数据集中的未审核标注数据的数量不做限定,其对应于特定的至少一个标注者,在标注数据的人工审核过程中,通过指定的接口获取特定的标注者相应的新的标注数据补充到未审核标注数据集中,从而使得新的标注数据也可以及时得到人工审核。具体的,确定未审核标注数据集中的各未审核标注数据的排序的过程具体包括如下步骤:确定未审核标注数据集中的各标注数据的置信度值,置信度值与相应标注数据的标注的正确概率相关。基于各标注数据的置信度值,确定各未审核标注数据的排序。本专利技术实施例中所涉及的置信度值与相应标注数据的标注的正确概率相关,也就是标注数据的置信度值可以反映标注数据的正确与否,因此可以通过各标注数据的置信度值对各标注数据进行排序,从而标注数据的审核员可以根据标注数据的置信度值优先对最值得审核的标注数据进行审核,使得标注数据的审核更有针对性。标注数据的置信度值的确定方法至少可以包括如下几种:第一种,从指定接口获取未审核标注数据集中的各标注数据的置信度值,将获取的各置信度值相应的确定为各标注数据的置信度值。这里所述的指定接口连接于用于计算标注数据的置信度值的计算平台。在存在置信度值获取需求时,直接通过指定接口获取即可,由于置信度值是直接通过指定接口获取的,因此可以快速的确定标注数据的置信度值。第二种,获取已审核标注数据的审核结果数据,基于审核结果数据确定未审核标注数据集中的各标注数据的置信度值。需要说明的是,在未审核标注数据集为首次排序时,审核结果数据为设定数量的历史已审核标注数据的审核结果数据。在未审核标注数据集为非首次排序时,为了对未审核的标注数据的置信度值进行优化,使得置信度值更能反映出相应的标注数据的标注的正确概率,则审核结果数据为设定数量的已审核标注数据的审核结果数据和收集的审核员的审核结果数据。具体的,设定数量的已审核标注数据的审核结果数据至少可以通过如下四种途径获取:一是,从存储有已审核标注数据的数据库中确定设定数量的已审核标注数据,并提取确定的已审核标注本文档来自技高网...

【技术保护点】
1.一种标注数据的审核推送方法,其特征在于,包括:确定未审核标注数据集中的各未审核标注数据的排序;基于未审核标注数据集中的各未审核标注数据排序,从未审核标注数据集中提取未审核标注数据推送给设定的审核员;以及收集审核员的审核结果数据,按照一定频率基于所收集的审核结果数据,更新未审核标注数据集中的各未审核标注数据的排序。

【技术特征摘要】
1.一种标注数据的审核推送方法,其特征在于,包括:确定未审核标注数据集中的各未审核标注数据的排序;基于未审核标注数据集中的各未审核标注数据排序,从未审核标注数据集中提取未审核标注数据推送给设定的审核员;以及收集审核员的审核结果数据,按照一定频率基于所收集的审核结果数据,更新未审核标注数据集中的各未审核标注数据的排序。2.根据权利要求1所述的方法,其特征在于,所述确定未审核标注数据集中的各未审核标注数据的排序,包括:确定未审核标注数据集中的各标注数据的置信度值,所述置信度值与相应标注数据的标注的正确概率相关;基于各标注数据的置信度值,确定各未审核标注数据的排序。3.根据权利要求2所述的方法,其特征在于,所述基于各标注数据的置信度值,确定各未审核标注数据的排序,包括:从所述未审核标注数据集中,选取置信度值位于预设的阈值区间内的未审核标注数据;根据选取的各未审核标注数据的标注者的审核行为信息包括的内容,确定所述选取的各未审核标注数据的排序;其中,所述审核行为信息包括如下内容中的一个或多个:标注者连续出现标注正确的标注数据的数量、标注者连续出现标注错误的标注数据的数量以及标注者被审核的次数。4.根据权利要求2所述的方法,其特征在于,所述基于各标注数据的置信度值,确定各未审核标注数据的排序,包括:利用第一公式,确定各未审核标注数据的排序分值;所述第一公式为:其中,所述Sj表征第j个未审核标注数据的排序分值;所述Mj表征第j个未审核标注数据的置信度值;所述Min表征各未审核标注数据中标注者i的第n个未审核标注数据;基于所述排序分值的大小,确定各未审核标注数据的排序。5.根据权利要求2所述的方法,其特征在于,所述基于各标注数据的置信度值,确定各未审核标注数据的排序,包括:从所述未审核标注数据集中,选取置信度值位于预设的阈值区间内的未审核标注数据;基于选取的标注数据的置信度值的大小,确定所述选取的各未审核标注数据的排序。6.根据权利要求3或5所述的方法,其特征在于,在各未审核标注数...

【专利技术属性】
技术研发人员:陈天伦王嘉磊张孝磊
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1