样本标注资源分配方法、装置及应用制造方法及图纸

技术编号:32799130 阅读:14 留言:0更新日期:2022-03-23 20:03
本申请提出了一种样本标注资源分配方法、装置及应用,其中方法通过将不同类型的风控规则采用不同分类区提取关键词,基于关键词自动获取字段下输入数据以及对输入数据的处理方式,从而得到分类结果。通过本发明专利技术,能够基于多种类的风控规则自动进行样本标注资源分配,替代了现有的人为甄别方式,因此准确率和效率更高。高。高。

【技术实现步骤摘要】
样本标注资源分配方法、装置及应用


[0001]本申请涉及数据标注领域,特别是涉及样本标注资源分配方法、装置及应用。

技术介绍

[0002]伴随着网上金融业务的迅速发展,相关交易量迅速增长的同时,异常交易也出现得越来越多。异常交易不仅给用户自身造成巨大损失的,并且严重破坏金融秩序,伤害金融机构信誉,在社会造成了极坏的影响。
[0003]目前人工智能快速发展,异常交易的识别已从人工识别逐渐转换为了模型自动识别,而模型识别中数据标注是一项基础但重要程度高的工作。标注准确性会直接影响模型的识别精度。传统的标注任务分派策略只是将标注任务分配给单个标注员,一旦出现标注结果的大量误判现象,会对后续模型训练带来负面影响。
[0004]虽然现有技术中也出现将同一标注任务分配给多个标注员,并通过审核员对最终的标注结果进行审核的手段,但该手段在实际应用中会产生问题:首先是额外分配审核员会产生用人成本;其次,目前同一标注任务分配的标注员数量是人为设定的,若人数设置过多,则相当于额外增加了几倍的标注量,那么标注的效率势必会下降;若人数设置过少,意味着配合标注效率提高,那么审核效率势必也要提高,否则会产生审核任务堆积情况,而提高审核效率会增加额外的计算成本(如安排多个审核员)。
[0005]换言之,对同一标注项目的标注人数的选择会直接影响审核效率以及审核成本,而现有技术中都采样人为设定标注员数量的方式,因此针对如何根据审核效率来动态调整同一标注项目的标注人数,目前尚未得到有效解决方案。

技术实现思路

[0006]本申请实施例提供了一种样本标注资源分配方法、装置及应用,能够解决现有技术中如何对标注资源进行分配的问题,本方案根据标注效率也快,则审核队列中的标注结果积压越多的特性,通过控制审核节点中审核资源闲置程度来动态调整每一交易样本的标注人数,从而在提高标注准确率和提高审核效率之间达到动态平衡。
[0007]第一方面,本申请实施例提供了一种样本标注资源分配方法,所述方法包括:获取样本集以及标注员列表;预设标注人数,针对样本集中的任一交易样本,从标注员列表中选择数量为预设标注人数的多个标注员生成标注员集合,并分配给标注员集合中每一标注员进行标注,得到标注结果;记录所有标注员对交易样本的标注完成时间,取最晚时刻的标注完成时间作为标注结果进入审核节点的审核开始时间;将每相邻两个审核开始时间之间的时间间隔与历史审核间隔进行计算,得到审核资源闲置程度;根据审核资源闲置程度调整标注人数,并基于调整后的标注人数重为剩余交易样本生成标注员集合。
[0008]在其中一些实施例中,“根据审核资源闲置程度调整标注人数”包括:预设审核忙碌条件以及审核空闲条件,当审核资源闲置程度满足审核忙碌条件,增加标注人数,并根据增加的标注人数增设标注员对剩余交易样本进行标注;当审核闲置程度满足审核空闲条
件,减少标注人数,并根据减少的标注人数精简标注员对剩余交易样本进行标注。
[0009]在其中一些实施例中,计算所有未审核的标注结果的时间间隔总和以及待审核数量;计算审核数量与历史审核间隔的乘积与时间间隔总和的差值作为审核资源闲置程度。
[0010]在其中一些实施例中,遍历计算所有时间间隔与历史审核间隔的差值,若差值小于第一阈值,记录为审核资源忙碌,若差值大于第二阈值,记录为审核资源空闲;根据所有未审核的标注结果对应的审核资源忙碌和审核资源空闲的计数比值作为审核资源闲置程度。
[0011]在其中一些实施例中,“获取标注员列表包括”:获取预计完成时间相接近的多个标注员生成标注员列表。
[0012]在其中一些实施例中,标注员列表记录预计完成时间总差值小于阈值的多个标注员,其中,预计完成时间总差值表征为:根据标注员的标注速度以及当前任务数,得到每个标注员对交易样本进行标注的预计完成时间,对所有预计完成时间进行排序,计算每两个预计完成时间的差值,将差值小于阈值的最大差值作为总差值。
[0013]在其中一些实施例中,若标注员的当前任务数达到任务饱和量,则将标注员从排序列表中剔除。
[0014]在其中一些实施例中,在审核节点中自动获取每个标注结果中特征词在标注样本中的位置信息,通过比较位置信息的相似性确定标注结果是否正确。
[0015]第二方面,本申请实施例提供了一种样本标注资源分配装置,包括:获取模块,用于获取样本集以及标注员列表;标注模块,用于预设标注人数,针对样本集中的任一交易样本,从标注员列表中选择数量为预设标注人数的多个标注员生成标注员集合,并分配给标注员集合中每一标注员进行标注,得到标注结果;时间记录模块,用于记录所有标注员对交易样本的标注完成时间,取最晚时刻的标注完成时间作为标注结果进入审核节点的审核开始时间;计算模块,用于将每相邻两个审核开始时间之间的时间间隔与历史审核间隔进行计算,得到审核资源闲置程度;标注人数调整模块,用于根据审核资源闲置程度调整标注人数,并基于调整后的标注人数重为剩余交易样本生成标注员集合。
[0016]第三方面,本申请实施例提供了一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据第一方面所述的样本标注资源分配方法。
[0017]本专利技术的主要贡献和创新点如下:本方案对交易样本进行多人标注和自动审核,通过案件标注结束点确定审核开始时间,由相邻审核开始时间的差值计算审核资源闲置率,若审核资源一直闲置,说明标注速度过慢,就减少多人标注的数量,从而提高标注整体速率,如果闲置率很低,说明标注速度过快,则增加多人标注的人数,从而提高对标注结果的准确性。基于本专利技术,能够实现在给定的审核资源以及标注总人数的情况下,通过调节每个任务分配情况从而动态调节标注资源以及审核资源避免任一资源长时间忙碌或空闲。
[0018]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0019]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例一的样本标注资源分配方法的流程图。
[0020]图2是根据本申请实施例二的样本标注资源分配装置的结构框图。
[0021]图3是根据本申请实施例三的电子装置的硬件结构示意图。
具体实施方式
[0022]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
[0023]需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本标注资源分配方法,其特征在于,包括以下步骤:获取样本集以及标注员列表;预设标注人数,针对样本集中的任一交易样本,从标注员列表中选择数量为预设标注人数的多个标注员生成标注员集合,并分配给标注员集合中每一标注员进行标注,得到标注结果;记录所有标注员对交易样本的标注完成时间,取最晚时刻的标注完成时间作为标注结果进入审核节点的审核开始时间;将每相邻两个审核开始时间之间的时间间隔与历史审核间隔进行计算,得到审核资源闲置程度;根据审核资源闲置程度调整标注人数,并基于调整后的标注人数重为剩余交易样本生成标注员集合。2.根据权利要求1所述的样本标注资源分配方法,其特征在于,“根据审核资源闲置程度调整标注人数”包括:预设审核忙碌条件以及审核空闲条件,当审核资源闲置程度满足审核忙碌条件,增加标注人数,并根据增加的标注人数增设标注员对剩余交易样本进行标注;当审核闲置程度满足审核空闲条件,减少标注人数,并根据减少的标注人数精简标注员对剩余交易样本进行标注。3.根据权利要求1所述的样本标注资源分配方法,其特征在于,计算所有未审核的标注结果的时间间隔总和以及待审核数量;计算审核数量与历史审核间隔的乘积与时间间隔总和的差值作为审核资源闲置程度。4.根据权利要求1所述的样本标注资源分配方法,其特征在于,遍历计算所有时间间隔与历史审核间隔的差值,若差值小于第一阈值,记录为审核资源忙碌,若差值大于第二阈值,记录为审核资源空闲;根据所有未审核的标注结果对应的审核资源忙碌和审核资源空闲的计数比值作为审核资源闲置程度。5.根据权利要求1所述的样本标注资源分配方法,其特征在于,“获取标注员列表包括”:获取预计完成时间相接近的多个标注员生成...

【专利技术属性】
技术研发人员:陈定杨毓光吴卫东薛奋飞谢卫民陈嵩珂裘洁华
申请(专利权)人:杭州衡泰技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1