System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请属于数据处理,具体涉及一种标注样本判断方法、装置及电子设备。
技术介绍
1、在机器学习领域,依据学习形式,学习任务可大致划分为两类,一种是监督学习,另一种是非监督学习。监督学习需要有大量的已标注数据,已标注数据就是指已经有了标准答案的数据,这样的数据越多,机器学习得到的算法就越好,就越能够从输入数据中得到正确的答案。对于数据标注可采用人工标注方式或机器标注方式。人工标注方式准确度高,但是效率低,而机器标注方式虽然效率很高,但是其标注结果准确度较低,只适合数据量大、标注要求较低的场景。
技术实现思路
1、鉴于此,本申请的目的在于提供一种标注样本判断方法、装置及电子设备,以提升样本判断效率和准确性。
2、第一方面,本申请实施例提供了一种标注样本判断方法,所述方法包括:获取标注样本的第一审核通过率和第二审核通过率,其中,审核通过率为目标审核节点在所有审核节点中的占比,所述目标审核节点为审核结果表示所述标注样本为正常的审核节点,所述第一审核通过率、第二审核通过率为所述标注样本在不同审核环境下的审核通过率;依据所述第一审核通过率和所述第二审核通过率计算平均审核通过率;比较所述平均审核通过率和第一阈值的大小;若所述平均审核通过率大于所述第一阈值,则输出所述标注样本为正常;若所述平均审核通过率小于或等于第一阈值,则计算显著性差异观测值,所述显著性差异观测值为判断所述第一审核通过率和所述第二审核通过率之间是否存在显著性差异的指标;比较所述显著性差异观测值和第二阈值的大小;若所述显
3、上述标注样本判断方法,先通过两次审核的平均审核通过率进行初步异常判断,再通过两个审核通过率的显著性差异观测值进行进一步判断,通过两次判断能够在节约标注样本判断时间,提高标注样本判断效率的同时提升标注样本判断的准确性。
4、在本申请一个可选实施例中,所述显著性差异观测值包括:检验统计量的差值,所述计算显著性差异观测值,包括:计算所述第一审核通过率和所述第二审核通过率之间的检验统计量的差值。
5、上述实施例中,检验统计量的差值作为第一审核通过率和第二审核通过率的显著性差异观测值,能够准确、充分的统计二者之间的差异。
6、在本申请一个可选实施例中,所述检验统计量包括:z检验统计量、t检验统计量。
7、在本申请一个可选实施例中,当所述检验统计量为z检验统计量时,所述计算显著性差异观测值,采用以下公式进行:
8、
9、
10、
11、其中,表示显著性差异观测值,为第一审核通过率,为第二审核通过率,k表示生成所述第一审核通过率所使用所有审核节点的数量,表示生成所述第二审核通过率所使用所有审核节点的数量。
12、在本申请一个可选实施例中,当所述检验统计量为t检验统计量时,所述计算显著性差异观测值,采用以下公式进行:
13、
14、
15、
16、其中,表示显著性差异观测值,为第一审核通过率,为第二审核通过率,k为标注样本总数,为审核通过率差值的标准差。
17、在本申请一个可选实施例中,所述第一阈值的取值为0.6或0.7。。
18、在本申请一个可选实施例中,所述本轮的第一审核通过率对应的审核环境中所使用的审核节点数大于上一轮的第一审核通过率对应的审核环境中所使用的审核节点数;所述本轮的第二审核通过率对应的审核环境中所使用的审核节点数大于上一轮的第二审核通过率对应的审核环境中所使用的审核节点数。
19、在本申请一个可选实施例中,所述第一审核通过率对应的审核环境中所使用审核节点数为k个,k为预设值;所述第二审核通过率对应的审核环境中所使用审核节点数为k+1个。
20、上述实施例中,设置第一审核通过率使用的审核节点数为k个,设置第二审核通过率使用的审核节点数为k+1个,能够快速、简便使得第一审核通过率和第二审核通过率存在差别。
21、第二方面,本申请实施例提供了一种标注样本判断装置,包括:获取模块,用于获取标注样本的第一审核通过率和第二审核通过率,其中,审核通过率为目标审核节点在所有审核节点中的占比,所述目标审核节点为审核结果表示所述标注样本为正常的审核节点,所述第一审核通过率、第二审核通过率为所述标注样本在不同审核环境下的审核通过率;第一计算模块,用于依据所述第一审核通过率和所述第二审核通过率计算平均审核通过率;第一比较模块,用于比较所述平均审核通过率和第一阈值的大小;若所述平均审核通过率大于所述第一阈值,则输出所述标注样本为正常;若所述平均审核通过率小于或等于第一阈值,则触发第二计算模块,所述第二计算模块,用于计算显著性差异观测值,所述显著性差异观测值为判断所述第一审核通过率和所述第二审核通过率之间是否存在显著性差异的指标;第二比较模块,用于比较所述显著性差异观测值和第二阈值的大小;若所述显著性差异观测值小于所述第二阈值,则输出所述标注样本为异常;若所述显著性差异观测值大于等于所述第二阈值,则触发循环模块;所述循环模块,用于循环执行多轮判断步骤,直到满足预设的停止条件;其中每一轮判断步骤包括:触发所述获取模块获取本轮的第一审核通过率和本轮的第二审核通过率,所述本轮的第一审核通过率、所述本轮的第二审核通过率为所述标注样本在本轮对应的两个审核环境下的审核通过率;触发所述第一计算模块依据所述本轮的第一审核通过率和所述本轮的第二审核通过率计算本轮的平均审核通过率;触发所述第一比较模块比较所述平均审核通过率和第一阈值的大小;若所述本轮的平均审核通过率大于第一阈值,则输出所述标注样本为正常;若所述本轮的平均审核通过率小于等于第一阈值,则触发所述第二计算模块计算本轮的计算显著性差异观测值;触发所述第二比较模块比较所述显著性差异观测值和所述第二阈值的大小;若所述本轮的显著性差异观测值小于所述第二阈值,则输出所述标注样本为异常;若所述本轮的显著性差异观测值大于等于所述第二阈值,则触发所述循环模块执行下一轮判断步骤。
22、第三方面,本申请实施例提供了一种本文档来自技高网...
【技术保护点】
1.一种标注样本判断方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述显著性差异观测值包括:检验统计量的差值,所述计算显著性差异观测值,包括:
3.根据权利要求2所述的方法,其特征在于,所述检验统计量包括:z检验统计量、t检验统计量。
4.根据权利要求3所述的方法,其特征在于,当所述检验统计量为z检验统计量时,所述计算显著性差异观测值,采用以下公式进行:
5.根据权利要求3所述的方法,其特征在于,当所述检验统计量为t检验统计量时,所述计算显著性差异观测值,采用以下公式进行:
6.根据权利要求1所述的方法,其特征在于,所述第一阈值的取值为0.6或0.7。
7.根据权利要求1所述的方法,其特征在于,所述本轮的第一审核通过率对应的审核环境中所使用的审核节点数大于上一轮的第一审核通过率对应的审核环境中所使用的审核节点数;
8.根据权利要求1中所述的方法,其特征在于,所述第一审核通过率对应的审核环境中所使用审核节点数为k个,k为预设值;
9.一种标注样本判断装置,其
10.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器与所述存储器连接;
...【技术特征摘要】
1.一种标注样本判断方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述显著性差异观测值包括:检验统计量的差值,所述计算显著性差异观测值,包括:
3.根据权利要求2所述的方法,其特征在于,所述检验统计量包括:z检验统计量、t检验统计量。
4.根据权利要求3所述的方法,其特征在于,当所述检验统计量为z检验统计量时,所述计算显著性差异观测值,采用以下公式进行:
5.根据权利要求3所述的方法,其特征在于,当所述检验统计量为t检验统计量时,所述计算显著性差异观测值,采用以下公式进行...
【专利技术属性】
技术研发人员:陈亮,
申请(专利权)人:上海斗象信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。