The invention discloses a method for evaluating scale-stable data label allocation and statistics, which includes numbering the first sample data to obtain the first sample data number, expanding the total amount of the first sample data to the second sample data of a finite multiple, numbering the second sample data to obtain the second sample data number, and numbering the second sample data according to the second sample data. Number cycle is divided into finite number; sample data of each number is the third sample data; the third sample data is numbered to get the third sample data number; the third sample data is randomly extracted from the third sample data and recorded as the fourth sample data; the fourth sample data and the third sample data constitute the fifth sample data, and the fifth sample data is numbered. The fifth sample data number is obtained. According to the fifth sample data number, the fifth sample data is marked and evaluated to form the self-evaluation result of the sample data.
【技术实现步骤摘要】
一种评价尺度稳定的数据标记分配、统计的方法及系统
本专利技术属于数据处理
,具体涉及一种评价尺度稳定的数据标记分配、统计的方法及系统。
技术介绍
当前随着信息化的发展,伴随着人类社会活动产生了大量的数据,人们越来越重视通过数据来分析和挖掘各种行为、提取特征,用来支撑决策、优化规则甚至是模拟人类行为。因此人工智能领域藉由同样快速发展计算能力得以迎来新一次的热潮。人工智能中常用的人工神经网络等算法模型通常需要大量已标记数据作为训练样本,以训练出在后续预测或分类等工作中使用的数学模型,而此类带有标记的训练样本数据目前十分匮乏。标记数据工作通常分为可由计算机程序标注、智能标记的情况或者由人工标记的情况。在由人工标记的情况下,如果按照传统的人工标记方式,不仅数据量巨大导致的时间成本与人工成本投入量巨大,还有多人标记的评价尺度不一致、专家或标记人员自身评价大量样本时标准不稳定的情况,亟需一个样本分配方案来解决工作量与标记尺度一致的问题。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出了一种评价尺度稳定的数据标记分配、统计的方法。解决了在有限的人工成本与有限的时间成本下,获得大量评价尺度一致的评价标记的训练样本数据的问题。本专利技术的第二个目的在于提出一种评价尺度稳定的数据标记分配、统计的系统。为达到上述目的,本专利技术第一方面实施例提出了一种评价尺度稳定的数据标记分配及统计的方法,假设样本数据总量为n份,记为第一样本数据,标记人员数量为m名,所述方法包括:S1:将所述第一样本数据进行编号,得到第一样本数 ...
【技术保护点】
1.一种评价尺度稳定的数据标记分配、统计的方法,其特征在于,假设样本数据总量为n份,记为第一样本数据,标记人员数量为m名,所述方法包括:S1:将所述第一样本数据进行编号,得到第一样本数据编号;S2:将所述第一样本数据总量扩展为有限倍数的第二样本数据,将所述第二样本数据进行编号得到第二样本数据编号;S3:将所述第二样本数据按照所述第二样本数据编号循环平均分配为有限份数;所述每份数的样本数据为第三样本数据;将所述第三样本数据进行编号得到所述第三样本数据编号;从所述第三样本数据中随机抽取有限份数的样本数据,记为第四样本数据;S4:所述第四样本数据与所述第三样本数据构成第五样本数据,将所述第五样本数据进行编号,得到所述第五样本数据编号;S5:按照所述第五样本数据编号将所述第五样本数据进行数据标记评价,构成所述样本数据的自评评价结果。
【技术特征摘要】
1.一种评价尺度稳定的数据标记分配、统计的方法,其特征在于,假设样本数据总量为n份,记为第一样本数据,标记人员数量为m名,所述方法包括:S1:将所述第一样本数据进行编号,得到第一样本数据编号;S2:将所述第一样本数据总量扩展为有限倍数的第二样本数据,将所述第二样本数据进行编号得到第二样本数据编号;S3:将所述第二样本数据按照所述第二样本数据编号循环平均分配为有限份数;所述每份数的样本数据为第三样本数据;将所述第三样本数据进行编号得到所述第三样本数据编号;从所述第三样本数据中随机抽取有限份数的样本数据,记为第四样本数据;S4:所述第四样本数据与所述第三样本数据构成第五样本数据,将所述第五样本数据进行编号,得到所述第五样本数据编号;S5:按照所述第五样本数据编号将所述第五样本数据进行数据标记评价,构成所述样本数据的自评评价结果。2.根据权利要求1所述的方法,其特征在于,所述S4中所述第四样本数据与所述第三样本数据构成第五样本数据,包括:将所述第四样本数据在所述第三样本数据中的编号与一数据常数的计算求和,得到所述第四样本数据编号,按照所述第四数据编号与所述第三数据编号的对应关系将所述第四样本数据、所述第三样本数据进行排列构成第五样板数据。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:与每份样本数据相关的有限个不同的标记评价构成所述样本数据横评评价结果。4.根据权利要求1、3所述的方法,其特征在于,所述样本数据的自评评价结果与所述样本数据的横评评价结果通过计算构成所述样本数据的最终评价结果。5.一种评价尺度稳定的数据标记分配、统计的系统,其特征在于,...
【专利技术属性】
技术研发人员:张玉天,蒲天骄,邓春宇,王新迎,史梦洁,刘凤魁,陈盛,谈元鹏,
申请(专利权)人:中国电力科学研究院有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。