一种评价尺度稳定的数据标记分配、统计的方法及系统技术方案

技术编号:21362648 阅读:55 留言:0更新日期:2019-06-15 09:36
本发明专利技术公开了一种评价尺度稳定的数据标记分配及统计的方法,包括将所述第一样本数据进行编号,得到第一样本数据编号;将第一样本数据总量扩展为有限倍数的第二样本数据,将第二样本数据进行编号得到第二样本数据编号;将第二样本数据按照第二样本数据编号循环平均分配为有限份数;每份数的样本数据为第三样本数据;将第三样本数据进行编号得到第三样本数据编号;从第三样本数据中随机抽取有限份数的样本数据,记为第四样本数据;第四样本数据与第三样本数据构成第五样本数据,将第五样本数据进行编号,得到第五样本数据编号;按照第五样本数据编号将第五样本数据进行数据标记评价,构成样本数据的自评评价结果。

A Method and System for Evaluating Scale Stability of Data Label Distribution and Statistics

The invention discloses a method for evaluating scale-stable data label allocation and statistics, which includes numbering the first sample data to obtain the first sample data number, expanding the total amount of the first sample data to the second sample data of a finite multiple, numbering the second sample data to obtain the second sample data number, and numbering the second sample data according to the second sample data. Number cycle is divided into finite number; sample data of each number is the third sample data; the third sample data is numbered to get the third sample data number; the third sample data is randomly extracted from the third sample data and recorded as the fourth sample data; the fourth sample data and the third sample data constitute the fifth sample data, and the fifth sample data is numbered. The fifth sample data number is obtained. According to the fifth sample data number, the fifth sample data is marked and evaluated to form the self-evaluation result of the sample data.

【技术实现步骤摘要】
一种评价尺度稳定的数据标记分配、统计的方法及系统
本专利技术属于数据处理
,具体涉及一种评价尺度稳定的数据标记分配、统计的方法及系统。
技术介绍
当前随着信息化的发展,伴随着人类社会活动产生了大量的数据,人们越来越重视通过数据来分析和挖掘各种行为、提取特征,用来支撑决策、优化规则甚至是模拟人类行为。因此人工智能领域藉由同样快速发展计算能力得以迎来新一次的热潮。人工智能中常用的人工神经网络等算法模型通常需要大量已标记数据作为训练样本,以训练出在后续预测或分类等工作中使用的数学模型,而此类带有标记的训练样本数据目前十分匮乏。标记数据工作通常分为可由计算机程序标注、智能标记的情况或者由人工标记的情况。在由人工标记的情况下,如果按照传统的人工标记方式,不仅数据量巨大导致的时间成本与人工成本投入量巨大,还有多人标记的评价尺度不一致、专家或标记人员自身评价大量样本时标准不稳定的情况,亟需一个样本分配方案来解决工作量与标记尺度一致的问题。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出了一种评价尺度稳定的数据标记分配、统计的方法。解决了在有限的人工成本与有限的时间成本下,获得大量评价尺度一致的评价标记的训练样本数据的问题。本专利技术的第二个目的在于提出一种评价尺度稳定的数据标记分配、统计的系统。为达到上述目的,本专利技术第一方面实施例提出了一种评价尺度稳定的数据标记分配及统计的方法,假设样本数据总量为n份,记为第一样本数据,标记人员数量为m名,所述方法包括:S1:将所述第一样本数据进行编号,得到第一样本数据编号。S2:将所述第一样本数据总量扩展为有限倍数的第二样本数据,将所述第二样本数据进行编号得到第二样本数据编号。S3:将所述第二样本数据按照所述第二样本数据编号循环平均分配为有限份数;所述每份数的样本数据为第三样本数据;将所述第三样本数据进行编号得到所述第三样本数据编号;从所述第三样本数据中随机抽取有限份数的样本数据,记为第四样本数据。S4:所述第四样本数据与所述第三样本数据构成第五样本数据,将所述第五样本数据进行编号,得到所述第五样本数据编号。S5:按照所述第五样本数据编号将所述第五样本数据进行数据标记评价,构成所述样本数据的自评评价结果。根据本专利技术的一个实施例,所述S4中所述第四样本数据与所述第三样本数据构成第五样本数据,包括:将所述第四样本数据在所述第三样本数据中的编号与一数据常数的计算求和,得到所述第四样本数据编号,按照所述第四数据编号与所述第三数据编号的对应关系将所述第四样本数据、所述第三样本数据进行排列构成第五样板数据。根据本专利技术的一个实施例,所述方法还包括:每份样本数据由有限个不同的标记评价构成横评评价结果。根据本专利技术的一个实施例,所述自评评价结果与所述横评评价结果通过计算构成所述每份样本数据的最终评价结果。本专利技术第二方面实施例提供了一种评价尺度稳定的数据标记分配、统计的系统,所述系统包括:第一获取模块,用于获取所述样本数据的自评评价结果。第二获取模块,用于获取所述样本数据的横评评价结果。计算模块,用于根据所述第一获取模块获取的所述样本数据的自评评价结果以及所述第二获取模块获取的所述样本数据的横评评价结果计算得到所述样本数据的最终评价结果。根据本专利技术公开的实施例,所述第一获取模块获取数据的方法包括:S1:将所述第一样本数据进行编号,得到第一样本数据编号。S2:将所述第一样本数据总量扩展为有限倍数的第二样本数据,将所述第二样本数据进行编号得到第二样本数据编号。S3:将所述第二样本数据按照所述第二样本数据编号循环平均分配为有限份数;所述每份数的样本数据为第三样本数据;将所述第三样本数据进行编号得到所述第三样本数据编号;从所述第三样本数据中随机抽取有限份数的样本数据,记为第四样本数据。S4:所述第四样本数据与所述第三样本数据构成第五样本数据,将所述第五样本数据进行编号,得到所述第五样本数据编号。S5:按照所述第五样本数据编号将所述第五样本数据进行数据标记评价,构成所述样本数据的自评评价结果。根据本专利技术公开的实施例,所述S4中所述第四样本数据与所述第三样本数据构成第五样本数据,包括:将所述第四样本数据在所述第三样本数据中的编号与一数据常数的计算求和,得到所述第四样本数据编号,按照所述第四数据编号与所述第三数据编号的对应关系将所述第四样本数据、所述第三样本数据进行排列构成第五样板数据。根据本专利技术公开的实施例,所述第一获取模块的横评评价结果由与每份样本数据相关的有限个不同的标记评价构成。本专利技术的有益效果是:保证由不同标记人员分的的样本数据评价尺度公平性、一致性;大大节省了时间成本和人工成本,达到了在有限时间成本和人工成本下依然保证评价尺度一致性。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是根据本专利技术公开实施例的所述评价尺度稳定的数据标记分配及统计的方法流程图;图2是根据本专利技术公开实施例的所述评价尺度稳定的数据标记分配及统计的系统方框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术提供了一种评价尺度稳定的数据标记分配及统计的方法,通过同一样本分配给不同标记人员来横向对比计算出标记人员的评价尺度一致性权重,通过随机抽取样本重复分配给同一标记人员来计算出自身评价尺度的稳定性权重,再结合两种权重的组合影响计算出标记的加权得分。图1为根据本专利技术公开实施例的所述评价尺度稳定的数据标记分配及统计的方法流程图,假设样本数据总量为n份,记为第一样本数据,标记人员数量为m名,方法包括:S1:将第一样本数据进行编号,得到第一样本数据编号。S2:将第一样本数据总量扩展为有限倍数的第二样本数据,将第二样本数据进行编号得到第二样本数据编号。首先进行数据划分,包括将样本数据重复3次,即样本数据总量扩为3n份,此时每名标记人员的标记样本量3n/m份。假设其整除,如果不能整除,从n中随机抽取补足到可以整除(为叙述简便,假定总数还是3n份)。将3n份数据进行编号1~3n,循环分给m个包,每个包内3n/m份数据。每包内的数据会重新分配1~3n/m的序号,原编号与新序号的对应关系将被留存。样本数据重复3份后循环均分,使得只要标记人员在3人以上,都可以降低评价本文档来自技高网
...

【技术保护点】
1.一种评价尺度稳定的数据标记分配、统计的方法,其特征在于,假设样本数据总量为n份,记为第一样本数据,标记人员数量为m名,所述方法包括:S1:将所述第一样本数据进行编号,得到第一样本数据编号;S2:将所述第一样本数据总量扩展为有限倍数的第二样本数据,将所述第二样本数据进行编号得到第二样本数据编号;S3:将所述第二样本数据按照所述第二样本数据编号循环平均分配为有限份数;所述每份数的样本数据为第三样本数据;将所述第三样本数据进行编号得到所述第三样本数据编号;从所述第三样本数据中随机抽取有限份数的样本数据,记为第四样本数据;S4:所述第四样本数据与所述第三样本数据构成第五样本数据,将所述第五样本数据进行编号,得到所述第五样本数据编号;S5:按照所述第五样本数据编号将所述第五样本数据进行数据标记评价,构成所述样本数据的自评评价结果。

【技术特征摘要】
1.一种评价尺度稳定的数据标记分配、统计的方法,其特征在于,假设样本数据总量为n份,记为第一样本数据,标记人员数量为m名,所述方法包括:S1:将所述第一样本数据进行编号,得到第一样本数据编号;S2:将所述第一样本数据总量扩展为有限倍数的第二样本数据,将所述第二样本数据进行编号得到第二样本数据编号;S3:将所述第二样本数据按照所述第二样本数据编号循环平均分配为有限份数;所述每份数的样本数据为第三样本数据;将所述第三样本数据进行编号得到所述第三样本数据编号;从所述第三样本数据中随机抽取有限份数的样本数据,记为第四样本数据;S4:所述第四样本数据与所述第三样本数据构成第五样本数据,将所述第五样本数据进行编号,得到所述第五样本数据编号;S5:按照所述第五样本数据编号将所述第五样本数据进行数据标记评价,构成所述样本数据的自评评价结果。2.根据权利要求1所述的方法,其特征在于,所述S4中所述第四样本数据与所述第三样本数据构成第五样本数据,包括:将所述第四样本数据在所述第三样本数据中的编号与一数据常数的计算求和,得到所述第四样本数据编号,按照所述第四数据编号与所述第三数据编号的对应关系将所述第四样本数据、所述第三样本数据进行排列构成第五样板数据。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:与每份样本数据相关的有限个不同的标记评价构成所述样本数据横评评价结果。4.根据权利要求1、3所述的方法,其特征在于,所述样本数据的自评评价结果与所述样本数据的横评评价结果通过计算构成所述样本数据的最终评价结果。5.一种评价尺度稳定的数据标记分配、统计的系统,其特征在于,...

【专利技术属性】
技术研发人员:张玉天蒲天骄邓春宇王新迎史梦洁刘凤魁陈盛谈元鹏
申请(专利权)人:中国电力科学研究院有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1