本发明专利技术公开了一种面向集中式场景的大规模数据质量评估方法包括,采集要评估的数据,建立数据集;对所述数据集的准确性进行评估;对所述数据集的上下文质量进行评估;将评估后的所述数据集进行质量排序,分别计算准确性、内容多样性和任务相关性的得分,P为准确性、内容多样性和任务相关性在评估中的占比,R为得分,THR为阈值,W为准确性、内容多样性和任务相关性的权重,将计算出的各项得分相加即为质量评估值,将所述质量评估值按降序进行排列。本方法可以解决评估时忽略上下文因素,评估工作量较大,效率较低,无法实现快速评估的问题。无法实现快速评估的问题。无法实现快速评估的问题。
【技术实现步骤摘要】
一种面向集中式场景的大规模数据质量评估方法
[0001]本专利技术涉及数据评估
,尤其涉及一种面向集中式场景的大规模数据质量评估方法。
技术介绍
[0002]数据质量一直是信息系统管理的关键部分。高质量的数据在固有属性或内在质量(例如,图片的清晰度,噪音大小)上应该是良好的,在上下文上适合于当前任务,同时,数据应该被清楚地表示出来,可供数据使用者使用。内在质量反映了数据本身固有的状态,而没有应用任务的上下文知识,并且可以应用于任何数据集。上下文质量强调了数据质量需要在当前任务的上下文中考虑。
[0003]但是,现有的工作侧重于数据的内在质量,而忽略了重要的上下文因素,例如目标任务或服务,这些因素已被证明会强烈影响数据质量的感知。此外,很多现有工作主要测量数据单元(例如,图像)的质量,而不是数据集合(例如图像数据集)的整体质量,而后者更常用于目前的应用服务中。仅对数据单元进行平均测量并忽略它们之间的关系就无法捕获数据集的特征。尽管已经提出了数据质量的各个维度,但是工作量较大,效率较低,无法实现快速评估。
技术实现思路
[0004]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0005]鉴于上述现有存在的问题,提出了本专利技术。
[0006]因此,本专利技术提供了一种面向集中式场景的大规模数据质量评估方法方法,能够解决评估时忽略上下文因素,评估工作量较大,效率较低,无法实现快速评估的问题。
[0007]为解决上述技术问题,本专利技术提供如下技术方案,一种面向集中式场景的大规模数据质量评估方法,包括:
[0008]采集要评估的数据,建立数据集;
[0009]对所述数据集的准确性进行评估;
[0010]对所述数据集的上下文质量进行评估;
[0011]将评估后的所述数据集进行质量排序。
[0012]作为本专利技术所述的面向集中式场景的大规模数据质量评估方法的一种优选方案,其中:所述准确性的评估包括,将数据集转化为矩阵,计算准确率,公式表示为:
[0013]其中,w
i
为矩阵中第i层的权重,D
i
为数据集中第i层的准确率,n为数据集的总层数。
[0014]作为本专利技术所述的面向集中式场景的大规模数据质量评估方法的一种优选方案,其中:所述上下文质量的评估包括,计算任务相关性和内容多样性,任务相关性的计算公式表示为:
[0015][0016]其中,A为评估的数据集,S为特定任务的样本数据集,X()用来评估两个集合交集的大小,公式表示为:
[0017][0018]其中,a
i
为数据集A中的数据,s
j
为样本数据集S中的数据,Dis()衡量两个数据内容的距离,公式表示为:
[0019][0020]其中,δ是经验阈值。
[0021]作为本专利技术所述的面向集中式场景的大规模数据质量评估方法的一种优选方案,其中:所述内容多样性的计算公式表示为:
[0022][0023]其中,a
j
为数据集A中的数据。
[0024]作为本专利技术所述的面向集中式场景的大规模数据质量评估方法的一种优选方案,其中:通过所述任务相关性和内容多样性计算权重,权重的计算公式表示为:
[0025][0026]其中,r(i)表示与第i个特定任务集的相关度和多样性的总值,r
AS
(k)表示与第k个特定任务集的相关性,表示与第k个特定任务集的多样性。
[0027]作为本专利技术所述的面向集中式场景的大规模数据质量评估方法的一种优选方案,其中:分别计算准确性、内容多样性和任务相关性的得分,
[0028]当P>THR或P<THR,则
[0029]当则取值为1,当则取值为0;
[0030]其中,P为准确性、内容多样性和任务相关性在评估中的占比,R为得分,THR为阈值,W为准确性、内容多样性和任务相关性的权重。
[0031]作为本专利技术所述的面向集中式场景的大规模数据质量评估方法的一种优选方案,
其中:所述质量排序包括,将计算出的各项得分相加即为质量评估值,将所述质量评估值按降序进行排列。
[0032]本专利技术的有益效果:本专利技术方法可以全面有效地测量给定任务的数据集质量并进行排序质量数据集,支持由大量非结构化数据(例如图像文本或视频)组成的数据集,方法步骤简洁,效率高,可以实现快速评估。
附图说明
[0033]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0034]图1为本专利技术一个实施例提供的一种面向集中式场景的大规模数据质量评估方法的流程示意图;
[0035]图2为本专利技术一个实施例提供的一种面向集中式场景的大规模数据质量评估方法的内容多样性对比示意图;
[0036]图3为本专利技术一个实施例提供的一种面向集中式场景的大规模数据质量评估方法的运行时间对比示意图;
[0037]图4为本专利技术一个实施例提供的一种面向集中式场景的大规模数据质量评估方法的质量不合格数据的处理流程示意图。
具体实施方式
[0038]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本专利技术的具体实施方式做详细的说明,显然所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术的保护的范围。
[0039]在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是本专利技术还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似推广,因此本专利技术不受下面公开的具体实施例的限制。
[0040]其次,此处所称的“一个实施例”或“实施例”是指可包含于本专利技术至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0041]本专利技术结合示意图进行详细描述,在详述本专利技术实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本专利技术保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0042]同时在本专利技术的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种面向集中式场景的大规模数据质量评估方法,其特征在于:包括,采集要评估的数据,建立数据集;对所述数据集的准确性进行评估;对所述数据集的上下文质量进行评估;将评估后的所述数据集进行质量排序。2.如权利要求1所述的面向集中式场景的大规模数据质量评估方法,其特征在于:所述准确性的评估包括,将数据集转化为矩阵,计算准确率,公式表示为:其中,w
i
为矩阵中第i层的权重,D
i
为数据集中第i层的准确率,n为数据集的总层数。3.如权利要求2所述的面向集中式场景的大规模数据质量评估方法,其特征在于:所述上下文质量的评估包括,计算任务相关性和内容多样性,任务相关性的计算公式表示为:其中,A为评估的数据集,S为特定任务的样本数据集,X()用来评估两个集合交集的大小,公式表示为:其中,a
i
为数据集A中的数据,s
j
为样本数据集S中的数据,Dis()衡量两个数据内容的距离,公式表示为:其中,δ是经验阈值。4.如权利要求1~3任一所述的面向集中式场景的大规模数据质量评估方法,其特征在于:所述内容多样性的计算公式表示为:其中,a
j
为数据集A中的数据。5.如权利要求4所述的面向集中式场景的大规模数据质量评估方法,其特征在于:通过所述任务相关性和内容多样性计算权重,权重的计算公式表示为:其中,r(i)表示与第i个特定任务集的相关度...
【专利技术属性】
技术研发人员:黄涛,马勇,
申请(专利权)人:华能山东发电有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。