【技术实现步骤摘要】
一种面向集中式场景的大规模数据质量评估方法
[0001]本专利技术涉及数据评估
,尤其涉及一种面向集中式场景的大规模数据质量评估方法。
技术介绍
[0002]数据质量一直是信息系统管理的关键部分。高质量的数据在固有属性或内在质量(例如,图片的清晰度,噪音大小)上应该是良好的,在上下文上适合于当前任务,同时,数据应该被清楚地表示出来,可供数据使用者使用。内在质量反映了数据本身固有的状态,而没有应用任务的上下文知识,并且可以应用于任何数据集。上下文质量强调了数据质量需要在当前任务的上下文中考虑。
[0003]但是,现有的工作侧重于数据的内在质量,而忽略了重要的上下文因素,例如目标任务或服务,这些因素已被证明会强烈影响数据质量的感知。此外,很多现有工作主要测量数据单元(例如,图像)的质量,而不是数据集合(例如图像数据集)的整体质量,而后者更常用于目前的应用服务中。仅对数据单元进行平均测量并忽略它们之间的关系就无法捕获数据集的特征。尽管已经提出了数据质量的各个维度,但是工作量较大,效率较低,无法实现快速评估。
【技术保护点】
【技术特征摘要】
1.一种面向集中式场景的大规模数据质量评估方法,其特征在于:包括,采集要评估的数据,建立数据集;对所述数据集的准确性进行评估;对所述数据集的上下文质量进行评估;将评估后的所述数据集进行质量排序。2.如权利要求1所述的面向集中式场景的大规模数据质量评估方法,其特征在于:所述准确性的评估包括,将数据集转化为矩阵,计算准确率,公式表示为:其中,w
i
为矩阵中第i层的权重,D
i
为数据集中第i层的准确率,n为数据集的总层数。3.如权利要求2所述的面向集中式场景的大规模数据质量评估方法,其特征在于:所述上下文质量的评估包括,计算任务相关性和内容多样性,任务相关性的计算公式表示为:其中,A为评估的数据集,S为特定任务的样本数据集,X()用来评估两个集合交集的大小,公式表示为:其中,a
i
为数据集A中的数据,s
j
为样本数据集S中的数据,Dis()衡量两个数据内容的距离,公式表示为:其中,δ是经验阈值。4.如权利要求1~3任一所述的面向集中式场景的大规模数据质量评估方法,其特征在于:所述内容多样性的计算公式表示为:其中,a
j
为数据集A中的数据。5.如权利要求4所述的面向集中式场景的大规模数据质量评估方法,其特征在于:通过所述任务相关性和内容多样性计算权重,权重的计算公式表示为:其中,r(i)表示与第i个特定任务集的相关度...
【专利技术属性】
技术研发人员:黄涛,马勇,
申请(专利权)人:华能山东发电有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。