数据集质量评估方法、装置及电子设备制造方法及图纸

技术编号:39001791 阅读:15 留言:0更新日期:2023-10-07 10:33
本发明专利技术公开了一种数据集质量评估方法、装置及电子设备,涉及人工智能技术领域。所述方法包括:获取数据集;以基础评估指标对数据集进行质量评估,得到数据集的基础评估结果,基础评估指标是从数据集的数据使用层面划分的评估指标;在基础评估结果指示数据集的质量待定的情况下,获取数据集的数据类型;以数据类型匹配的特定评估指标对数据集进行质量评估,得到数据集的深入评估结果,特定评估指标是从数据集的数据特性层面划分的评估指标。本发明专利技术提供的技术方案能够提高对数据集进行质量评估时的效率。估时的效率。估时的效率。

【技术实现步骤摘要】
数据集质量评估方法、装置及电子设备


[0001]本专利技术涉及人工智能
,具体涉及一种数据集质量评估方法、装置及电子设备。

技术介绍

[0002]数据集(Dataset)是一种由数据所组成的集合,又可以称为资料集、数据集合或者资料集合等等。随着人工智能(Artificial Intelligence,AI)的发展,数据集的使用越来越频繁,同时为满足图像、音频和文本等不同领域的各种应用,多种多样的数据集层出不穷。
[0003]对于人工智能应用领域而言,数据集的质量是各种智能算法训练的基础。针对数据集的质量测评是人工智能领域中数据质量测评的核心工作。由于人工智能领域通常使用数据集来训练模型,因此数据集的质量直接影响着模型训练的结果。质量好或者相关性高的数据集对模型的训练是非常有帮助的,能够有效提升模型训练的准确性。
[0004]相关技术中,提出了使用多个具体的评估指标来进行数据集的质量测评。然而,并没有利用多个评估指标形成数据集质量的评估方法,从而实现对数据集质量的高效评估。

技术实现思路

[0005]有鉴于此,本专利技术实施方式提供了一种数据集质量评估方法、装置及电子设备,能够针对数据集质量进行高效的评估。
[0006]本专利技术一个实施方式提供了一种数据集质量评估方法,所述方法包括:
[0007]获取数据集;以基础评估指标对所述数据集进行质量评估,得到数据集的基础评估结果,所述基础评估指标是从数据集的数据使用层面划分的评估指标;在所述基础评估结果指示数据集的质量待定的情况下,获取所述数据集的数据类型;以所述数据类型匹配的特定评估指标对所述数据集进行质量评估,得到所述数据集的深入评估结果,所述特定评估指标是从数据集的数据特性层面划分的评估指标。
[0008]在一个实施方式中,所述以基础评估指标对所述数据集进行质量评估,得到所述数据集的基础评估结果,包括:获取多个基础评估指标;计算所述数据集在每个基础评估指标下的度量值;基于所有基础评估指标的度量值,计算所述数据集的基础评估结果。
[0009]在一个实施方式中,所述基础评估指标包括以下至少两项:集合完整性、保密性、使用现时性、规范性、易用性中的至少一种。
[0010]在一个实施方式中,所述以所述数据类型匹配的特定评估指标对所述数据集进行质量评估,得到所述数据集的深入评估结果,包括:获取与所述数据类型相匹配的多个特定评估指标;对所述多个特定评估指标进行优先级划分,得到n个优先级的特定评估指标,所述n为大于1的整数;按照优先级的顺序依次以所述n个优先级的特定评估指标对所述数据集进行质量评估,得到所述数据集的深入评估结果。
[0011]在一个实施方式中,所述优先级划分基于所述多个特定评估指标的度量特点;或
者,所述优先级划分基于所述多个特定评估指标与所述数据集的使用任务之间的相关度。
[0012]在一个实施方式中,所述按照优先级顺序依次以所述n个优先级的特定评估指标对所述数据集进行质量评估,得到所述数据集的深入评估结果,包括:在以第t个优先级的特定评估指标对所述数据集进行质量评估时,若所述数据集未通过所述第t个优先级的特定评估指标的度量,则确定所述深入评估结果为数据集的质量差;所述t为小于所述n的正整数;若所述数据集通过所述第t个优先级的特定评估指标的度量,则以第t+1个优先级的特定评估指标对所述数据集进行质量评估;所述第t个优先级高于所述第t+1个优先级;直至以第n个优先级的特定评估指标对所述数据集进行质量评估时,基于所述第n个优先级的特定评估指标的度量值,计算所述数据集的深入评估结果。
[0013]在一个实施方式中,所述n等于2,所述n个优先级的特定评估指标包括:第一个优先级的特定评估指标和第二个优先级的特定评估指标,所述第一个优先级高于所述第二个优先级;在所述数据类型为文本时,所述第一个优先级的特定评估指标包括自洽性和准确性,所述第二个优先级的特定评估指标包括数据完整性和无偏性;在所述数据类型为音频时,所述第一个优先级的特定评估指标包括自洽性、准确性和元数据特性,所述第二个优先级的特定评估指标包括数据完整性和无偏性;在所述数据类型为图像时,所述第一个优先级的特定评估指标包括数据现时性、准确性和元数据特性,所述第二个优先级的特定评估指标包括无偏性和数据易用性。
[0014]本专利技术的一个实施方式提供了一种数据集质量评估装置,所述装置包括:数据集获取单元,用于获取数据集;基础评估单元,用于以基础评估指标对所述数据集进行质量评估,得到所述数据集的基础评估结果,所述基础评估指标是从数据集的数据使用层面划分的评估指标;数据类型获取单元,用于在所述基础评估结果指示数据集的质量待定的情况下,获取所述数据集的数据类型;深入评估单元,用于以所述数据类型匹配的特定评估指标对所述数据集进行质量评估,得到所述数据集的深入评估结果,所述特定评估指标是从数据集的数据特性层面划分的评估指标。
[0015]本专利技术的一个实施方式提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现上述数据集质量评估方法。
[0016]本专利技术一个实施方式提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时,实现上述数据集质量评估方法。
[0017]本申请提供了一种数据集质量的评估方法、装置及电子设备,从数据集的数据使用层面划分基础评估指标,从数据集的数据特性层面划分特定评估指标,并划分特定评估指标的优先级;在进行数据集的质量评估时,先度量基础评估指标,在通过基础评估指标的度量时进一步按照优先级顺序度量特定评估指标,从而对数据集进行层次化度量,避免数据集的质量明显较差时仍对数据集进行全评估指标的度量,实现了对数据集质量的高效评估。
[0018]另外,由于不同类型的数据集中数据特性不同,所执行的训练或测试任务也不同,通过获取数据集的数据类型并基于数据类型获取特定评估指标,以通过与数据类型匹配的特定评估指标对数据集进行细粒度的质量评估,实现了有区别地、有针对性地评估数据集的质量,提升数据集的质量评估的准确性。
[0019]此外,基础评估指标关注数据集的使用特性,包括集合完整性、保密性、使用现时性、规范性、易用性等;特定评估指标关注数据集中数据的本身特性以及不同数据之间的关联特性,包括数据完整性、自洽性、准确性、无偏性、元数据特性、数据现时性、数据易用性等;通过从多个维度划分多个评估指标,提供了全面且丰富的评估指标,有助于实现对数据集质量的完整且客观的评估。
附图说明
[0020]通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制,在附图中:
[0021]图1示出了本专利技术一个实施方式中数据集质量评估方法步骤图;
[0022]图2示出了本专利技术一个实施方式中基础评估指标的度量流程图;
[0023]图3示出了本专利技术一个实施方式中文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据集质量评估方法,其特征在于,所述方法包括:获取数据集;以基础评估指标对所述数据集进行质量评估,得到所述数据集的基础评估结果,所述基础评估指标是从数据集的数据使用层面划分的评估指标;在所述基础评估结果指示数据集的质量待定的情况下,获取所述数据集的数据类型;以所述数据类型匹配的特定评估指标对所述数据集进行质量评估,得到所述数据集的深入评估结果,所述特定评估指标是从数据集的数据特性层面划分的评估指标。2.根据权利要求1所述的方法,其特征在于,所述以基础评估指标对所述数据集进行质量评估,得到所述数据集的基础评估结果,包括:获取多个基础评估指标;计算所述数据集在每个基础评估指标下的度量值;基于所有基础评估指标的度量值,计算所述数据集的基础评估结果。3.根据权利要求2所述的方法,其特征在于,所述基础评估指标包括以下至少两项:集合完整性、保密性、使用现时性、规范性、易用性。4.根据权利要求1至3任一项所述的方法,其特征在于,所述以所述数据类型匹配的特定评估指标对所述数据集进行质量评估,得到所述数据集的深入评估结果,包括:获取与所述数据类型相匹配的多个特定评估指标;对所述多个特定评估指标进行优先级划分,得到n个优先级的特定评估指标,所述n为大于1的整数;按照优先级顺序依次以所述n个优先级的特定评估指标对所述数据集进行质量评估,得到所述数据集的深入评估结果。5.根据权利要求4所述的方法,其特征在于,所述优先级划分基于所述多个特定评估指标的度量特点;或者,所述优先级划分基于所述多个特定评估指标与所述数据集的使用任务之间的相关度。6.根据权利要求4所述的方法,其特征在于,所述按照优先级顺序依次以所述n个优先级的特定评估指标对所述数据集进行质量评估,得到所述数据集的深入评估结果,包括:在以第t个优先级的特定评估指标对所述数据集进行质量评估时,若所述数据集未通过所述第t个优先级的特定评估指标的度量,则确定所述深入评估结果为数据集的质量差;所述t为小于所述n的正整数;若所述数据集通过所...

【专利技术属性】
技术研发人员:薛云志龚优迪高卉戴非凡孟令中
申请(专利权)人:中科南京软件技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1