一种数据抽样的方法和设备技术

技术编号:39055803 阅读:13 留言:0更新日期:2023-10-12 19:48
本申请公开了一种数据抽样的方法和设备,用于对数据集中数据进行分类并选取代表性样本。本申请实施例方法包括:获取数据集,数据集中的每个数据携带至少一个标签;根据数据携带的至少一个标签将数据添加至至少一个标签对应的数据子集;选取数据集的代表性样本,数据集的代表性样本为数据子集的数据。通过获取多个携带标签的数据组合成的数据集和标签集,根据数据携带的标签将数据进行分类,获得多个数据子集,从这些数据子集中选择数据,获得数据集的代表性样本。保证了代表性样本覆盖了数据集中的各类数据,以确保用户在查阅数据集的代表性样本时,可以全面的了解数据集中数据的种类。类。类。

【技术实现步骤摘要】
一种数据抽样的方法和设备


[0001]本申请实施例涉及人工智能领域,尤其涉及一种数据抽样的方法和设备。

技术介绍

[0002]在人工智能(artificial intelligence,AI)领域中,用于AI计算的数据集种类和数量日渐庞大,使得人们进行数据集的查验时难以逐一检查数据集中的每一条数据。通常会采用一些统计方法,对具有代表性的样本数据进行查看,以达到花费尽量少的精力,最大程度的了解数据集中的各种数据的目的。
[0003]代表性样本类可解释AI(eXplainable AI,XAI)算法就是为了实现这一目标而出现的方法之一,现在较为通用的做法为,利用最大平均差异(maximum mean discrepency,MMD)作为数据的评价指标,来评价两堆数据的分布相似性,选取特定子集数量下,分布相似性最高的数据子集作为代表性样本。利用这种方法计算获得的代表性样本,虽然是整个数据集中分布相似性最高的数据子集,但是却无法涵盖所有数据集中的所有分类,使得用户通过查验数据集的代表性样本,无法全面的了解数据集。

技术实现思路

[0004]本申请提供了一种数据抽样的方法和设备,用于将数据集中数据分类并选取代表性样本,使用户通过查验数据集的代表性样本可以全面的了解数据集。
[0005]本申请第一方面提供了一种数据抽样的方法,包括:获取数据集,数据集中的每个数据携带至少一个标签;根据数据携带的至少一个标签将数据添加至至少一个标签对应的数据子集;选取数据集的代表性样本,数据集的代表性样本为数据子集的数据。
[0006]本申请中,通过获取多个携带标签的数据组合成的数据集,根据数据携带的标签将数据进行分类,获得多个数据子集,从这些数据子集中选择数据,获得数据集的代表性样本。保证了代表性样本覆盖了数据集中的各类数据,以确保用户在查阅数据集的代表性样本时,可以全面的了解数据集中数据的种类。
[0007]在第一方面一种可能的实施方式中,选取数据集的代表性样本,包括:计算数据子集中数据的性能指标,数据子集中数据的性能指标与数据子集中数据的分布相似性成正比,性能指标与数据子集中数据的差异性成正比;选取数据子集中性能指标最高的数据作为数据集的代表性样本。
[0008]本申请中,通过计算数据子集中数据的性能指标,获得既可以代表该数据子集的代表性样本,该代表性样本也保证了一定的差异性和分布相似性,以确保当数据子集需要选取多个数据作为数据集的代表性样本时,多个数据在可以代表该数据子集的同时,多个数据间存在差异,其中,性能指标与数据子集中数据的分布相似性成正比,与数据子集中数据据的差异性也成正比。确保选出的代表性样本在可以代表数据子集的基础上,不至于过度集中。
[0009]在第一方面一种可能的实施方式中,计算数据子集中数据的性能指标,包括:利用
以下公式计算数据子集中数据的性能指标:
[0010][0011]其中,x
i
为当前组内数据,p
k
为从x
i
节点的后代节点中选出的数据,d(a,b)为a,b两点之间的距离,λ为预设常数。
[0012]本申请中,通过公式计算数据子集中数据的性能指标,为计算方式提供了具体的方法,通过本申请提出的公式,可以计算出数据子集中数据的性能指标A,为方案的实现,提供了可靠的支持。
[0013]在第一方面一种可能的实现方式中,选取数据子集的代表性样本,包括:计算数据子集中数据的分布相似性;选择数据子集中数据的分布相似性最高的数据作为数据集的代表性样本。
[0014]本申请中,通过计算数据子集中数据的分布相似性,选择数据子集中数据的分布相似性最高的数据作为数据集的代表性样本,使获得的代表性样本中,每一个数据都可以很好的代表其对应的数据子集。
[0015]在第一方面一种可能的实现方式中,该方法还包括:获取第一数量,第一数量为输出代表性样本的数量;输出第一数量的代表性样本。
[0016]本申请中,在确定了数据集的代表性样本后,还可以根据用户的需求,输出一定数量的代表性样本。使用户无需全量查验数据集中的代表性样本,通过查验指定数量的代表性样本灵活的了解数据集的情况。
[0017]在第一方面一种可能的实现方式中,该方法还包括:获取标签集,至少一个标签属于标签集,标签集中各标签之间有层级关系,层级关系为树状结构;输出第一数量的代表性样本,包括:第一数量大于等于第一层级的标签数量,输出第一层级的标签对应的代表性样本,第一层级为层级关系中的层级。
[0018]本申请中,该方法还获取了标签集,数据集中各数据携带的至少一个标签属于该标签集,同时,标签集中各标签之间有层级关系,该层级关系为树状结构。输出第一数量的代表性样本可以通过在第一数量大于第一层级的标签数量时,输出第一层级的标签对应的代表性样本,其中,第一层级为层级关系中的层级。在输出代表性样本时,可以根据用户期望查阅到的数据数目,随时调整输出的代表性样本。
[0019]在第一方面一种可能的实现方式中,第一数量还小于第二层级的标签数量,第一层级与第二层级为相邻的层级。本申请中,第一数量大于第一层级的标签数量且小于第二层级的标签数量时,输出第一层级的标签对应的代表性样本。使得用户期望查阅第一数量的代表性样本时,可以从划分更细的层级中获取代表性样本,保障了用户通过查阅第一数量的代表性样本,可以尽量细节的了解数据集中都有哪些类型的数据。
[0020]在第一方面一种可能的实现方式中,该方法还包括:计算数据集的代表性样本的典型性和/或差异性和/或准确性。本申请中,通过计算数据集的代表性样本的典型性和/或差异性和/或准确性,为评价该方法选取的数据集的代表性样本是否以贴合用户思维提供了判断依据。
[0021]在第一方面一种可能的实现方式中,计算代表性样本的典型性包括:
[0022]利用如下公式进行典型性计算:
[0023][0024]其中,S为代表性样本集合,S
i
为代表性样本集合中的元素,x
ij
为S
i
所代表的voronoi分割空间中的其他数据点,映射d(a,b)代表a,b量点之间的欧氏距离。
[0025]本申请中,为代表性样本的典型性计算提供了具体的计算方法,通过本申请提出的公式,可以计算出代表性样本的典型性。
[0026]在第一方面一种可能的实现方式中,计算代表性样本的差异性包括:
[0027]利用如下公式进行差异性计算:
[0028][0029]其中,n为代表性样本所覆盖的标签种类数量,m为数据集中所有的标签种类数量。
[0030]本申请中,为代表性样本的差异性计算提供了具体的计算方法,通过本申请提出的公式,可以计算出代表性样本的差异性。
[0031]在第一方面一种可能的实现方式中,计算代表性样本的准确性包括:
[0032]利用如下公式进行准确性计算:
[0033][0034]其中,分母为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据抽样的方法,其特征在于,包括:获取数据集,所述数据集中的数据携带至少一个标签;根据所述至少一个标签将所述数据集中的数据添加至所述至少一个标签对应的数据子集;选取所述数据集的代表性样本,所述数据集的代表性样本为所述数据子集的数据。2.根据权利要求1所述的方法,其特征在于,所述选取所述数据集的代表性样本,包括:计算所述数据子集中各数据的性能指标,所述数据子集中各数据的性能指标与所述数据子集中数据的分布相似性成正比,所述性能指标与所述数据子集中各数据的差异性成正比;选取所述数据子集中所述性能指标最高的数据作为所述数据集的代表性样本。3.根据权利要求2所述的方法,其特征在于,所述计算所述数据子集中数据的性能指标,包括:利用以下公式计算所述数据子集中数据的性能指标:其中,x
i
为当前组内数据,p
k
为从x
i
节点的后代节点中选出的数据,d(a,b)为a,b两点之间的距离。4.根据权利要求1所述的方法,其特征在于,所述选取所述数据集的代表性样本,包括:计算所述数据子集中数据的分布相似性;选取所述数据子集中数据的分布相似性最高的数据作为所述数据集的代表性样本。5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:获取第一数量,所述第一数量为输出代表性样本的数量;输出第一数量的代表性样本。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:获取标签集,所述至少一个标签属于所述标签集,所述标签集中各标签之间有层级关系,所述层级关系为树状结构;输出第一数量的代表性样本,包括:所述第一数量大于等于第一层级的标签数量,输出所述第一层级的标签对应的代表性样本,所述第一层级为层级关系中的层级。7.根据权利要求6所述的方法,其特征在于,所述第一数量还小于第二层级的标签数量,所述第一层级与所述第二层级为相邻的层级。8.根据权利要求1至7所述的方法,其特征在于,所述方法还包括:计算所述数据集的代表性样本的典型性和/或差异性和/或准确性。9.一种数据抽样的设备,其特征在于,包括:获取单元,用于获取数据集,所述数据集中的每个数据携带至少一个标签;添加单元,用于根据所述数据携带的所述至少一个标签将所述数据添加至所述至少一个标签对应的数据子集;...

【专利技术属性】
技术研发人员:邱禄瑜杨溢曹琛魏晞婷郑月媛萧惠文
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1