基于数据分布均衡度的衡量方法、装置、设备及存储介质制造方法及图纸

技术编号:38030566 阅读:7 留言:0更新日期:2023-06-30 10:57
本发明专利技术涉及人工智能技术,揭露了一种基于数据分布均衡度的衡量方法,包括:获取衡量数据,对所述衡量数据进行筛选,得到待测枚举值数据;对所述待测枚举值数据进行聚类,得到多类枚举值数据;对所述枚举值数据进行类型匹配,得到枚举值类型以及所述枚举值类型对应的枚举值数值;根据所述枚举值数值计算所述枚举值类型对应的占比,根据所述枚举值类型生成均衡系数;对所述类别数、所述占比及所述均衡系数进行指标计算,得到所述待测数据的均衡度指标。本发明专利技术还提出一种基于数据分布均衡度的衡量装置、电子设备以及存储介质。本发明专利技术可以提高枚举值数据均衡度的衡量准确性。高枚举值数据均衡度的衡量准确性。高枚举值数据均衡度的衡量准确性。

【技术实现步骤摘要】
基于数据分布均衡度的衡量方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种基于数据分布均衡度的衡量方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]在数据标签开发的过程中,对于枚举值类型的数据标签,不均衡的取值会导致后续数据区分性差,当部分通过规则产生的枚举值取值过于不均衡时,需要评估预设规则的可行性,因此,枚举值类型的数据标签取值是数据开发的关键。衡量枚举值类型的数据标签的指标包括HHI(Herfindahl

Hirschman Index,赫芬达尔—赫希曼指数)以及方差等,但是现有的技术对于枚举值类型的数据标签的指标取值的上下界不能统一固定,受枚举值的个数影响;枚举值数据均衡度的衡量不够客观准确,在部分直观上均衡程度相近应用场景中,计算结果与实际分布情况差别较大。
[0003]综上所述,如何提高枚举值数据均衡度的衡量准确性成为一个亟待解决的技术问题。

技术实现思路

[0004]本专利技术提供一种基于数据分布均衡度的衡量方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决基于枚举值数据均衡度的衡量准确性较低的技术问题。
[0005]为实现上述目的,本专利技术提供的一种基于数据分布均衡度的衡量方法,包括:
[0006]获取衡量数据,对所述衡量数据进行筛选,得到待测枚举值数据;
[0007]对所述待测枚举值数据进行聚类,得到多类枚举值数据;
[0008]对所述枚举值数据进行类型匹配,得到枚举值类型以及所述枚举值类型对应的枚举值数值;
[0009]根据所述枚举值数值计算所述枚举值类型对应的占比,根据所述枚举值类型生成均衡系数;
[0010]对所述类别数、所述占比及所述均衡系数进行指标计算,得到所述待测数据的均衡度指标。
[0011]可选地,所述对所述待测枚举值数据进行聚类,得到多类枚举值数据,包括:
[0012]根据所述待测枚举值数据的属性确定所述待测枚举值数据对应的分类以及分类个数;
[0013]根据所述分类以及所述分类个数生成对应的聚类中心,利用所述待测枚举值数据的属性生成属性向量,并将所述属性向量作为所述聚类中心的中心向量;
[0014]对所述待测枚举值数据进行向量计算,得到数据向量,计算所述中心向量与所述数据向量之间的相似度;
[0015]根据所述相似度从所述聚类中心中确定目标聚类中心,并根据所述目标聚类中心确定所述待测枚举值数据的分类。
[0016]可选地,所述对所述衡量数据进行筛选,得到待测枚举值数据,包括:
[0017]获取所述衡量数据所对应的数据属性;
[0018]利用预设的需求属性从所述数据属性中提取目标数据属性;
[0019]利用所述目标数据属性从所述衡量数据中提取出待测枚举值数据。
[0020]可选地,所述对所述枚举值数据进行类型匹配,得到枚举值类型以及所述枚举值类型对应的枚举值数值,包括:
[0021]对所述枚举值数据进行记录,得到所述枚举值数据对应的类别指标,并将所述类别指标作为所述枚举值数据的枚举值类型;
[0022]根据所述类别指标对所述枚举值数据进行划分,并对划分后的所述枚举值数据进行统计,得到统计数值,并将所述统计数值作为所述枚举值数据的枚举值数值。
[0023]可选地,所述根据所述枚举值类型生成均衡系数,包括:
[0024]对各所述枚举值类型对应的占比进行方差计算,得到所述枚举值类型对应的占比方差的取值范围;
[0025]从所述方差的取值范围的上界中提取出所述枚举值类型的影响因素因子,对所述影响因素因子进行修正处理,得到所述均衡系数。
[0026]可选地,利用下述公式对所述类别数、所述占比及所述均衡系数进行指标计算:
[0027][0028]其中,HHIM为均衡度指标;S
i
为第i个枚举值类型对应的的占比,i=1,2,3,

,n(n为自然数);N为所述枚举值类型的类别数。
[0029]可选地,可以利用下述公式计算所述枚举值类型对应的占比:
[0030]S
i
=X
i
/X
[0031]其中,X
i
为第i个枚举值类型的枚举值数值,i=1,2,3,

,n(n为自然数);X为所有所述枚举值类型的枚举值数值;S
i
为第i个枚举值类型的占比,
[0032]i=1,2,3,

,n(n为自然数)。
[0033]为了解决上述问题,本专利技术还提供一种基于数据分布均衡度的衡量装置,所述装置包括:
[0034]待测枚举值数据生成模块,用于获取衡量数据,对所述衡量数据进行筛选,得到待测枚举值数据;
[0035]枚举值数据生成模块,用于对所述待测枚举值数据进行聚类,得到多类枚举值数据;
[0036]枚举值数据处理模块,用于对所述枚举值数据进行类型匹配,得到枚举值类型以及所述枚举值类型对应的枚举值数值;
[0037]枚举值均衡系数生成模块,用于根据所述枚举值数值计算所述枚举值类型对应的占比,根据所述枚举值类型生成均衡系数;
[0038]均衡度指标生成模块,用于对所述类别数、所述占比及所述均衡系数进行指标计算,得到所述待测数据的均衡度指标。
[0039]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0053]参照图1所示,为本专利技术一实施例提供的基于数据分布均衡度的衡量方法的流程示意图。在本实施例中,所述基于数据分布均衡度的衡量方法包括:
[0054]S1、获取衡量数据,对所述衡量数据进行筛选,得到待测枚举值数据。
[0055]本专利技术实施例中,所述衡量数据为用于计算数据分布均衡度的数据集,该数据集中的数据包括用于计算数据均衡度的有用数据,以及其他数据。因此,可以对衡量数据进行清洗和筛选,获得用于计算均衡度指标的待测数据。
[0056]请参阅图2所示,本专利技术实施例中,所述对所述衡量数据进行筛选,得到待测枚举值数据,包括:
[0057]S21、获取所述衡量数据所对应的数据属性;
[0058]S22、利用预设的条件语句从所述数据属性中提取目标数据属性;
[0059]S23、利用所述目标数据属性从所述衡量数据中提取出待测枚举值数据。
[0060]本专利技术实施例中,所述待测枚举值数据就是对有限可能取值的变量一一列出的值,例如对性别这一变量,取值只有男女,对于星期这一变量只有周一到周日七个等。
[0061]本专利技术实施例中,所述衡量数据所对应的数据属性可以包括身份属性、地域属性、工作属性、年龄属性等;可以利用where条件语句对所述目标数据属性进行提取,例如,从数据属性中提取目标数据属性,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据分布均衡度的衡量方法,其特征在于,所述方法包括:获取衡量数据,对所述衡量数据进行筛选,得到待测枚举值数据;对所述待测枚举值数据进行聚类,得到多类枚举值数据;对所述枚举值数据进行类型匹配,得到枚举值类型以及所述枚举值类型对应的枚举值数值;根据所述枚举值数值计算所述枚举值类型对应的占比,根据所述枚举值类型生成均衡系数;对所述类别数、所述占比及所述均衡系数进行指标计算,得到所述待测数据的均衡度指标。2.如权利要求1所述的基于数据分布均衡度的衡量方法,其特征在于,所述对所述待测枚举值数据进行聚类,得到多类枚举值数据,包括:根据所述待测枚举值数据的属性确定所述待测枚举值数据对应的分类以及分类个数;根据所述分类以及所述分类个数生成对应的聚类中心,利用所述待测枚举值数据的属性生成属性向量,并将所述属性向量作为所述聚类中心的中心向量;对所述待测枚举值数据进行向量计算,得到数据向量,计算所述中心向量与所述数据向量之间的相似度;根据所述相似度从所述聚类中心中确定目标聚类中心,并根据所述目标聚类中心确定所述待测枚举值数据的分类。3.如权利要求1所述的基于数据分布均衡度的衡量方法,其特征在于,所述对所述衡量数据进行筛选,得到待测枚举值数据,包括:获取所述衡量数据所对应的数据属性;利用预设的需求属性从所述数据属性中提取目标数据属性;利用所述目标数据属性从所述衡量数据中提取出待测枚举值数据。4.如权利要求1所述的基于数据分布均衡度的衡量方法,其特征在于,所述对所述枚举值数据进行类型匹配,得到枚举值类型以及所述枚举值类型对应的枚举值数值,包括:对所述枚举值数据进行记录,得到所述枚举值数据对应的类别指标,并将所述类别指标作为所述枚举值数据的枚举值类型;根据所述类别指标对所述枚举值数据进行划分,并对划分后的所述枚举值数据进行统计,得到统计数值,并将所述统计数值作为所述枚举值数据的枚举值数值。5.如权利要求1所述的基于数据分布均衡度的衡量方法,其特征在于,所述根据所述枚举值类型生成均衡系数,包括:对各所述枚举值类型对应的占比进行方差计算,得到所述枚举值类型对应的占比方差的取值范围;从所述方差的取值范围的上界中提取出所述枚举值类型的影响因素因子,对所述影响因素因子进行修正处理,得到所述均衡系数。6.如权利要求1中所述的基于数据...

【专利技术属性】
技术研发人员:侯宗元张茜胡立波
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1