一种数据分箱的方法和装置制造方法及图纸

技术编号:26762590 阅读:30 留言:0更新日期:2020-12-18 23:13
本发明专利技术公开了一种数据分箱的方法和装置,涉及计算机技术领域。该方法的一具体实施例包括:对数据的分布类型进行分类;对不属于均匀分布或正态分布的数据进行变换;对变换后的数据的分布类型进行分类;并且根据所述数据的分布类型,对所述数据进行自适应分箱。该实施例自动检测数据所属的分布类型,并针对每种类型适配不同的分箱方法;构建包括规模加权k‑means算法的分箱方法,能够控制每个类别的样本数的百分比范围,满足对一维指标数据自动分级的业务需求。

【技术实现步骤摘要】
一种数据分箱的方法和装置
本专利技术涉及计算机
,尤其涉及一种数据分箱的方法和装置。
技术介绍
银行全国网点有上万的运营相关指标,需要自动根据运营指标对网点、员工、设备、区域等进行分级。这些指标数据分布各异、无标签、数量庞大,人工配置成本极高,需要一套自动识别数据分布类型,并进行合理分级的方法。借助无监督自动分箱技术,对单个运营相关指标自动分析数据所属数据分布类型并采用自适配分箱方法,从而实现对网点、员工、设备、区域等进行自动分级。现有技术对所有分布类型的数据采用同一套方法,不能自适应数据分布的多样性;每个箱体中包含的样本百分比不可控,不符合分级的业务需求。为了解决上述技术问题,需要优化现有的分箱方法,使得其能够:a.自动检测数据分布,并根据不同的数据分布类型,采用对应的分箱方法来完成对上万的运营指标自动分箱,使用分箱结果可以作为对网点、员工、设备、区域等的分级的重要标准。b.分箱时,能够根据分级的业务需求,控制每个箱体中包含的样本数百分比的范围,从而实现既体现分级的科学性,又满足业务上的需求。如下本文档来自技高网...

【技术保护点】
1.一种数据分箱的方法,其特征在于,包括:/n对数据的分布类型进行分类;/n对不属于均匀分布或正态分布的数据进行变换;/n对变换后的数据的分布类型进行分类;并且/n根据所述数据的分布类型,对所述数据进行自适应分箱。/n

【技术特征摘要】
1.一种数据分箱的方法,其特征在于,包括:
对数据的分布类型进行分类;
对不属于均匀分布或正态分布的数据进行变换;
对变换后的数据的分布类型进行分类;并且
根据所述数据的分布类型,对所述数据进行自适应分箱。


2.如权利要求1所述的方法,其特征在于,对数据的分布类型进行分类,包括:
通过将所述数据除以其均值,获得指数值,
对所述指数值进行科尔莫戈罗夫检验,以判断所述数据最接近的分布类型。


3.如权利要求1所述的方法,其特征在于,所述不属于均匀分布或正态分布的数据包括其分布类型为卡方分布、指数分布、泊松分布或其他分布类型的数据。


4.如权利要求1所述的方法,其特征在于,对不属于均匀分布或正态分布的数据进行变换,包括:对不属于均匀分布或正态分布的数据进行Box-Cox变换或平方根变换。


5.如权利要求1所述的方法,其特征在于,对变换后的数据的分布类型进行分类,包括:
对变换后的数据的指数值进行科尔莫戈罗夫检验,以判断所述数据是否为正态分布。


6.如权利要求1至5的任一项所述的方法,其特征在于,根据所述数据的分布类型,对所述数据进行自适应分箱,包括:
如果数据的分布类型为正态分布,则采用3倍标准差的方式对所述数据进行分箱;或
如果数据的分布类型为均匀分布,则采用固定百分比的方式对所述数据进行分箱。


7.如权利要求1至5的任一项所述的方法,其特征在于,根据所述数据的分布类型,对所述数据进行自适应分箱,包括:
如果数据的分布类型不属于均匀分布或正态分布,则采用规模加权的k-means算法对所述数据进行分...

【专利技术属性】
技术研发人员:周康
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1