基于随机抽样的聚类可视化方法及装置制造方法及图纸

技术编号:23853702 阅读:54 留言:0更新日期:2020-04-18 09:58
本发明专利技术公开了一种基于随机抽样的聚类可视化方法及装置,该方法包括:计算每个特征在每次随机抽样和总体样本中的取值的概率分布的KL散度,并确定每个特征的KL散度的最大值;计算每个特征在每个所述聚类簇和总体样本中的取值的概率分布的KL散度;根据每个特征在每个所述聚类簇和总体样本中的取值的概率分布的KL散度以及所述每个特征的KL散度的最大值确定每个所述聚类簇中与总体样本分布不相似的特征;根据每个所述聚类簇中与总体样本分布不相似的特征对每个所述聚类簇进行可视化输出。本发明专利技术实现了减少可视化输出时特征数量,重点突出了与总体样本差异较大特征,便于数据分析人员对聚类结果进行分析。

Clustering Visualization Method and device based on random sampling

【技术实现步骤摘要】
基于随机抽样的聚类可视化方法及装置
本专利技术涉及聚类可视化领域,具体而言,涉及一种基于随机抽样的聚类可视化方法及装置。
技术介绍
聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。分组的目标是,组内对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。聚类分析结果通常使用可视化图来展示。现有的聚类可视化分析中,通常使用直方图、饼图、散点图等可视化技术分别展示聚类簇和总体各个特征的概率分布情况,需人工分辨簇中哪些特征与总体之间的差异较大,没有统一的标准来衡量。此外,现有的聚类可视化方法需将所有特征的分布都绘制出来,以供人工分析聚类簇与总体样本之间的差异,当样本特征数量比较大时必然导致可视化图中包含许多无用特征(根据实际经验,大多数聚类模型的执行结果中,聚类簇与总体样本之间在大部分特征上的分布并无明显差别),增加了数据分析人员的负担。
技术实现思路
本专利技术为了解决上述技术问题中的至少一个,提供一种基于随机抽样的聚类可视化方法及装置。为了实现上述目的,根据本专利技术的一个方面,提供了一种基于随机抽样的聚类可视化方法,该方法包括:获取总体样本中各特征的取值的概率分布;对所述总体样本执行N次随机抽样,分别计算每次随机抽样中各特征的取值的概率分布;根据总体样本中各特征的取值的概率分布以及每次随机抽样中各特征的取值的概率分布分别计算每个特征在每次随机抽样和总体样本中的取值的概率分布的KL散度,并确定每个特征的KL散度的最大值;获取对所述总体样本进行聚类生成的聚类簇,分别针对每个所述聚类簇计算各特征的取值的概率分布;根据每个所述聚类簇对应的各特征的取值的概率分布以及总体样本中各特征的取值的概率分布计算每个特征在每个所述聚类簇和总体样本中的取值的概率分布的KL散度;根据每个特征在每个所述聚类簇和总体样本中的取值的概率分布的KL散度以及所述每个特征的KL散度的最大值确定每个所述聚类簇中与总体样本分布不相似的特征;根据每个所述聚类簇中与总体样本分布不相似的特征对每个所述聚类簇进行可视化输出。可选的,该方法还包括:对所述总体样本中的所有连续型特征进行离散化处理,得到连续型特征的离散化取值。可选的,根据每个特征在每个所述聚类簇和总体样本中的取值的概率分布的KL散度以及所述每个特征的KL散度的最大值确定每个所述聚类簇中与总体样本分布不相似的特征,具体包括:判断每个所述聚类簇中每个特征的取值的概率分布和总体样本中该特征的取值的概率分布的KL散度是否大于或等于该特征的KL散度的最大值;若是,则确定该聚类簇中的该特征为与总体样本分布不相似的特征。可选的,所述根据每个所述聚类簇中与总体样本分布不相似的特征对每个所述聚类簇进行可视化输出,具体包括:对每个所述聚类簇中与总体样本分布不相似的特征进行可视化输出。为了实现上述目的,根据本专利技术的另一方面,提供了一种基于随机抽样的聚类可视化装置,该装置包括:取值概率分布获取单元,用于获取总体样本中各特征的取值的概率分布;抽样取值概率分布计算单元,用于对所述总体样本执行N次随机抽样,分别计算每次随机抽样中各特征的取值的概率分布;特征KL散度的最大值计算单元,用于根据总体样本中各特征的取值的概率分布以及每次随机抽样中各特征的取值的概率分布分别计算每个特征在每次随机抽样和总体样本中的取值的概率分布的KL散度,并确定每个特征的KL散度的最大值;聚类簇取值概率分布计算单元,用于获取对所述总体样本进行聚类生成的聚类簇,分别针对每个所述聚类簇计算各特征的取值的概率分布;聚类簇特征KL散度计算单元,用于根据每个所述聚类簇对应的各特征的取值的概率分布以及总体样本中各特征的取值的概率分布计算每个特征在每个所述聚类簇和总体样本中的取值的概率分布的KL散度;分布不相似特征确定单元,用于根据每个特征在每个所述聚类簇和总体样本中的取值的概率分布的KL散度以及所述每个特征的KL散度的最大值确定每个所述聚类簇中与总体样本分布不相似的特征;可视化输出单元,用于根据每个所述聚类簇中与总体样本分布不相似的特征对每个所述聚类簇进行可视化输出。可选的,该装置还包括:离散化处理单元,用于对所述总体样本中的所有连续型特征进行离散化处理,得到连续型特征的离散化取值。可选的,所述分布不相似特征确定单元包括:判断模块,用于判断每个所述聚类簇中每个特征的取值的概率分布和总体样本中该特征的取值的概率分布的KL散度是否大于或等于该特征的KL散度的最大值;确定模块,用于当某个聚类簇中的某个特征的取值的概率分布和总体样本中该特征的取值的概率分布的KL散度大于或等于该特征的KL散度的最大值时,确定该聚类簇中的该特征为与总体样本分布不相似的特征。可选的,所述可视化输出单元,具体用于对每个所述聚类簇中与总体样本分布不相似的特征进行可视化输出。为了实现上述目的,根据本专利技术的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于随机抽样的聚类可视化方法中的步骤。为了实现上述目的,根据本专利技术的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述基于随机抽样的聚类可视化方法中的步骤。本专利技术的有益效果为:本专利技术实施例提出了一种对聚类簇与总体样本的特征之间的概率分布差异进行定量计算的方法。并根据差异定量计算结果,确定出聚类簇与总体样本之间概率分布差异较大特征,实现了减少可视化输出时特征数量,重点突出了与总体样本差异较大特征,便于数据分析人员对聚类结果进行分析。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本专利技术实施例基于随机抽样的聚类可视化方法的流程图;图2是本专利技术实施例确定聚类簇中与总体样本分布不相似的特征的流程图;图3是本专利技术实施例基于随机抽样的聚类可视化装置的结构框图;图4是本专利技术实施例分布不相似特征确定单元的组成结构框图;图5是本专利技术实施例计算机设备示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。本领域内的技本文档来自技高网
...

【技术保护点】
1.一种基于随机抽样的聚类可视化方法,其特征在于,包括:/n获取总体样本中各特征的取值的概率分布;/n对所述总体样本执行N次随机抽样,分别计算每次随机抽样中各特征的取值的概率分布;/n根据总体样本中各特征的取值的概率分布以及每次随机抽样中各特征的取值的概率分布分别计算每个特征在每次随机抽样和总体样本中的取值的概率分布的KL散度,并确定每个特征的KL散度的最大值;/n获取对所述总体样本进行聚类生成的聚类簇,分别针对每个所述聚类簇计算各特征的取值的概率分布;/n根据每个所述聚类簇对应的各特征的取值的概率分布以及总体样本中各特征的取值的概率分布计算每个特征在每个所述聚类簇和总体样本中的取值的概率分布的KL散度;/n根据每个特征在每个所述聚类簇和总体样本中的取值的概率分布的KL散度以及所述每个特征的KL散度的最大值确定每个所述聚类簇中与总体样本分布不相似的特征;/n根据每个所述聚类簇中与总体样本分布不相似的特征对每个所述聚类簇进行可视化输出。/n

【技术特征摘要】
1.一种基于随机抽样的聚类可视化方法,其特征在于,包括:
获取总体样本中各特征的取值的概率分布;
对所述总体样本执行N次随机抽样,分别计算每次随机抽样中各特征的取值的概率分布;
根据总体样本中各特征的取值的概率分布以及每次随机抽样中各特征的取值的概率分布分别计算每个特征在每次随机抽样和总体样本中的取值的概率分布的KL散度,并确定每个特征的KL散度的最大值;
获取对所述总体样本进行聚类生成的聚类簇,分别针对每个所述聚类簇计算各特征的取值的概率分布;
根据每个所述聚类簇对应的各特征的取值的概率分布以及总体样本中各特征的取值的概率分布计算每个特征在每个所述聚类簇和总体样本中的取值的概率分布的KL散度;
根据每个特征在每个所述聚类簇和总体样本中的取值的概率分布的KL散度以及所述每个特征的KL散度的最大值确定每个所述聚类簇中与总体样本分布不相似的特征;
根据每个所述聚类簇中与总体样本分布不相似的特征对每个所述聚类簇进行可视化输出。


2.根据权利要求1所述的基于随机抽样的聚类可视化方法,其特征在于,还包括:
对所述总体样本中的所有连续型特征进行离散化处理,得到连续型特征的离散化取值。


3.根据权利要求1所述的基于随机抽样的聚类可视化方法,其特征在于,根据每个特征在每个所述聚类簇和总体样本中的取值的概率分布的KL散度以及所述每个特征的KL散度的最大值确定每个所述聚类簇中与总体样本分布不相似的特征,具体包括:
判断每个所述聚类簇中每个特征的取值的概率分布和总体样本中该特征的取值的概率分布的KL散度是否大于或等于该特征的KL散度的最大值;
若是,则确定该聚类簇中的该特征为与总体样本分布不相似的特征。


4.根据权利要求1所述的基于随机抽样的聚类可视化方法,其特征在于,所述根据每个所述聚类簇中与总体样本分布不相似的特征对每个所述聚类簇进行可视化输出,具体包括:
对每个所述聚类簇中与总体样本分布不相似的特征进行可视化输出。


5.一种基于随机抽样的聚类可视化装置,其特征在于,包括:
取值概率分布获取单元,用于获取总体样本中各特征的取值的概率分布;
抽样取值概率分布计算单元,用于对所述总体样本执行N次随机抽样,分别计算每次随机抽样中各特征的取值的概率分布;
特征K...

【专利技术属性】
技术研发人员:李虹锋樊丹
申请(专利权)人:中国建设银行股份有限公司建信金融科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1