【技术实现步骤摘要】
基于密度搜索与快速划分的混合数据聚类方法
本专利技术涉及数据聚类
,具体涉及一种基于密度搜索与快速划分的混合数据聚类方法。
技术介绍
随着通信技术和硬件设备的不断发展,数据挖掘技术在实时监控系统、气象卫星遥感、网络通信量监测等方面有着巨大应用前景,针对数据快速连续到达、持续增长的特点,传统聚类算法无法适用于数据对象,数据对聚类算法提出了如下新的要求:1.对自然簇个数无须假设;2.能够发现任意形状的簇;3.具有处理离群点的能力。而且面对现实中的大部分数据都是混合属性数据,其中既包含了数值属性数据和分类属性数据,如何有效的从这种混合属性的数据中挖掘出具有价值的信息已显得尤为重要。近年来数据聚类研究工作广泛展开,但现有的数据聚类算法大部分局限于处理只具有数值属性的数据,另外有少量算法局限于处理只有分类属性的数据,针对混合属性数据的算法较少。Aggarwal等人提出了进化数据聚类框架CluStream,该算法首次采用了两阶段处理框架:在线的微聚类和离线的宏聚类。在线阶段算法提出了微簇结构,不断对到达的数据点进行维护,生成概要信息。离线阶段算法负责相应的用户请求,根据 ...
【技术保护点】
一种基于密度搜索与快速划分的混合数据聚类方法,其特征在于,包括如下步骤:S1:确定混合属性数据集中混合数据的占优类型;S2:根据混合数据的占优类型计算混合数据集中任意两个混合数据之间的距离;S3:根据任意两个混合数据之间的距离,基于密度搜索算法在预设的聚类半径取值范围内对聚类半径进行优化,并以最优的聚类半径对应聚类结果作为最终聚类结果。
【技术特征摘要】
1.一种基于密度搜索与快速划分的混合数据聚类方法,用于对客户信息进行聚类,然后根据聚类结果对不同类别的用户展开特定产品推荐,其特征在于,包括如下步骤:S1:确定混合属性数据集D中混合数据的占优类型,混合数据为客户信息:若则认为混合属性数据集D中的混合数据为数值占优型数据;若则认为混合属性数据集D中的混合数据为分类占优型数据;否则,则认为混合属性数据集D中的混合数据为均衡型混合属性数据;其中,d为混合数据的维度,m为混合数据中数值属性的维度,n为分类属性的维度;S2:根据混合数据的占优类型计算混合属性数据集D中任意两个混合数据之间的距离:(a)针对数值占优型数据,通过如下步骤计算任意两个混合数据之间的距离:(a1)计算任意两个混合数据Xi,Xj中数值属性部分的距离d(Xi,Xj)n为:采用二元化的方法计算任意两个混合数据Xi,Xj中的分类属性部分在每一维上距离,如混合数据Xi,Xj在第p维上的距离为:则混合数据Xi,Xj中分类属性部分的距离d(Xi,Xj)c为:(a2)利用数值属性部分的距离和分类属性部分的距离计算混合数据Xi,Xj的距离d(Xi,Xj):d(Xi,Xj)=d(Xi,Xj)n+d(Xi,Xj)c;(b)针对分类占优型数据,通过如下步骤计算任意两个混合数据之间的距离:(b1)对任意一个混合数据的数值属性部分的每一维均进行标准化处理得到各数值属性的标准值,其中混合数据Xi的第p个数值属性的标准值为:其中,为混合数据Xi的第p个数值属性的取值,为所有混合数据中该维的最大值,为所有混合数据中该维的最小值,为混合数据i中该维取值;则数值属性部分的距离为:任意两个对象Xi,Xj的分类属性部分每一维的距离则采用二元化的方法,即Xi,Xj的第p维之间的距离为:则分类属性部分的距离为:(b2)利用所述的数值属性部分的距离和分类属性部分的距离计算D(Xi,Xj):D(Xi,Xj)=d(Xi,Xj)n+d(Xi,Xj)c;(c)针对均衡型混合属性数据,计算任意两个混合数据的距离:其中,dp(Xi,Xj)表示混合数据Xi和Xj在第p维上的距离,根据如下公式计算:dpq(Xi,Xj)表示Xi和Xj在第p维上相对于第q维的距离,根据如下公式计算:其中,为混合数据Xi在第P维上的取值,为混合数据Xj在P维上的取值,那么可求得混合数据在第p维上的取值为时第q维上所有可能取值的混合数据组成的集合,z是该集合的子集;S3:基于粒子群优化计算优化聚类半径dc,利用基于占有分析的混合属性数据距离计算方法,获得所有混合数据的密度ρ和距离δ值的函数关系,利用线性函数拟合ρ和δ函数关系,通过F分布和t分布计算最优聚类中心集(c1,c2,…,ck),并通过快速划分完成数据集聚类:S3-1:确定聚类半径dc的取值范围[dc_low,dc_high]、设定粒子速度上下限,并初始化粒子群P,具体包括设定粒子数、最大迭代次数Maxit...
【专利技术属性】
技术研发人员:陈晋音,何辉豪,杨东勇,陈军敢,卢瑾,顾东袁,张健,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。