【技术实现步骤摘要】
一种基于快速搜索与密度峰值聚类的服务商聚类方法
[0001]本专利技术涉及数据挖掘
,尤其涉及一种基于快速搜索与密度峰值聚类的服务商聚类方法。
技术介绍
[0002]随着现代社会中科学技术的发展,企业的经营与生存环境发生了重大变化。企业已不能再仅仅依靠自有的产品、技术、人才以及资源组织形式获取竞争的主导地位,取而代之的是进行跨企业协作,依靠与产业链上下游服务商的协作,共同分享市场机会,共同承担市场风险。如何明晰现有服务商的整体分布特征,在此基础上将服务商进行聚类,针对不同类型服务商采取不同的合作策略,进而实现服务商选择的最优化,是摆在所有企业面前的问题。
[0003]服务商聚类是指基于服务商特征数据,将服务商的集合分割成几个类,每个类内的对象之间是相似的,但与其他类的对象是不相似的。由人为直接评估服务商进行聚类判断的方法由于主观因素过强,缺少科学性,学术界一般采用定量的聚类算法完成聚类过程。常用的聚类算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法等。
技术实现思路
[0004]本专利技术的目的是提出一种基于快速搜索与密度峰值聚类的服务商聚类方法,根据服务商特征数据维度多,空间形状复杂的特点,选取基于密度的方法中的快速搜索与发现密度峰值聚类算法并进行改进,实现对服务商的聚类。
[0005]本专利技术提出的基于快速搜索与密度峰值聚类的服务商聚类方法,包括以下步骤:
[0006](1)分别采集历史、专家评定以及和邮件调查方式收集的服务商特征数据,形成 ...
【技术保护点】
【技术特征摘要】
1.一种基于快速搜索与密度峰值聚类的服务商聚类方法,其特征在于该方法包括以下步骤:(1)分别采集历史、专家评定以及和邮件调查方式收集的服务商特征数据,形成服务商特征数据集其中,x
i
为服务商特征数据集中企业i的数据元素,N为服务商的数量,x
im
为数据元素x
i
中包含的数据项,M为数据元素x
i
中包含的数据项数量;(2)对服务商特征数据集S0进行预处理,即对S0中数据元素x
i
的数据项x
im
的异常值进行检测,对不完整的数据元素x
i
补充缺失值,使S0的数据格式统一;(3)利用线性归一化方法,对服务商特征数据集S0进行归一化处理,得到归一化后的服务商特征数据集S;(4)利用余弦距离计算方法,分别计算步骤(3)的服务商特征数据集S中任意两个服务商特征数据元素x
i
与x
j
之间的余弦距离d
ij
:其中,x
im
是数据元素x
im
中的数据项、x
jm
是数据元素x
j
中的数据项;(5)利用高斯核密度原理,得到步骤(3)的服务商特征数据集S的高斯核密度函数K(d
c
)的曲线:其中,μ为数据集S的平均值,σ为数据集S的标准差,μ和σ在数据集S确定的情况下均为已知量,d
c
为计算数据集S数据密度所使用的空间半径距离,记为截断距离,设与K(d
c
)出现第一个峰值相对应的d
c0
为d
c
,截断距离d
c
的最优值范围∈[0,d
c0
];(6)求解服务商特征数据集S的聚类最优截断距离d
c1
,包括如下步骤:(6-1)利用高斯核密度原理,利用步骤(4)得到的所有任意两个数据元素间的余弦距离d
ij
,计算以数据元素x
_i
为中心、以d
_c
为半径的空间范围内的数据元素数目ρ
i
(d
c
),将该数据元素数目ρ
i
(d
c
)记为x
_i
的局部密度:重复本步骤,得到所有服务商特征数据元素x
i
的N个局部密度;(6-2)利用步骤(4)得到的任意两个数据元素间的余弦距离d
ij
和步骤(6-1)得到的所有服务商特征数据元...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。