一种基于快速搜索与密度峰值聚类的服务商聚类方法技术

技术编号：27446559 阅读：22 留言：0更新日期：2021-02-25 04:13

本发明专利技术涉及数据挖掘技术领域，尤其涉及一种基于快速搜索与密度峰值聚类的服务商聚类方法。本方法根据服务商特征数据维度多，空间形状复杂的特点，选取基于密度的方法中的快速搜索与发现密度峰值聚类算法并进行改进，实现对服务商的聚类。本方法克服了现有技术对数据量有限、更新较慢数据聚类的不足，尽可能的去除了服务商聚类过程中的主观因素印象，方法设计合理、快速准确，通过该方法获得的服务商聚类，具有较高的准确性和客观性，可以帮助企业用户清楚认识不同服务商的类型和特征，为进一步制定针对不同类型服务商的经营策略，完善企业间合作机制提供了良好支撑。业间合作机制提供了良好支撑。业间合作机制提供了良好支撑。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于快速搜索与密度峰值聚类的服务商聚类方法

[0001]本专利技术涉及数据挖掘
，尤其涉及一种基于快速搜索与密度峰值聚类的服务商聚类方法。

技术介绍

[0002]随着现代社会中科学技术的发展，企业的经营与生存环境发生了重大变化。企业已不能再仅仅依靠自有的产品、技术、人才以及资源组织形式获取竞争的主导地位，取而代之的是进行跨企业协作，依靠与产业链上下游服务商的协作，共同分享市场机会，共同承担市场风险。如何明晰现有服务商的整体分布特征，在此基础上将服务商进行聚类，针对不同类型服务商采取不同的合作策略，进而实现服务商选择的最优化，是摆在所有企业面前的问题。
[0003]服务商聚类是指基于服务商特征数据，将服务商的集合分割成几个类，每个类内的对象之间是相似的，但与其他类的对象是不相似的。由人为直接评估服务商进行聚类判断的方法由于主观因素过强，缺少科学性，学术界一般采用定量的聚类算法完成聚类过程。常用的聚类算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法等。

技术实现思路

[0004]本专利技术的目的是提出一种基于快速搜索与密度峰值聚类的服务商聚类方法，根据服务商特征数据维度多，空间形状复杂的特点，选取基于密度的方法中的快速搜索与发现密度峰值聚类算法并进行改进，实现对服务商的聚类。
[0005]本专利技术提出的基于快速搜索与密度峰值聚类的服务商聚类方法，包括以下步骤：
[0006](1)分别采集历史、专家评定以及和邮件调查方式收集的服务商特征数据，形成...

【技术保护点】

【技术特征摘要】
1.一种基于快速搜索与密度峰值聚类的服务商聚类方法，其特征在于该方法包括以下步骤：(1)分别采集历史、专家评定以及和邮件调查方式收集的服务商特征数据，形成服务商特征数据集其中，x
i
为服务商特征数据集中企业i的数据元素，N为服务商的数量，x
im
为数据元素x
i
中包含的数据项，M为数据元素x
i
中包含的数据项数量；(2)对服务商特征数据集S0进行预处理，即对S0中数据元素x
i
的数据项x
im
的异常值进行检测，对不完整的数据元素x
i
补充缺失值，使S0的数据格式统一；(3)利用线性归一化方法，对服务商特征数据集S0进行归一化处理，得到归一化后的服务商特征数据集S；(4)利用余弦距离计算方法，分别计算步骤(3)的服务商特征数据集S中任意两个服务商特征数据元素x
i
与x
j
之间的余弦距离d
ij
：其中，x
im
是数据元素x
im
中的数据项、x
jm
是数据元素x
j
中的数据项；(5)利用高斯核密度原理，得到步骤(3)的服务商特征数据集S的高斯核密度函数K(d
c
)的曲线：其中，μ为数据集S的平均值，σ为数据集S的标准差，μ和σ在数据集S确定的情况下均为已知量，d
c
为计算数据集S数据密度所使用的空间半径距离，记为截断距离，设与K(d
c
)出现第一个峰值相对应的d
c0
为d
c
，截断距离d
c
的最优值范围∈[0,d
c0
]；(6)求解服务商特征数据集S的聚类最优截断距离d
c1
，包括如下步骤：(6-1)利用高斯核密度原理，利用步骤(4)得到的所有任意两个数据元素间的余弦距离d
ij
，计算以数据元素x
_i
为中心、以d
_c
为半径的空间范围内的数据元素数目ρ
i
(d
c
)，将该数据元素数目ρ
i
(d
c
)记为x
_i
的局部密度：重复本步骤，得到所有服务商特征数据元素x
i
的N个局部密度；(6-2)利用步骤(4)得到的任意两个数据元素间的余弦距离d
ij
和步骤(6-1)得到的所有服务商特征数据元...

【专利技术属性】
技术研发人员：黄双喜，杨思维，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人