当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于快速搜索与密度峰值聚类的服务商聚类方法技术

技术编号:27446559 阅读:22 留言:0更新日期:2021-02-25 04:13
本发明专利技术涉及数据挖掘技术领域,尤其涉及一种基于快速搜索与密度峰值聚类的服务商聚类方法。本方法根据服务商特征数据维度多,空间形状复杂的特点,选取基于密度的方法中的快速搜索与发现密度峰值聚类算法并进行改进,实现对服务商的聚类。本方法克服了现有技术对数据量有限、更新较慢数据聚类的不足,尽可能的去除了服务商聚类过程中的主观因素印象,方法设计合理、快速准确,通过该方法获得的服务商聚类,具有较高的准确性和客观性,可以帮助企业用户清楚认识不同服务商的类型和特征,为进一步制定针对不同类型服务商的经营策略,完善企业间合作机制提供了良好支撑。业间合作机制提供了良好支撑。业间合作机制提供了良好支撑。

【技术实现步骤摘要】
一种基于快速搜索与密度峰值聚类的服务商聚类方法


[0001]本专利技术涉及数据挖掘
,尤其涉及一种基于快速搜索与密度峰值聚类的服务商聚类方法。

技术介绍

[0002]随着现代社会中科学技术的发展,企业的经营与生存环境发生了重大变化。企业已不能再仅仅依靠自有的产品、技术、人才以及资源组织形式获取竞争的主导地位,取而代之的是进行跨企业协作,依靠与产业链上下游服务商的协作,共同分享市场机会,共同承担市场风险。如何明晰现有服务商的整体分布特征,在此基础上将服务商进行聚类,针对不同类型服务商采取不同的合作策略,进而实现服务商选择的最优化,是摆在所有企业面前的问题。
[0003]服务商聚类是指基于服务商特征数据,将服务商的集合分割成几个类,每个类内的对象之间是相似的,但与其他类的对象是不相似的。由人为直接评估服务商进行聚类判断的方法由于主观因素过强,缺少科学性,学术界一般采用定量的聚类算法完成聚类过程。常用的聚类算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法等。

技术实现思路

[0004]本专利技术的目的是提出一种基于快速搜索与密度峰值聚类的服务商聚类方法,根据服务商特征数据维度多,空间形状复杂的特点,选取基于密度的方法中的快速搜索与发现密度峰值聚类算法并进行改进,实现对服务商的聚类。
[0005]本专利技术提出的基于快速搜索与密度峰值聚类的服务商聚类方法,包括以下步骤:
[0006](1)分别采集历史、专家评定以及和邮件调查方式收集的服务商特征数据,形成服务商特征数据集其中,x
i
为服务商特征数据集中企业i的数据元素,N为服务商的数量,x
im
为数据元素x
i
中包含的数据项,M为数据元素x
i
中包含的数据项数量;
[0007](2)对服务商特征数据集S0进行预处理,即对S0中数据元素x
i
的数据项x
im
的异常值进行检测,对不完整的数据元素x
i
补充缺失值,使S0的数据格式统一;
[0008](3)利用线性归一化方法,对服务商特征数据集S0进行归一化处理,得到归一化后的服务商特征数据集S;
[0009](4)利用余弦距离计算方法,分别计算步骤(3)的服务商特征数据集S中任意两个服务商特征数据元素x
i
与x
j
之间的余弦距离d
ij

[0010][0011]其中,x
im
是数据元素x
im
中的数据项、x
jm
是数据元素x
j
中的数据项;
[0012](5)利用高斯核密度原理,得到步骤(3)的服务商特征数据集S的高斯核密度函数K(d
c
)的曲线:
[0013][0014]其中,μ为数据集S的平均值,σ为数据集S的标准差,μ和σ在数据集S确定的情况下均为已知量,d
c
为计算数据集S数据密度所使用的空间半径距离,记为截断距离,设与K(d
c
)出现第一个峰值相对应的d
c0
为d
c
,截断距离d
c
的最优值范围∈[0,d
c0
];
[0015](6)求解服务商特征数据集S的聚类最优截断距离d
c1
,包括如下步骤:
[0016](6-1)利用高斯核密度原理,利用步骤(4)得到的所有任意两个数据元素间的余弦距离d
ij
,计算以数据元素x
_i
为中心、以d
_c
为半径的空间范围内的数据元素数目ρ
i
(d
c
),将该数据元素数目ρ
i
(d
c
)记为x
_i
的局部密度:
[0017][0018]重复本步骤,得到所有服务商特征数据元素x
i
的N个局部密度;
[0019](6-2)利用步骤(4)得到的任意两个数据元素间的余弦距离d
ij
和步骤(6-1)得到的所有服务商特征数据元素x
i
的N个局部密度,从步骤(4)的所有余弦距离中得到数据元素x
i
与局部密度大于ρ
i
(d
c
)的其他所有数据元素之间的余弦距离,将其中余弦距离的最小值记为x
_i
的相对距离δ
i

[0020](6-3)构建一个服务商聚类稳定性函数H(d
c
):
[0021][0022]将步骤(5)中得到的d
c
∈[0,d
c0
]代入上述服务商聚类稳定性函数H(d
c
),求解得到H(d
c
)的值,当H(d
c
)取得最小值时,即判定服务商聚类的稳定性最优,将与该稳定性最优相对应的d
c
记为d
c1
,d
c1
即为服务商聚类的最优截断距离;
[0023](7)求解服务商特征数据集S的聚类最优聚类数目C1,包括如下步骤:
[0024](7-1)设定服务商聚类的聚类数目C∈(0,C0],利用(6)得到的最优截断距离d
c1
,分别向决策图法自适应识别神经网络中输入C0次聚类数目C和最优截断距离d
c1
,输出得到C0种服务商特征数据集S的聚类;
[0025](7-2)利用(7-1)得到的输出得到C0种服务商特征数据集S的聚类,分别计算C0种服务商聚类中任意数据元素x
i
与该数据元素x
i
所在聚类后的类簇中其它数据元素之间的距离平均值a(i)以及数据元素x
i
与其他类簇内数据元素的距离平均值b(i),重复上述步骤,得到所有C0种服务商特征数据集S的聚类对应的a(i)和b(i);
[0026](7-3)建立一个服务商特征数据集S的聚类轮廓系数函数Q
c

[0027][0028]将步骤(7-2)中得到的所有C0种服务商特征数据集S的聚类对应的a(i)和b(i)代入上述服务商特征数据集S的聚类轮廓系数函数Q
c
,求解得到与所有C1种服务商特征数据集S聚类对应的C0个函数Q
c
的值,函数值Q
c
的为数列(Q1、Q2、Q3...Q
C0
);
[0029](7-4)对函数值Q
c
进行判断,当时,将与该函数值Q
c
相对应的聚类数目C记为最优聚类数,记为C1;
[0030](8)利用步骤(6)得到的最优截断距离d
c1
和步骤(7)得到的最优聚类数目C1,采用决策图法,通过自适应识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于快速搜索与密度峰值聚类的服务商聚类方法,其特征在于该方法包括以下步骤:(1)分别采集历史、专家评定以及和邮件调查方式收集的服务商特征数据,形成服务商特征数据集其中,x
i
为服务商特征数据集中企业i的数据元素,N为服务商的数量,x
im
为数据元素x
i
中包含的数据项,M为数据元素x
i
中包含的数据项数量;(2)对服务商特征数据集S0进行预处理,即对S0中数据元素x
i
的数据项x
im
的异常值进行检测,对不完整的数据元素x
i
补充缺失值,使S0的数据格式统一;(3)利用线性归一化方法,对服务商特征数据集S0进行归一化处理,得到归一化后的服务商特征数据集S;(4)利用余弦距离计算方法,分别计算步骤(3)的服务商特征数据集S中任意两个服务商特征数据元素x
i
与x
j
之间的余弦距离d
ij
:其中,x
im
是数据元素x
im
中的数据项、x
jm
是数据元素x
j
中的数据项;(5)利用高斯核密度原理,得到步骤(3)的服务商特征数据集S的高斯核密度函数K(d
c
)的曲线:其中,μ为数据集S的平均值,σ为数据集S的标准差,μ和σ在数据集S确定的情况下均为已知量,d
c
为计算数据集S数据密度所使用的空间半径距离,记为截断距离,设与K(d
c
)出现第一个峰值相对应的d
c0
为d
c
,截断距离d
c
的最优值范围∈[0,d
c0
];(6)求解服务商特征数据集S的聚类最优截断距离d
c1
,包括如下步骤:(6-1)利用高斯核密度原理,利用步骤(4)得到的所有任意两个数据元素间的余弦距离d
ij
,计算以数据元素x
_i
为中心、以d
_c
为半径的空间范围内的数据元素数目ρ
i
(d
c
),将该数据元素数目ρ
i
(d
c
)记为x
_i
的局部密度:重复本步骤,得到所有服务商特征数据元素x
i
的N个局部密度;(6-2)利用步骤(4)得到的任意两个数据元素间的余弦距离d
ij
和步骤(6-1)得到的所有服务商特征数据元...

【专利技术属性】
技术研发人员:黄双喜杨思维
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1