一种共享近邻优化的密度峰值聚类中心选取方法和系统技术方案

技术编号:19140332 阅读:31 留言:0更新日期:2018-10-13 08:42
本发明专利技术公开了一种共享近邻优化的密度峰值聚类中心选取方法和系统,所述方法包括:获取电子商务评论数据;计算评论数据两两之间的距离,得到距离矩阵;根据所述距离矩阵计算共享近邻相似度;根据所述共享近邻相似度,计算每条评论数据的局部密度;根据所述距离矩阵和局部密度,获取每条评论数据的最近较大密度点距离;根据评论数据的局部密度和最近较大密度点距离选择聚类中心。本发明专利技术对于交叉缠绕、变密度和高维的电子商务评论数据集能够快速、正确的选择聚类中心,提高聚类效果。

Density peak clustering center selection method and system based on shared nearest neighbor optimization

The invention discloses a density peak clustering center selection method and a system for sharing nearest neighbor optimization. The method includes: obtaining e-commerce comment data; calculating the distance between two comment data to obtain a distance matrix; calculating the shared nearest neighbor similarity according to the distance matrix; and calculating the shared nearest neighbor similarity according to the shared nearest neighbor similarity. According to the distance matrix and the local density, the nearest and larger density point distance of each comment data is obtained, and the clustering center is selected according to the local density and the nearest and larger density point distance of the comment data. The method can quickly and correctly select the clustering center for cross-winding, variable density and high-dimensional e-commerce review data set, and improve the clustering effect.

【技术实现步骤摘要】
一种共享近邻优化的密度峰值聚类中心选取方法和系统
本专利技术属于电子商务评论挖掘的
,尤其涉及面向电子商务评论数据的共享近邻优化的密度峰值聚类中心选取方法和系统。
技术介绍
随着网上购物的不断发展,产生了海量的消费者购买评论。面对海量的购物评论,消费者难以一一翻阅,且评论中对于商品的褒贬不一,并且可能会掺杂来自商家竞争对手的恶意的评论,影响了消费者的选择,因此,对于消费者和商家而言,对评论进行分析整理以及区分评论的真假是亟待解决的技术问题。聚类分析作为研究其他问题的重要基础,在众多领域中扮演着重要角色。在电子商务评论领域中,可以通过聚类得到两个不同类别的评论,进而识别出真实评论和虚假评论,以给潜在的客户提供更加可信的评论参考。在电子商务评论聚类中聚类中心的选取具有重要意义,是对后续非聚类中心进行分配前最重要的准备工作。电子商务评论数据具有不同类别数据在空间分布上非相互独立分离、数据空间密度分布不均匀,和数据的维度较高,即具有交叉缠绕、变密度和高维的特点。在2014年6月Rodriguez等人在著名科学杂志《Science》发表了密度峰值聚类算法DPC(clusteringbyfastsearchandfindofdensitypeaks)。这是一种新的基于密度和距离的聚类算法。与传统的聚类算法相比,DPC算法简单高效,无需迭代即可快速发现簇中心,适用于大规模数据的聚类分析等。但传统DPC算法样本距离和密度的度量准则过于简单,其距离是欧式距离,样本密度是截断密度或高斯核密度,二者均没有考虑样本周围邻域的影响。这种距离和密度的度量方法不能很好地反映数据之间的复杂关系,致使算法无法正确发现交叉缠绕、变密度和高维的复杂数据的聚类中心。因此,针对复杂的电子商务评论数据,如何正确的选择聚类中心,从而提高聚类精度,是本领域技术人员目前迫切解决的技术问题。
技术实现思路
为克服上述现有技术的不足,针对电子商务评论数据的特点,本专利技术提供了一种共享近邻优化的密度峰值聚类中心选取方法和系统,所述方法根据评论数据之间的距离进行共享近邻相似度的计算,得到评论的局部密度。还提出最近较大密度点距离的概念来衡量评论的密度分布,综合考虑局部密度和最近较大密度点距离,能够选取更具类别代表性的评论作为聚类中心。为实现上述目的,本专利技术采用如下技术方案:一种共享近邻优化的密度峰值聚类中心选取方法,包括以下步骤:获取电子商务评论数据;计算评论数据两两之间的距离,得到距离矩阵;根据所述距离矩阵计算共享近邻相似度;根据所述共享近邻相似度,计算每条评论数据的局部密度;根据所述距离矩阵和局部密度,获取每条评论数据的最近较大密度点距离;根据评论数据的局部密度和最近较大密度点距离选择聚类中心。进一步地,所述获取电子商务评论数据后,还对所述评论数据进行归一化和降维预处理。进一步地,对于电子商务评论集X中的任意评论i,j,如果他们都在对方的K近邻集合中,则共享近邻相似度为评论i与评论j的共享近邻数的平方与二者分别到其所有共享近邻距离和的比值。进一步地,设评论i是样本集X中的任意评论,L(i)={x1,x2,...,xk}是与评论i共享近邻相似度最高的K个点的集合,则评论i的局部密度定义为与评论i共享近邻相似度最高的K个点的相似度和。进一步地,设评论i是样本集X中的任意评论,评论i的最近较大密度点距离值定义为:寻找比评论i局部密度大的评论j,使得评论i到评论j的距离与评论i和评论j到各自K近邻点距离和的乘积最小。进一步地,所述选择聚类中心包括:分别以局部密度和最近较大密度点距离作为x轴和y轴,绘制决策图;根据所述决策图选取局部密度和最近较大密度点距离取值满足一定阈值的评论作为聚类中心。进一步地,所述选择聚类中心包括:根据局部密度和最近较大密度点距离计算评论的决策值γ并排序,得到γ图;根据γ图选择决策值满足一定阈值的评论作为聚类中心。根据本专利技术的第二目的,本专利技术还提供了一种共享近邻优化的密度峰值聚类中心选取系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现所述的方法。根据本专利技术的第三目的,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的方法。根据本专利技术的第四目的,本专利技术还提供了一种共享近邻优化的密度峰值聚类方法,采用所述的方法选择聚类中心。本专利技术的有益效果本专利技术为面向电子商务评论的共享近邻优化密度峰值快速搜索聚类中心的机器学习模型,提出了新的样本相似度度量,能够根据样本的共享近邻信息,进行自适应地计算样本间相似度,并根据新的样本相似度,提出了新的样本局部密度度量和新的距离最近且密度较大点的定义,能够根据样本的局部密度信息进行调整,使得对于具有交叉缠绕、变密度和高维的电子商务评论的复杂数据集能够快速、正确的选择聚类中心,提高聚类效果。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为本专利技术信息流转示意图;图2为电子商务评论数据归一化后部分示意图;图3为本专利技术优化前的密度峰值聚类的ρ-δ决策图;图4为本专利技术优化前的密度峰值聚类的结果图;图5为本专利技术SNN优化后的密度峰值聚类ρ-δ决策图;图6为本专利技术SNN优化后的密度峰值聚类结果图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。实施例一一种面向电子商务评论的聚类中心选取方法,包括以下步骤:步骤1:获取评论数据的特征及其数据值;步骤2:对评论数据进行预处理;首先,对评论数据进行归一化处理,使得在对后面数据进行处理时更加的方便,其次是可以保正程序运在行时收敛加快。其次,当评论数据维度大于两维时,对数据进行降维处理,有利于聚类效果的可视化,降低数据冗余。步骤3:计算评论之间的距离矩阵,基于所述距离矩阵计算评论的共享近邻(SNN)相似度;对数据进行量化得到距离矩阵Dn×n={dij}n×n,(i,j=1,2,...n)。对于电子商务评论集X中的任意样本i,j,如果他们都在对方的K近邻集合中,则他们的相似度定义为:评论i与评论j的共享近邻数的平方与二者分别到其所有共享近邻距离和的比值,计算公式为:只有当评论i与评论j互相出现在对方的K近邻集合中,才会计算SNN相似度,否则评论i与评论j的SNN相似度为0。这里的d表示两点间的距离。上个公式的非零部分拆解为如下公式,可以更好的理解SNN相似度。事实上,只要两个评论i,j都在对方的K最近邻中,SNN相似度可以用他们共享近邻的个数|SNN(i,j)|来表示。为了更好的反映样本空间的局部结构,使得本文档来自技高网
...

【技术保护点】
1.一种共享近邻优化的密度峰值聚类中心选取方法,其特征在于,包括以下步骤:获取电子商务评论数据;计算评论数据两两之间的距离,得到距离矩阵;根据所述距离矩阵计算共享近邻相似度;根据所述共享近邻相似度,计算每条评论数据的局部密度;根据所述距离矩阵和局部密度,获取每条评论数据的最近较大密度点距离;根据评论数据的局部密度和最近较大密度点距离选择聚类中心。

【技术特征摘要】
1.一种共享近邻优化的密度峰值聚类中心选取方法,其特征在于,包括以下步骤:获取电子商务评论数据;计算评论数据两两之间的距离,得到距离矩阵;根据所述距离矩阵计算共享近邻相似度;根据所述共享近邻相似度,计算每条评论数据的局部密度;根据所述距离矩阵和局部密度,获取每条评论数据的最近较大密度点距离;根据评论数据的局部密度和最近较大密度点距离选择聚类中心。2.如权利要求1所述的一种共享近邻优化的密度峰值聚类中心选取方法,其特征在于,所述获取电子商务评论数据后,还对所述评论数据进行归一化和降维预处理。3.如权利要求1所述的一种共享近邻优化的密度峰值聚类中心选取方法,其特征在于,对于电子商务评论集X中的任意评论i,j,如果他们都在对方的K近邻集合中,则共享近邻相似度为评论i与评论j的共享近邻数的平方与二者分别到其所有共享近邻距离和的比值。4.如权利要求1所述的一种共享近邻优化的密度峰值聚类中心选取方法,其特征在于,设评论i是样本集X中的任意评论,L(i)={x1,x2,...,xk}是与评论i共享近邻相似度最高的K个点的集合,则评论i的局部密度定义为与评论i共享近邻相似度最高的K个点的相似度和。5.如权利要求1所述的一种共享近邻优化的密度峰值聚类中心选取方法...

【专利技术属性】
技术研发人员:王红狄瑞彤房有丽周莹王露潼刘海燕王倩宋永强
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1