The invention discloses a density peak clustering center selection method and a system for sharing nearest neighbor optimization. The method includes: obtaining e-commerce comment data; calculating the distance between two comment data to obtain a distance matrix; calculating the shared nearest neighbor similarity according to the distance matrix; and calculating the shared nearest neighbor similarity according to the shared nearest neighbor similarity. According to the distance matrix and the local density, the nearest and larger density point distance of each comment data is obtained, and the clustering center is selected according to the local density and the nearest and larger density point distance of the comment data. The method can quickly and correctly select the clustering center for cross-winding, variable density and high-dimensional e-commerce review data set, and improve the clustering effect.
【技术实现步骤摘要】
一种共享近邻优化的密度峰值聚类中心选取方法和系统
本专利技术属于电子商务评论挖掘的
,尤其涉及面向电子商务评论数据的共享近邻优化的密度峰值聚类中心选取方法和系统。
技术介绍
随着网上购物的不断发展,产生了海量的消费者购买评论。面对海量的购物评论,消费者难以一一翻阅,且评论中对于商品的褒贬不一,并且可能会掺杂来自商家竞争对手的恶意的评论,影响了消费者的选择,因此,对于消费者和商家而言,对评论进行分析整理以及区分评论的真假是亟待解决的技术问题。聚类分析作为研究其他问题的重要基础,在众多领域中扮演着重要角色。在电子商务评论领域中,可以通过聚类得到两个不同类别的评论,进而识别出真实评论和虚假评论,以给潜在的客户提供更加可信的评论参考。在电子商务评论聚类中聚类中心的选取具有重要意义,是对后续非聚类中心进行分配前最重要的准备工作。电子商务评论数据具有不同类别数据在空间分布上非相互独立分离、数据空间密度分布不均匀,和数据的维度较高,即具有交叉缠绕、变密度和高维的特点。在2014年6月Rodriguez等人在著名科学杂志《Science》发表了密度峰值聚类算法DPC(clusteringbyfastsearchandfindofdensitypeaks)。这是一种新的基于密度和距离的聚类算法。与传统的聚类算法相比,DPC算法简单高效,无需迭代即可快速发现簇中心,适用于大规模数据的聚类分析等。但传统DPC算法样本距离和密度的度量准则过于简单,其距离是欧式距离,样本密度是截断密度或高斯核密度,二者均没有考虑样本周围邻域的影响。这种距离和密度的度量方法不能很好地反映数据之 ...
【技术保护点】
1.一种共享近邻优化的密度峰值聚类中心选取方法,其特征在于,包括以下步骤:获取电子商务评论数据;计算评论数据两两之间的距离,得到距离矩阵;根据所述距离矩阵计算共享近邻相似度;根据所述共享近邻相似度,计算每条评论数据的局部密度;根据所述距离矩阵和局部密度,获取每条评论数据的最近较大密度点距离;根据评论数据的局部密度和最近较大密度点距离选择聚类中心。
【技术特征摘要】
1.一种共享近邻优化的密度峰值聚类中心选取方法,其特征在于,包括以下步骤:获取电子商务评论数据;计算评论数据两两之间的距离,得到距离矩阵;根据所述距离矩阵计算共享近邻相似度;根据所述共享近邻相似度,计算每条评论数据的局部密度;根据所述距离矩阵和局部密度,获取每条评论数据的最近较大密度点距离;根据评论数据的局部密度和最近较大密度点距离选择聚类中心。2.如权利要求1所述的一种共享近邻优化的密度峰值聚类中心选取方法,其特征在于,所述获取电子商务评论数据后,还对所述评论数据进行归一化和降维预处理。3.如权利要求1所述的一种共享近邻优化的密度峰值聚类中心选取方法,其特征在于,对于电子商务评论集X中的任意评论i,j,如果他们都在对方的K近邻集合中,则共享近邻相似度为评论i与评论j的共享近邻数的平方与二者分别到其所有共享近邻距离和的比值。4.如权利要求1所述的一种共享近邻优化的密度峰值聚类中心选取方法,其特征在于,设评论i是样本集X中的任意评论,L(i)={x1,x2,...,xk}是与评论i共享近邻相似度最高的K个点的集合,则评论i的局部密度定义为与评论i共享近邻相似度最高的K个点的相似度和。5.如权利要求1所述的一种共享近邻优化的密度峰值聚类中心选取方法...
【专利技术属性】
技术研发人员:王红,狄瑞彤,房有丽,周莹,王露潼,刘海燕,王倩,宋永强,
申请(专利权)人:山东师范大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。