基于聚类融合算法的社交团体发现方法技术

技术编号:12795605 阅读:79 留言:0更新日期:2016-01-30 17:42
本发明专利技术公开了一种基于聚类融合算法的社交团体发现方法,首先,由社交网络数据生成基准类,使同基准类中的社交用户具有相似的团体属性。对于基聚类,使用采用器,生成各种基聚类集。对于每个基聚类集,使用聚类融合算法,对聚类融合结果采用聚类融合算法进行融合,生成候选基准。对于候选基准,使用筛选器,依据设定筛选条件,得出基准。然后,使用基准对聚类质量进行评价。得到基准后,本文采用外在评价方法对聚类质量进行评价。本发明专利技术通过对基聚类的决策进行融合,得出更准确、壮健的决策。提高了社交网络数据中团体发现,个体发现的准确率,使服务商更加充分的获得用户信息,从而提高服务质量,具有极大的使用价值。

【技术实现步骤摘要】

本专利技术属于社交网络团体挖掘
,涉及一种运用聚类融合算法的判断方 法,具体涉及一种。
技术介绍
"互联网+"是互联网思维的进一步实践成果,它代表一种先进的生产力,推动经济 形态不断的发生演变,从而带动社会经济实体的生命力,为改革、发展、创新提供广阔的网 络平台。 现在,传统的互联网正在迈向全新的时代----社交服务网时代(Social NetworkingService),从"人与机器"的时代迈向"人与人"的时代。个体的社交圈会不断 地扩大和重叠并在最终形成大的社交网络。社交网的一个显著特点是支持巨大用户数,例 如Facebook支持超过3亿的用户,其数据中心运行着超过万台的服务器,为遍布全球的用 户提供信息通讯服务。另外,任何两个社交网用户都可能交互,也就是必须支持任何两个数 据库用户的数据关联操作。这对于服务端的数据库管理提出了极大的挑战。 云服务器(ElasticComputeService,简称ECS)是一种处理能力可弹性伸缩的 计算服务,其管理方式比物理服务器更简单高效。云服务器帮助您快速构建更稳定、安全的 应用,降低开发运维的难度和整体IT成本,使您能够更专注于核心业务的创新。目前,是做 的比较完善的生态系统。 聚类融合算法的核心思想是通过把多个聚类算法融合,得出更准确、更健壮的决 策。一方面,由于基聚类分别来自于不同基聚类算法,其聚类算法的初始化条件、参数设置, 甚至算法思想都各不相同,所以这些各不相同的基聚类都蕴含数据集的一部分特征。通过 把这些各异的基聚类进行融合,能有效地更全面地、更准确地反映出数据集的真正特征。另 一方面,即使某些基聚类存在反映数据集的错误信息,但通过大量基聚类的正确信息修正, 能有效地得出更健壮的聚类决策。由于聚类融合算法这些优良特点,目前在聚类算法研究 领域,聚类融合算法正在蓬勃地发展。
技术实现思路
本专利技术的目的是提供一种,针对复杂的社 交网络数据,运用聚类融合算法作为判断准则,然后对一系列未知的社交网络数据进行分 类,得到相应的分类,让市场人员能相应的服务。 本专利技术所采用的技术方案是,,具体按照 以下步骤实施: 步骤1:对于社交网路中的数据,根据基聚类算法分别得出相应的采样基聚类; 步骤2 :对步骤1得到的每个采样基聚类集进行融合,得出候选基准; 步骤3 :对步骤2得到的候选基准进行筛选,评分最高的候选基准作为最优基准; 步骤4 :使用步骤3得到的最优基准对聚类质量进行评价。 本专利技术的特点还在于, 其中的步骤1具体按照以下步骤实施: 假设有一个包含m个对象的数据集X,定义X={xdx2,…,xM},在运行N个基聚类 算法后,得到N个基聚类π,定义π= {jii,jt2,···,jtn},然后,对π进行融合聚类算法运 算,得到融合聚类31 %定义Φ( 3〇,其中Φ是聚类融合函数; 首先,对社交网络用户信息进行采样,利用社交平台账户获取平台访问权限,通过 设置初始任务集对目标信息进行定向获取; 其次,采用k-means作为候选基准算法,先设定聚类个数,然后随机设定初始化聚 类中心,生成多个基聚类;为了生成多样性高的基聚类集,通过采样器对基聚类集进行采 样,通过组合子基聚类集的方式,得到多个组差异化大的采样基聚类基。 其中的采样器采样的方式是随机赌轮盘方式。 其中的步骤2具体按照以下步骤实施: 采用SLC算法来对融合聚类集进行融合,得到候选基准: 候选基准的评分定义如下: 其中,候选基准为融合聚类为<和<,α为阈值。 其中的当融合聚类之间相似程度大于α时,评分为0,这时防止融合聚类之间的 相似性太大;当融合聚类之间相似程度小于α时,评分由两部分相加而成;第一部分是融 合聚类于候选基准之间的相似程度,第二部分是融合聚类之间的相似程度;λ是两部分之 间的权重;当λ>0.5时,在评分中,第一部分比第二部分的权重大;当λ<0.5时,在评 分中,第二部分比第一部分的权重大;当λ=0.5时,在评分中,第二部分比第一部分的权 重相等;一般而言,选择λ= 0. 5,即第二部分和第一部分占评分的权重一样;据此,计算每 一个候选基准的评分,评分最高的候选基准作为最终的基准;经过筛选的基准作为下一步 的最优基准使用,来评价聚类质量。 其中的步骤4具体按照以下步骤实施: 利用上一步生成的最优基准,利用外在方法BCubed对聚类质量进行评价:给定基 准31jPK个由不同聚类融合算法所得的融合聚类31 ={> 31 2,~31 k},对每一个融合聚 类^,都可以得出一个质量评价以^,;评分越高,代表该聚类融合算法得出来的融 合结果越好; 假设有对象集合X= {Xl,x2,…,xn},C是X的一个聚类,B是X的基准;C(Xl) (1彡i彡η)表示\在C的类别,B(xJ(1彡i彡η)表示\在B的类别;对于两个对象Xi 和Xj(1彡i,j彡n,i乒j),xjPX」在聚类C的正确性的定义如下: ? BCubed的精度定义如下: BCubed的召回率定义如下: 精度和召回率都可以用来评价聚类,F度量可以同时结合精度和召回率,定义如 下:7F度量的取值范围在0到1之间,当F度量等于0时,聚类质量并不理想;当F度 量等于1时,聚类质量理想,与基准完全一致;所以当F度量越接近1时,聚类质量越好。 专利技术的有益效果是,本专利技术提出一种不依赖专家评价基准的外在评价方法为准则 的团体发现识别方法。首先,由社交网络数据生成基准类,使同基准类中的社交用户具有相 似的团体属性。对于基聚类,使用采用器,生成各种基聚类集。对于每个基聚类集,使用聚 类融合算法,对聚类融合结果采用聚类融合算法进行融合,生成候选基准。对于候选基准, 使用筛选器,依据设定筛选条件,得出基准。然后,使用基准对聚类质量进行评价。得到基 准后,本文采用外在评价方法对聚类质量进行评价。本专利技术通过对基聚类的决策进行融合, 得出更准确、壮健的决策。提高了社交网络数据中团体发现,个体发现的准确率,使服务商 更加充分的获得用户信息,从而提高服务质量,具有极大的使用价值。【附图说明】 图1为对基聚类采样部分实现的框架图; 图2为生成候选基准部分实现的框架图; 图3为筛选候选基准部分实现的框架图。【具体实施方式】 下面结合附图和【具体实施方式】对本专利技术进行详细说明。 本专利技术,具体按照以下步骤实施: 步骤1:对于社交网路中的数据,根据基聚类算法分别得出相应的基聚类(基聚类 算法1得出相应的基聚类1),其中采样的方式是随机赌轮盘方式。具体为:构建社交网路 数据中的基聚类:对于社交网路中的数据,根据基聚类算法分别得出相应的基聚类(基聚 类算法1得出相应的基聚类1),把社交网路数据分为不同的基聚类,然后对基聚类集进行 采样,目的是生成多样性高的采样基聚类集。多样性高的采样基聚类集有助于后续生成的 多样性的候选融合聚类,有利于于筛选最后的融合聚类。 步骤2:对每个采样基聚类集进行融合,得出候选基准。具体为:对每个采样网络 数据基聚类运行参与评价的聚类融合算法,把生成的融合聚类集用聚类融合算法来生成候 选基准。以此类推,生成候选基准集。 步骤3:对候选基准进行筛选,评分最高的候选基准即是基准。 步骤4:使用基准对聚类本文档来自技高网
...

【技术保护点】
基于聚类融合算法的社交团体发现方法,其特征在于,具体按照以下步骤实施:步骤1:对于社交网路中的数据,根据基聚类算法分别得出相应的采样基聚类;步骤2:对步骤1得到的每个采样基聚类集进行融合,得出候选基准;步骤3:对步骤2得到的候选基准进行筛选,评分最高的候选基准作为最优基准;步骤4:使用步骤3得到的最优基准对聚类质量进行评价。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘波余刚肖燕珊郝志峰梁荣德
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1