一种基于偏移调节和竞价的混合社交网络聚类方法及系统技术方案

技术编号:15746761 阅读:189 留言:0更新日期:2017-07-03 02:46
本发明专利技术涉及一种基于偏移调节和竞价的混合社交网络聚类方法及系统,该方法包括:将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式,得到节点关注关系的数据列表;根据所述节点关注关系,计算节点间相似度,获得偏移调节后的相似度矩阵;根据偏移调节后的相似度矩阵识别出核节点,为其分配簇号,并创建对应的簇列表;根据识别出的核节点,以竞价的方式进行聚类。本发明专利技术有效地减少了同一簇内任意两节点间的关系层数,解决了现有技术中将关系相隔很远的节点聚为同一簇的问题,同时克服了聚类过程中选点顺序的影响,使每个节点被划分到与之有最大相似度的节点的簇中,而使得聚类结果中的每个簇都相当于一个朋友圈,提高了准确率和召回率。

Hybrid social network clustering method and system based on offset regulation and bidding

The invention relates to a hybrid social network clustering method and system based on bidding and offset adjustment, the method includes: the social network user data collected for the combination of user ID and user attention ID list, get the attention node relationship data list; according to the relationship between nodes, node similarity calculation, obtains the offset the similarity matrix is adjusted according to the similarity matrix recognition; offset adjustment after a core node, the distribution of its cluster number, and create the corresponding cluster list; according to the core node identified by clustering, bidding. The invention can effectively reduce the number of the same cluster relationship between any two nodes, to solve the relationship between nodes far away from the existing technology will be clustered into the same cluster, and overcome the influence of sequence points in the clustering process, so that each node is divided into with the maximum similarity of the nodes of the cluster in which each cluster results are equivalent to a circle of friends, improve the accuracy and recall rate.

【技术实现步骤摘要】
一种基于偏移调节和竞价的混合社交网络聚类方法及系统
本专利技术涉及社会计算与网络新媒体
,尤其涉及一种基于偏移调节和竞价的混合社交网络聚类方法及系统。
技术介绍
随着互联网技术的快速发展,基于人际关系和虚拟关系而发展起来的在线社交网络,在人们的生活中占据着越来越重要的位置。社交网络中的人际关系和虚拟关系具有极大的数据分析和挖掘价值,目前比较常用的对社交网络进行分析的方法是基于随机游走和结构情境相似性的SimRank方法、基于链接稠密度的Newman快速算法,以及Kernighan-Lin算法。但是,随着社交网络中用户数据的不断增加,由于时间复杂度太高,基于结构情境的方法已经很难适用,算法的效率会变得非常低。基于连接稠密度的算法又忽略了社交网络有向交互性,从而并不适用于社交网络用户的聚类分析。为了解决以上问题,近年来出现了一种区分离群点和中转点的SCAN算法以及一种改进SCAN的DirSCAN聚类方法。其中,DirSCAN方法考虑了社交网络关系存在的有向性,同时还能适用于大规模的用户数据聚类。然而,SCAN和DirSCAN方法依然存在一些严重的缺陷。第一,基于人际关系的社交网络是满足六度隔离理论的,即每个人最多通过六个人就能够认识任何一个陌生人,但是DirSCAN算法通过与之相连节点多的核节点将众多直接相连的核节点以及与这些核节点直接相连的点聚成同一个簇,就会存在聚类成同一簇的节点中某两个节点间的最短路径超过6的情况,而这两个相隔很远的节点很可能是不相关的却被聚为同一个簇,从而造成了聚类不准确;第二,DirSCAN通过核节点进行聚类,采取的原则是先到先得,但很可能出现节点被先开始扩展的小相似度核节点分类,而与之具有最大相似度的核节点遍历到这个节点时由于节点已经分类,于是无法将其正确分类的情况,这种情况也会造成聚类不准确。
技术实现思路
本专利技术的目的在于解决包括SCAN和DirSCAN在内的现有技术的聚类不准确问题,克服了聚类过程中选点顺序的影响。为实现上述目的,一方面本专利技术提供了一种基于偏移调节和竞价的混合社交网络聚类方法(Shifting-BiddingHybridStructuralClusteringAlgorithmforNetworks,简称SBHSCAN),包括:将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式,得到节点关注关系的数据列表,其中,所述节点为具有自己的ID和所关注的ID列表的个体用户;根据所述节点关注关系,计算节点间相似度,获得偏移调节后的相似度矩阵;根据偏移调节后的相似度矩阵识别出核节点,为其分配簇号,并创建对应的簇列表;所述核节点为与其直接可达的节点数量超过一个阈值的节点,所述直接可达为两个节点相似度大于相似度阈值的视为两个节点是直接可达的;根据识别出的核节点,以竞价的方式进行聚类;其中,所述竞价方式包括:第一轮竞价,由所有核节点对所有未分类节点进行,将节点划分到竞价高的核节点的簇列表中;第二轮竞价,由第一轮竞价中被分类的节点对所有离群点进行,通过表内竞价和表间竞价将节点划分到与之具有最高竞价结果的簇中。优选地,所述根据所述节点关注关系,计算节点间相似度,获得偏移调节后的相似度矩阵,具体为:运用相似度偏移调节计算公式计算节点间相似度:计算节点1和节点2间的相似度,其中,节点1关注的ID数量为A,节点2关注的ID数量为B,则:对于A,相似度为:对于B,相似度为:其中,为现有技术中的节点1和节点2间相似度计算结果。优选地,所采用的竞价方式,具体包括:统一竞价:将所有核节点对所有未分类节点进行竞价,将未分类节点加入到具有最大相似度且大于相似度阈值的核节点簇列表中,竞价后最大相似度小于相似度阈值的将节点暂时设置为离群点;表内竞价:先让每个簇列表中的节点对所有离群点进行竞价,每个列表内选出与该离群点所具有的最大的相似度;表间竞价:所有簇列表内选出的与该节点所具有的最大相似度进行表间竞价,选出所有列表所具有的最大相似度;若最大相似度大于或等于相似度阈值,则将该离群点设置为已分类节点并将簇号设置为具有该最大相似度的节点的簇号,若最大相似度小于相似度阈值,则对该离群点不做处理。另一方面,本专利技术提供了一种基于偏移调节和竞价的混合社交网络聚类系统,包括:整理模块,用于将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式,得到节点关注关系的数据列表,其中,所述节点为具有自己的ID和所关注的ID列表的个体用户;计算模块,用于根据所述节点关注关系,计算节点间相似度,获得偏移调节后的相似度矩阵;识别模块,用于根据偏移调节后的相似度矩阵识别出核节点,为其分配簇号,并创建对应的簇列表;所述核节点为与其直接可达的节点数量超过一个阈值的节点,所述直接可达为两个节点相似度大于相似度阈值的视为两个节点是直接可达的;聚类模块,用于根据识别出的核节点,以竞价的方式进行聚类;其中,所述竞价方式包括:第一轮竞价,由所有核节点对所有未分类节点进行,将节点划分到竞价高的核节点的簇列表中;第二轮竞价,由第一轮竞价中被分类的节点对所有离群点进行,通过表内竞价和表间竞价将节点划分到与之具有最高竞价结果的簇中。优选地,所述计算模块,具体用于运用相似度偏移调节计算公式计算节点间相似度:计算节点1和节点2间的相似度,其中,节点1关注的ID数量为A,节点2关注的ID数量为B,则:对于A,相似度为:对于B,相似度为:其中,为现有技术中的节点1和节点2间相似度计算结果。优选地,所述聚类模块所采用的竞价方式,具体包括:统一竞价:将所有核节点对所有未分类节点进行竞价,将未分类节点加入到具有最大相似度且大于相似度阈值的核节点簇列表中,竞价后最大相似度小于相似度阈值的将节点暂时设置为离群点;表内竞价:先让每个簇列表中的节点对所有离群点进行竞价,每个列表内选出与该离群点所具有的最大的相似度;表间竞价:所有簇列表内选出的与该节点所具有的最大相似度进行表间竞价,选出所有列表所具有的最大相似度;若最大相似度大于或等于相似度阈值,则将该离群点设置为已分类节点并将簇号设置为具有该最大相似度的节点的簇号,若最大相似度小于相似度阈值,则对该离群点不做处理。本专利技术的优点在于:本专利技术所提供的基于偏移调节和竞价的混合社交网络聚类方法,相比于包括DirSCAN算法在内的现有技术,有效地减少了同一簇内任意两节点间的关系层数,解决了现有技术中将关系相隔很远的节点聚为同一簇的问题,同时克服了聚类过程中选点顺序的影响,使每个节点被划分到与之有最大相似度的节点的簇中,而使得聚类结果中的每个簇都相当于一个朋友圈,提高了准确率和召回率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简要地介绍。显而易见地,下面附图中反映的仅仅是本专利技术的一部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得本专利技术的其他实施例。而所有这些实施例或实施方式都在本专利技术的保护范围之内。图1为本专利技术所解决的现有技术问题的示意图;图2为本专利技术实施例提供的一种基于偏移调节和竞价的混合社交网络聚类方法的流程示意图;图3为本专利技术的一个具体实施例的示意图;图4为本专利技术实施例提供的一种基于偏移本文档来自技高网
...
一种基于偏移调节和竞价的混合社交网络聚类方法及系统

【技术保护点】
一种基于偏移调节和竞价的混合社交网络聚类方法,其特征在于,包括:将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式,得到节点关注关系的数据列表,其中,所述节点为具有自己的ID和所关注的ID列表的个体用户;根据所述节点关注关系,计算节点间相似度,获得偏移调节后的相似度矩阵;根据偏移调节后的相似度矩阵识别出核节点,为其分配簇号,并创建对应的簇列表;所述核节点为与其直接可达的节点数量超过一个阈值的节点,所述直接可达为两个节点相似度大于相似度阈值的视为两个节点是直接可达的;根据识别出的核节点,以竞价的方式进行聚类;其中,所述竞价方式包括:第一轮竞价,由所有核节点对所有未分类节点进行,将节点划分到竞价高的核节点的簇列表中;第二轮竞价,由第一轮竞价中被分类的节点对所有离群点进行,通过表内竞价和表间竞价将节点划分到与之具有最高竞价结果的簇中。

【技术特征摘要】
1.一种基于偏移调节和竞价的混合社交网络聚类方法,其特征在于,包括:将社交网络用户数据整理为用户ID及用户关注的ID列表的组合形式,得到节点关注关系的数据列表,其中,所述节点为具有自己的ID和所关注的ID列表的个体用户;根据所述节点关注关系,计算节点间相似度,获得偏移调节后的相似度矩阵;根据偏移调节后的相似度矩阵识别出核节点,为其分配簇号,并创建对应的簇列表;所述核节点为与其直接可达的节点数量超过一个阈值的节点,所述直接可达为两个节点相似度大于相似度阈值的视为两个节点是直接可达的;根据识别出的核节点,以竞价的方式进行聚类;其中,所述竞价方式包括:第一轮竞价,由所有核节点对所有未分类节点进行,将节点划分到竞价高的核节点的簇列表中;第二轮竞价,由第一轮竞价中被分类的节点对所有离群点进行,通过表内竞价和表间竞价将节点划分到与之具有最高竞价结果的簇中。2.根据权利要求1所述的混合社交网络聚类方法,其特征在于,所述根据所述节点关注关系,计算节点间相似度,获得偏移调节后的相似度矩阵,具体为:运用相似度偏移调节计算公式计算节点间相似度:计算节点1和节点2间的相似度,其中,节点1关注的ID数量为A,节点2关注的ID数量为B,则:对于A,相似度为:对于B,相似度为:其中,为现有技术中的节点1和节点2间相似度计算结果。3.根据权利要求1所述的混合社交网络聚类方法,其特征在于,所采用的竞价方式,具体包括:统一竞价:将所有核节点对所有未分类节点进行竞价,将未分类节点加入到具有最大相似度且大于相似度阈值的核节点簇列表中,竞价后最大相似度小于相似度阈值的将节点暂时设置为离群点;表内竞价:先让每个簇列表中的节点对所有离群点进行竞价,每个列表内选出与该离群点所具有的最大的相似度;表间竞价:所有簇列表内选出的与该节点所具有的最大相似度进行表间竞价,选出所有列表所具有的最大相似度;若最大相似度大于或等于相似度阈值,则将该离群点设置为已分类节点并将簇号设置为具有该最大相似度的节点的簇号,若最大相似度小于相似度阈值,则对该离群点不做处理。4....

【专利技术属性】
技术研发人员:盛益强颜川力王玲芳
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1