一种基于社会网络结构分析高效社团数据挖掘方法技术

技术编号:22218811 阅读:37 留言:0更新日期:2019-09-30 01:13
本发明专利技术提出了一种基于社会网络结构分析高效社团数据挖掘方法,包括如下步骤:S1,将社会网络数据进行收集,并执行社会网络数据标准化,检查数据通信网络连通状态,建立初始化社团数据;S2,通过数据通信网络对社团数据进行归类搜索,并且对归类搜索后的社团数据进行归类判定;S3,分配尚未有明确划分的社团数据节点,并且调整重叠的社团数据节点;S4,对社团数据进行检测,并将检测后的社团数据进行社团数据划分,输出最终社团数据挖掘结果。

An Efficient Community Data Mining Method Based on Social Network Structure Analysis

【技术实现步骤摘要】
一种基于社会网络结构分析高效社团数据挖掘方法
本专利技术涉及计算机数据挖掘领域,尤其涉及一种基于社会网络结构分析高效社团数据挖掘方法。
技术介绍
随着网络科学的发展,社会网络的研究已经成为一个热点问题,引起了越来越多研究者的注意,比如在线社交网络、犯罪网络、经济网络、通讯网络、合作网络和能源网络等等,社会网络分析是研究一组行动者的关系的研究方法。一组行动者可以是人、社区、群体、组织、国家等,他们的关系模式反映出的现象或数据是网络分析的焦点。从社会网络的角度出发,人在社会环境中的相互作用可以表达为基于关系的一种模式或规则,而基于这种关系的有规律模式反映了社会结构,这种结构的量化分析是社会网络分析的出发点。社会网络分析已经成为重要的研究思想,涉及了多个学科和研究领域,例如:数据挖掘领域、知识管理、数据可视化、统计分析、社会资本、小世界理论、信息传播等。社团发现是社会网络分析中的一类NP难问题,构建数学模型或物理模型是主流的分析技术,这些技术已经取得了较大的进展,有的方法已经在社交网络上得到了应用。Pattanayak等人(Pattanayaketal.Communitydetectioninsocialnetworksbasedonfirepropagation[J],SwarmandEvoluationaryComputation,2019.)使用火灾传播模型研究了社会网络的社团发现方法。Seyed等人(Seyedetal,Communitydetectioninsocialnetworksusinguserfrequentpatternmining[J],KnowledgeandInformationSystems,2018)基于用户在社交网络上的活跃的频率模式的深度挖掘对社团模式进行分析。Hamzeh等人(Hamzehetal.,Communitydetectionindynamicsocialnetworks:Alocalevolutionaryapproach,JournalofInformation,2016.)使用局部进化策略模型,结合全局和局部信息研究了动态社会网络的社团侦测问题。李振等人(ZhenLietal.,EfficientCommunityDetectioninHeterogeneousSocialNetworks,MathematicalProblemsinEngineering,2016)使用正则化的非负矩阵分解模型结合连边等有效信息提出一种有效的社会网络社团识别方法。Pourkazemi等人(Pourkazemietal.,Communitydetectioninsocialnetworkbyusingamulti-objectiveevolutionaryalgorithm,IntelligentDataAnalysis,2017.)使用多目标进化算法-粒子群优化算法,它同时优化两个目标函数,这两个目标函数表示网络的一个划分,并使用一个变异运算符来处理高维的问题,在社会网络的社团划分中取得了较好的结果。网络科学方法在社会网络中已经得到了广泛的应用,社团识别的另外一种方法就是通过给节点的重要性打分来辅助进行。比如著名的Pagerank排序算法(张丽等人,N-stepPageRankforwebsearch,AdvancedInformationRetriever,2007),在PageRank中,两点之间的权重取决于“出点”的度数,那么就需要把度数换算成某人可能转发该文章的概率,这个概率会取决于文章内容与其标签的关联度,取决于这个人关注的人数(即看到该文章的微博)等等。另外一个常用的就是介数中心性(),其实就是评估一个点到其它点的距离,其核心在于如果从这个点开始传播,有多大的概率可以到达社区中所有的人。K-means算法()充分利用社交网络中的联系的强弱、频繁程度、以及互动内容来研究人与人之间的关系实现社团划分,来实现真实场景下的社交圈子识别。K-Means算法的思想是初始随机给定K个聚类中心,按照距离最近原则把待分类的样本点分到各个聚类,然后按平均法重新计算各个聚类的质心,确定新的聚类中心,反复迭代直至满足停机规则。在上述社会网络的社团识别算法中,不管是基于数学模型、物理模型或节点重要性排序算法,都存在着不同程度的缺点,其中核心问题就是很多算法只适用于小规模网络,很难在大规模的社会网络中实现;大部分方法需要人工设定一些参数,并且模型比较复杂,直接结果就是其它领域的研究人员很难理解模型的意义,限制了算法的推广和应用。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于社会网络结构分析高效社团数据挖掘方法。为了实现本专利技术的上述目的,本专利技术提供了一种基于社会网络结构分析高效社团数据挖掘方法,包括如下步骤:S1,将社会网络数据进行收集,并执行社会网络数据标准化,检查数据通信网络连通状态,建立初始化社团数据;S2,通过数据通信网络对社团数据进行归类搜索,并且对归类搜索后的社团数据进行归类判定;S3,分配尚未有明确划分的社团数据节点,并且调整重叠的社团数据节点;S4,对社团数据进行检测,并将检测后的社团数据进行社团数据划分,输出最终社团数据挖掘结果。优选的,所述S1包括:S1-1,对社会网络数据进行标准化为无权、无环的单向邻接列表,存储为标准的文本格式;S1-2,检验社团数据传输网络是否为连通网络,如果是则执行S1-3,如果不是则分别提取不同的社团数据网络的连通部分以及社团数据网络的孤立点,再执行S1-3;S1-3,提取每一个连通片中连接度最高的个节点,n为网络中节点的个数,取整数;以各自对应的连接列表成员作为初始化的社团。优选的,所述S2包括:S2-1,从社团数据网络中搜索具有稠密类型社团数据;从每一个初始社团数据出发,检验是否满足稠密类型社团数据的量化定义,如果满足则输出该社团为稠密类型社团数据;如果不满足则继续执行下一步;S2-2,从社团数据网络中搜索具有常规类型社团数据,对剩下的不确定性社团数据检验是否满足常规类型社团数据的量化定义,如果满足则输出该社团为常规类型社团数据;如果不满足则继续执行下一步;S2-3,从社团数据网络中搜索具有稀疏类型社团数据;对剩下的未定性社团数据检验是否满足稀疏类型社团数据的量化定义,如果满足则输出该社团为稀疏类型社团数据;如果不满足则继续执行下一步;S2-4,所述稠密社团、常规社团和稀疏社团三种类型,进行定量分析,观察社会网络结构特征的基础上,从社团数据相关的连边数量进行量化,应用到大规模的社交网络进行社团数据挖掘。优选的,所述S3包括:S3-1,分配尚未有明确划分的社团数据节点;对还没有划分到社团数据中的节点,根据社团数据成员的连接属性,分配到已有的社团数据中去;S3-2,调整重叠的社团数据节点;根据最后输出的所有社团,检验发现的重叠节点的成员属性是否为真,如果为假,则相应调整重叠节点的归属;在结构设计中,考虑到社团数据节点重叠的状态,通过量化定义社团数据节点的重叠属性,做到了对重叠节点有效识别。优选的,所述S4包括:S4-1,对社团数据检测,对最终生成的社团数据,根据社团数据类型的量化定义,检验是否满足预本文档来自技高网
...

【技术保护点】
1.一种基于社会网络结构分析高效社团数据挖掘方法,其特征在于,包括如下步骤:S1,将社会网络数据进行收集,并执行社会网络数据标准化,检查数据通信网络连通状态,建立初始化社团数据;S2,通过数据通信网络对社团数据进行归类搜索,并且对归类搜索后的社团数据进行归类判定;S3,分配尚未有明确划分的社团数据节点,并且调整重叠的社团数据节点;S4,对社团数据进行检测,并将检测后的社团数据进行社团数据划分,输出最终社团数据挖掘结果。

【技术特征摘要】
1.一种基于社会网络结构分析高效社团数据挖掘方法,其特征在于,包括如下步骤:S1,将社会网络数据进行收集,并执行社会网络数据标准化,检查数据通信网络连通状态,建立初始化社团数据;S2,通过数据通信网络对社团数据进行归类搜索,并且对归类搜索后的社团数据进行归类判定;S3,分配尚未有明确划分的社团数据节点,并且调整重叠的社团数据节点;S4,对社团数据进行检测,并将检测后的社团数据进行社团数据划分,输出最终社团数据挖掘结果。2.根据权利要求1所述的基于社会网络结构分析高效社团数据挖掘方法,其特征在于,所述S1包括:S1-1,对社会网络数据进行标准化为无权、无环的单向邻接列表,存储为标准的文本格式;S1-2,检验社团数据传输网络是否为连通网络,如果是则执行S1-3,如果不是则分别提取不同的社团数据网络的连通部分以及社团数据网络的孤立点,再执行S1-3;S1-3,提取每一个连通片中连接度最高的个节点,n为网络中节点的个数,取整数;以各自对应的连接列表成员作为初始化的社团。3.根据权利要求1所述的基于社会网络结构分析高效社团数据挖掘方法,其特征在于,所述S2包括:S2-1,从社团数据网络中搜索具有稠密类型社团数据;从每一个初始社团数据出发,检验是否满足稠密类型社团数据的量化定义,如果满足则输出该社团为稠密类型社团数据;如果不满足则继续执行下一步;S2-2,从社团数据网络中搜索具有常规类型社团数据,对剩下的不确定性社团数据检验是否满足常规类型社团数据的量化定义,如果满足则输出该社团为常规类型社团数据;如果不满足则继续执行下一步;S2-3,从社团数据网络中搜索具有稀疏类型社团数据;对剩下的未定性社团数据检验是否满足稀疏类型社团数据的量化定义,如果满足则输出该社团为稀疏类型社团数据;如果不满足则继续执行下一步;S2-4,所述稠密社团、常规社团和稀疏社团三种类型,进行定量分...

【专利技术属性】
技术研发人员:叶鹏罗皓
申请(专利权)人:上海诚数信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1