面向特定主题的隐蔽社区核心交际圈检测发现方法和系统技术方案

技术编号:14277589 阅读:65 留言:0更新日期:2016-12-24 20:24
本发明专利技术提出了一种面向特定主题的隐蔽社区核心交际圈检测发现方法和系统。系统包括:关键核心用户提取模块,包括:消息相似性分析模块,用户聚合模块,核心用户提取重构模块;关键核心用户交际圈提取模块,包括:用户组关系模块及关键用户关系模块。方法包括以下步骤:建立特定主题消息内容库;对特定主题内容消息库中的消息进行分组;得到基于相似消息的消息组;建立消息组中的消息与用户的映射;对用户进行分组合并,设定相应的权值,提关键核心用户;将以关键核心用户为节点,提取两两互相链接的虚拟链接关系网为关键核心用户的核心交际圈。与传统的拓扑组织结构分析方法相比,能够快速发现和提取与主题相关的关键核心用户。

【技术实现步骤摘要】

本专利技术涉及社交网络的社区发现与跟踪领域,是一个基于特定主题的隐蔽社区核心交际圈进行快速发现的方法和系统。
技术介绍
近年来,随着社交网络的大规模广泛应用,人们越来越多地将线下活动转移到线上社交网络中。社交网络是由许多关系链接而构成的实体网络,在人们的日常生活中发挥了重要的作用,用户与网络之间的交互加快了社会行为向网络行为、现实社会关系向网络社会关系以及社交信息向网络信息的转化。目前,一些微博网站(如Twitter,新浪微博、Facebook、人人网等)逐渐兴起,一方面代表了社交网络的特性,用户可以关注一些用户,随时发表、转发、评论消息等;另一方面表现了媒体特性,很多知名用户第一时间发布相关新闻消息后,这些消息能够被迅速的转发与传播,这种信息扩散的迅速性、规模性、影响力是传统媒体所无法比拟的。越来越多的社会民众通过社交网络来表达想法或者传播观点,社交网络具有交流便捷和传播迅速的特点,信息通过级联的扩散形成了大规模的影响力传播。在大规模社交网络中,精准定位追踪特定主题下的关键用户,追踪发现特定主题下关键用户所形成的隐性的社区(隐蔽社区),有效提取、界定这些隐蔽社区的规模、所属用户的关系网络、社区演变趋势,对深入研究网络特定主题与网络人际关系、网络特定主题与现实人际关系、网上下人际关系它们之间的内在影响及规律,具有重要的理论及现实意义。人们在社交网络中所形成的关系,有显性和隐性之分,显性关系是指网络交互行为所形成的链接关系,隐性关系是指不具有显性链接关系的人们之间讨论相同或相似的特定话题,所自发形成的群落。这些围绕特定话题所形成的关系,成为近年来社交网络关系研究的热点问题,尤其是隐性关系的研究,更是成为研究的重点。基于显性链接关系的研究,主要集中在网络社区划分、发现相关的算法等方面,早期的社区结构划分算法主要有图分割法(Graph Partition)和层次聚类法(Hierarchical Clustering,基于社会学)两大类,其中图分割法以Kernighan-Lin算法和基于图的Laplace矩阵特征值的谱平分法(Spectral Bisection Method)为代表,层次聚类是采用基于各个节点之间连接的相似性或者连接强度,将社交网络进行划分,形成若干个社团。此外,根据向
网络中添加边或是从网络中移除边的思路,社区划分的方法又可以分为分裂方法(divisive method)和凝聚方法(agglomerative method)两大类别。在上述的各种网络划分中,无论是GN算法(分裂算法)、快速社团划分算法(NF算法)、CNM算法,还是Informap算法通过在节点和边线之间的动态信息流图,来描述整个全网的状态,都是在基于图的拓扑结构基础上,通过度中心性、接近中心性、介数中心性、特征向量中心性等来计算节点用户的重要程度,划分用户之间的链接关系。但拓扑链接结构划分特定主题下的用户,并不能有效的发现兴趣相似的用户群体及其所形成的隐性社区。基于不同的研究角度,也有研究者从信息传播模型出发,在社交网络中模拟信息传播,根据传播的范围来采用蒙特卡洛模拟的方式进行节点影响力的评估;基于信息扩散的角度,以粉丝规模数、转发规模数、提及规模数来评价单个用户的影响力,Domingos等人提出社交网络中个人的网络影响力最大化,从该节点出发的信息能传播到达的最大范围。Weng等人基于PageRank的思想提出了TwitterRank算法,采用了综合Twitter的Topic和发布频率的方式改进了概率转移矩阵(也即是用户在某Topic下发表的tweets越多,转移概率就越大)。下面就本专利技术中关键词语定义如下:面向特定主题的隐蔽社区:是指在社交网络中,那些不具有显性链接关系的用户讨论主题下系列话题,所自发形成的隐性群落,他们彼此之间没有直接的链接关系或可能并不知道对方的存在。关键核心用户:是指在讨论主题下系列话题,促使隐性社区自发形成的过程中,话题积极的发起者、推动者或组织者,便为此特定主题下隐蔽社区中的关键核心用户。主题:主题由一系列话题组成,一个主题可以包含一个或多个话题。话题由关键词来进行表示。核心交际圈:是指由这些隐蔽社区中的关键核心用户所构成的虚拟链接关系网络,称为特定主题下的隐蔽社区核心交际圈,即为整个隐蔽社区结构构成中的框架。综上所述,目前社交网络的研究工作主要集中在三个方面:以显性的链接关系(拓扑结构关系)为主的社区划分研究;以用户发布的消息及频率、用户具有的属性(profile、粉丝数、转发数等)来分析用户所影响的范围;以用户发布的消息内容分析用户讨论的话题及其话题模型建模。上述研究虽然涉及了基于链接关系的社区发现、用户影响力及范围、话题模型建模等技术,但关于隐蔽社区定义及发现、关键核心用户定义及提取、隐蔽社区核心交际
圈发现及提取三个方面的技术综合应用,尤其是隐蔽社区核心交际圈发现及提取技术,是目前的研究空白。另外,目前对消息内容相似的判定方法有基于串匹配技术的文本扫描策略(主要用于英文),尽管该方法处理速度快,但是其存在精度不高的缺点,并不适用于中文信息处理,对中文信息的处理采用统计和规则的方法,统计通常采用分词或分词后的词频、位置等信息统计,规则的采用语义、语法规则,无论采用哪一种方法,都是仅对文本内容进行处理,一般为长文本的处理,但对短消息尤其是推文内容(通常不过140字),在进行分词、去除停用词后,有意义的主题词相对较少,比较稀疏,上述方法并不适合。
技术实现思路
为了实现特定主题下的隐蔽社区发现和提取,本专利技术提出了一种面向特定主题的隐蔽社区核心交际圈检测发现方法和系统。本专利技术的系统包括:关键核心用户提取模块,包括:消息相似性分析模块,用以对一特定主题消息内容库中的消息进行相似性计算,并根据相似性对消息进行分组,得到基于相似消息的消息组;用户聚合模块,用以建立消息组中的消息与用户的映射聚合;核心用户提取重构模块,用以根据用户跨越消息组的个数对用户进行分组,然后对同时跨越同一消息组的用户进行合并,并根据消息组内用户合并的个数(活跃度)对用户设定相应的权值,然后再从合并后的用户中以跨越一定消息组的个数为依据,提取特定主题下的关键核心用户;关键核心用户交际圈提取模块,包括:用户组关系模块,用以提取关键核心用户消息组用户之间的虚拟关系;关键用户关系模块,用以提取关键核心用户与关键核心用户之间、关键核心用户与消息组用户之间的虚拟关系;隐蔽社区发现模块,包含用户关系模块,用以提取相似消息合并后的用户及其关系;社区发现模块,用以提取关键核心用户消息组用户所形成的隐蔽关系。本专利技术的方法包括以下步骤:1)建立特定主题消息内容库;针对特定的每一个主题设置一组关键词列表,根据关键词列表与原始的消息内容进行匹配,以建立特定主题消息内容库。2)对特定主题内容消息库中的消息进行相似性计算,并根据相似性对消息进行分组;得
到基于相似消息的消息组;3)建立消息组中的消息与用户的映射;4)根据用户跨越消息组的个数对用户进行分组,然后对同时跨越同一消息组的用户进行合并,并对用户设定相应的权值,提取跨越一定个数消息组的用户为特定主题下的关键核心用户。5)将以关键核心用户为节点,提取两两互相链接的虚本文档来自技高网
...
面向特定主题的隐蔽社区核心交际圈检测发现方法和系统

【技术保护点】
一种面向特定主题的隐蔽社区核心交际圈检测发现系统,包括:消息相似性分析模块,用以对一特定主题消息内容库中的消息进行相似性计算,并根据相似性对消息进行分组,得到基于相似消息的消息组;用户聚合模块,用以建立消息组中的消息与用户的映射聚合;核心用户提取重构模块,用以对用户进行分组及合并,并对用户设定一权值,然后再从合并后的用户中提取特定主题下的关键核心用户;关键核心用户交际圈提取模块,包括:用户组关系模块,用以提取关键核心用户与消息组用户之间的虚拟关系;关键用户关系模块,用以提取关键核心用户与关键核心用户之间、关键核心用户与消息组用户之间的虚拟关系。

【技术特征摘要】
1.一种面向特定主题的隐蔽社区核心交际圈检测发现系统,包括:消息相似性分析模块,用以对一特定主题消息内容库中的消息进行相似性计算,并根据相似性对消息进行分组,得到基于相似消息的消息组;用户聚合模块,用以建立消息组中的消息与用户的映射聚合;核心用户提取重构模块,用以对用户进行分组及合并,并对用户设定一权值,然后再从合并后的用户中提取特定主题下的关键核心用户;关键核心用户交际圈提取模块,包括:用户组关系模块,用以提取关键核心用户与消息组用户之间的虚拟关系;关键用户关系模块,用以提取关键核心用户与关键核心用户之间、关键核心用户与消息组用户之间的虚拟关系。2.根据权利要求1所述的面向特定主题的隐蔽社区核心交际圈检测发现系统,其特征在于,所述特定主题消息内容库通过针对特定的主题设置一组关键词列表,根据关键词列表与原始的消息内容进行匹配以建立。3.根据权利要求1所述的面向特定主题的隐蔽社区核心交际圈检测发现系统,其特征在于,所述对用户进行分组及合并包括:根据用户跨越消息组的个数对用户进行分组,然后对同时跨越同一消息组的用户进行合并;所述对用户设定一权值包括:根据消息组内用户合并的个数对用户设定相应的权值;所述从合并后的用户中提取特定主题下的关键核心用户包括:从合并后的用户中以跨越一定消息组的个数为依据,提取特定主题下的关键核心用户。4.根据权利要求1所述的面向特定主题的隐蔽社区核心交际圈检测发现系统,其特征在于,所述建立消息组中的消息与用户的映射聚合包括:对分组的消息用户,在同一组中进行重复消息剔除、同组同一用户合并,建立消息与用户的多对一映射。5.根据权利要求1所述的面向特定主题的隐蔽社区核心交际圈检测发现系统,其特征在于,还包括一隐蔽社区发现模块,包括:用户关系模块,用以提取相似消息合并...

【专利技术属性】
技术研发人员:沙灜毋建军梁棋
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1