网络社区的挖掘方法及装置制造方法及图纸

技术编号:15542272 阅读:175 留言:0更新日期:2017-06-05 11:17
本发明专利技术实施例公开了一种网络社区的挖掘方法及装置。所述方法包括:获取原始网络社区及前次挖掘网络社区;获取成员与所述原始网络社区中的成员存在通联关系的初步网络社区;获取泛化网络社区;通过差集求取,获取目标网络社区;以及重复执行上述操作,直至达到预定的停止条件。本发明专利技术实施例提供的网络社区的挖掘方法及装置实现了对网络社区及其组成成员的有效挖掘。

Method and device for mining network community

The embodiment of the invention discloses a method and a device for excavating a network community. The method comprises: acquiring the original network community and the previous mining community network; network community has preliminary communication relationship with members of the members to obtain the original network in the community; to obtain network community; through the difference set to calculate the target network community; and repeat the above operation, until it reaches a predetermined stop condition. The method and the device for digging the network community provided by the embodiment of the invention realize the effective excavation of the network community and the members thereof.

【技术实现步骤摘要】
网络社区的挖掘方法及装置
本专利技术实施例涉及大数据分析
,尤其涉及一种网络社区的挖掘方法及装置。
技术介绍
在移动互联时代,人们的社交行为越来越多的依赖于网络。比如,人们通过网络社区对一个热点事件表达不同的观点,或者通过各种即时通讯软件完成相互之间的联络。可以预见的是,由于人们的很多社交行为通过网络上自发形成的网络社区完成,因此,可以通过对人们网络交互数据的挖掘,得到人们日常的网络交流行为所形成的各种“人际圈子”,也就是网络社区。如果能够通过对网络数据的分析、挖掘,得到人们进行日常交流的网络社区,无疑将对企业的更多决策提供有效的支持。比如,可以通过上述挖掘得知人们在网络上行程的网络社区的关注话题是什么,进而为企业下一步的营销目标及营销战略提供决策支持。然而,对于这种在网络上形成的网络社区的挖掘,目前还没有可行的技术方案。
技术实现思路
针对上述技术问题,本专利技术实施例提供了一种网络社区的挖掘方法及装置,以实现对网络社区及其组成成员的有效挖掘。一方面,本专利技术实施例提供了一种网络社区的挖掘方法,所述方法包括:获取以弹性分布式数据集合RDD形式存储的原始网络社区,以及所有前次挖掘得到的前次挖掘网络社区;获取与所述原始网络社区中的成员存在通联关系的初步网络社区成员,并以RDD形式将所有初步网络社区成员存储为初步网络社区;获取所有一个成员属于所述初步网络社区,另一个成员属于所述初步网络社区,或者所述原始网络社区,或者所述前次挖掘网络社区的目标通联关系,并以RDD形式将所述目标通联关系所涉及的网络社区成员存储为泛化网络社区;获取所述泛化网络社区与所述原始网络社区及所述前次挖掘网络社区之间的差集,并以RDD形式将所述差集中的成员存储为目标网络社区;重复上述挖掘操作,直至所述目标网络社区的规模维持稳定,或者目标网络社区达到预定规模,或者所述挖掘操作的次数达到挖掘次数上限。另一方面,本专利技术实施例还提供了一种网络社区的挖掘装置,所述装置包括:原始获取模块,用于获取以弹性分布式数据集合RDD形式存储的原始网络社区,以及所有前次挖掘得到的前次挖掘网络社区;初步获取模块,用于获取与所述原始网络社区中的成员存在通联关系的初步网络社区成员,并以RDD形式将所有初步网络社区成员存储为初步网络社区;泛化获取模块,用于获取所有一个成员属于所述初步网络社区,另一个成员属于所述初步网络社区,或者所述原始网络社区,或者所述前次挖掘网络社区的目标通联关系,并以RDD形式将所述目标通联关系所涉及的网络社区成员存储为泛化网络社区;目标获取模块,用于获取所述泛化网络社区与所述原始网络社区及所述前次挖掘网络社区之间的差集,并以RDD形式将所述差集中的成员存储为目标网络社区;重复执行模块,用于重复上述挖掘操作,直至所述目标网络社区的规模维持稳定,或者目标网络社区达到预定规模,或者所述挖掘操作的次数达到挖掘次数上限。本专利技术实施例提供的网络社区的挖掘方法及装置,通过获取原始网络社区及前次挖掘网络社区,获取成员与原始网络社区中的成员之间存在通联关系的初步网络社区,再将所述初步网络社区进行泛化,获得泛化网络社区,最后对所述泛化网络社区中的成员进行精简,得到目标网络社区,使得目标网络社区中的每个成员都与网络社区中的至少一个成员之间存在两两通联的通联关系,实现了对目标网络社区及其成员的有效挖掘。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1是本专利技术第一实施例提供的网络社区的挖掘方法的流程图;图2是本专利技术第一实施例提供的应用系统的系统结构框图;图3是本专利技术第一实施例提供的网络社区的挖掘方法挖掘得到的网络社区的示意图;图4是本专利技术第二实施例提供的网络社区的挖掘方法的流程图;图5是本专利技术第三实施例提供的网络社区的挖掘方法的流程图;图6是本专利技术第四实施例提供的网络社区的挖掘装置的结构图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。第一实施例本实施例提供了网络社区的挖掘方法的一种技术方案。在该技术方案中,网络社区的挖掘方法通常由大数据分析系统执行。优选的,该技术方案提供的网络社区的挖掘方法由Spark系统执行。参见图1,网络社区的挖掘方法包括:S11,获取以弹性分布式数据集合(Resilientdistributeddatasets,RDD)形式存储的原始网络社区,以及所有前次挖掘得到的前次挖掘网络社区。RDD是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。RDD是一个具有容错机制的特殊集合,它提供了一种只读、只能有已存在的RDD变换而来的共享内存,然后将所有数据都加载到内存中,方便进行多次重用。在本实施例中,由于采用Spark大数据分析系统进行网络社区的挖掘,因此,在挖掘的各个中间步骤中,使用RDD作为网络社区挖掘的最终结果及各种中间结果的存储形式。可以理解的是,网络社区是由相互之间保持通联关系的网络社区成员组成的。也就是说,网络社区可以是看作是由不同的网络社区成员组成的成员集合。所谓通联关系,是指成员之间存在着通过网络进行沟通交流的记录。例如,成员甲曾经打电话给成员乙,则认为成员甲与成员乙之间存在由成员甲指向成员乙的通联关系。又例如,成员丙曾经在网络论坛回复成员丁发起的帖子,则认为成员丙与成员丁之间存在由成员丙指向成员丁的通联关系。需要注意的是,上述的通联关系是一种包含指向性的关系。对网络社区数据的挖掘是以上述通联关系为基础的。因此,在本实施例提供的网络社区的挖掘方法被执行之前,需要预先准备好通联关系数据。优选的,在网络社区的挖掘方法被执行之前,除了通联关系数据,还需要预先准备好成员的身份数据。身份数据中保存成员的标签数据与真实身份数据之间的对应关系。例如,标签数据可以是在挖掘通联关系时使用的成员的IMEI、IMSI,或者网络账号。身份数据是能够唯一标识成员身份的数据,例如,身份数据可以是成员的手机号。上述通联关系数据以及身份数据均预先执行挖掘,并且在网络社区的挖掘方法之前,保存在HDFS(Hadoopdistributedfilesystem)中。图2示出了执行上述挖掘的系统的系统架构。参见图2,在系统底层,部署有Hadoop、Oracle、MongoDB等数据存储组件。在这些数据存储组件之上,部署有Spark系统。在Spark系统之上,设置有各种业务支撑组件。在这些业务支撑组件之上,部署有执行数据挖掘的业务层。该业务层由不同的业务模块组成,最终完成对于网络社区数据的挖掘。而且,对网络社区的挖掘是一个顺次迭代的过程。也就是说,可以以前次挖掘到的网络社区为基础,进一步的执行下一次的挖掘操作。这就意味着,除了首次执行的挖掘操作以外,其他的挖掘操作都在它之前的挖掘操作。这些之前的挖掘操作的结果是本次挖掘的基础数据。而在第一次挖掘时,它所依赖的基础数据的预先准备的通联关系数据中任意选择的一条通联关系数据。在执行网络社区的挖掘之前,首先需要获取到本文档来自技高网...
网络社区的挖掘方法及装置

【技术保护点】
一种网络社区的挖掘方法,其特征在于,包括:获取以弹性分布式数据集合RDD形式存储的原始网络社区,以及所有前次挖掘得到的前次挖掘网络社区;获取与所述原始网络社区中的成员存在通联关系的初步网络社区成员,并以RDD形式将所有初步网络社区成员存储为初步网络社区;获取所有一个成员属于所述初步网络社区,另一个成员属于所述初步网络社区,或者所述原始网络社区,或者所述前次挖掘网络社区的目标通联关系,并以RDD形式将所述目标通联关系所涉及的网络社区成员存储为泛化网络社区;获取所述泛化网络社区与所述原始网络社区及所述前次挖掘网络社区之间的差集,并以RDD形式将所述差集中的成员存储为目标网络社区;重复上述挖掘操作,直至所述目标网络社区的规模维持稳定,或者目标网络社区达到预定规模,或者所述挖掘操作的次数达到挖掘次数上限。

【技术特征摘要】
1.一种网络社区的挖掘方法,其特征在于,包括:获取以弹性分布式数据集合RDD形式存储的原始网络社区,以及所有前次挖掘得到的前次挖掘网络社区;获取与所述原始网络社区中的成员存在通联关系的初步网络社区成员,并以RDD形式将所有初步网络社区成员存储为初步网络社区;获取所有一个成员属于所述初步网络社区,另一个成员属于所述初步网络社区,或者所述原始网络社区,或者所述前次挖掘网络社区的目标通联关系,并以RDD形式将所述目标通联关系所涉及的网络社区成员存储为泛化网络社区;获取所述泛化网络社区与所述原始网络社区及所述前次挖掘网络社区之间的差集,并以RDD形式将所述差集中的成员存储为目标网络社区;重复上述挖掘操作,直至所述目标网络社区的规模维持稳定,或者目标网络社区达到预定规模,或者所述挖掘操作的次数达到挖掘次数上限。2.根据权利要求1所述的方法,其特征在于,所述通联关系表示:一个成员与另一个成员之间存在关联。3.根据权利要求2所述的方法,其特征在于,所述关联包括:所述一个成员与所述另一个成员之间存在通讯联系。4.根据权利要求1至3任一所述的方法,其特征在于,还包括:在获取以RDD形式存储的原始网络社区,以及前次挖掘得到的前次挖掘网络社区之前,通过数据挖掘技术,以流式处理框架挖掘成员真实身份数据,以及成员通联关系数据。5.根据权利要求4所述的方法,其特征在于,还包括:在完成所述挖掘操作之后,根据成员之间的通联关系对所述目标网络社区的成员打分,以挖掘所述目标网络社区中的核心成员。6.一种网络社区的挖掘装置,其特征在于,包括:原始获取模块,用于获取...

【专利技术属性】
技术研发人员:李大虎
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1