基于贪心子图的社会网络节点挖掘方法技术

技术编号:15691874 阅读:111 留言:0更新日期:2017-06-24 05:26
本发明专利技术提供的是一种基于贪心子图的社会网络节点挖掘方法。首先依据节点度这个重要属性结合了局部拓扑结构的聚集系数估计出节点的影响潜力,根据影响潜力高低排序并加入种子节点候选集合,同时通过对网络的整体评判排序并选择出特异性阈值最高的节点加入种子节点候选集合。在完成候选集合的选择后,通过改进影响力的线性阈值模型表现为贪心子图策略对于集合中的节点进行真实的传播模拟,选取增量影响范围最大的节点加入到最终节点挖掘结果集合中,并且在每一步传播完成时动态的修正候选集合中的节点,重复候选集合修正过程和传播模拟过程直至达到预期规模的节点挖掘结果集合,最终得到理想的节点挖掘效果。

A method of social network node mining based on greedy subgraph

The invention provides a social network node mining method based on greedy subgraph. Firstly, based on the node degree of this important attributes based on aggregation coefficient of local topological structure to estimate the potential node influence, according to the impact of potential rank and join the seed node and the candidate set, through the overall evaluation of the sorting of network and choose the node specific threshold highest seed nodes join the candidate set. At the completion of a set of candidate selection, through the linear threshold model improved performance for the spread of corruption influence core strategy for the graph nodes in the set of real simulation, selection of incremental impact range of maximum node is added to the final node mining result set, and dynamic correction candidate at each step is completed the propagation in the collection node repeat, the candidate set modification process and simulate the transmission process until it reaches the expected size of the set of nodes mining results, finally obtained the ideal node mining effect.

【技术实现步骤摘要】
基于贪心子图的社会网络节点挖掘方法
本专利技术涉及的是一种社会网络节点挖掘方法。
技术介绍
社会网络中的节点挖掘方法主要分为启发类方法和贪心类方法。前者主要是根据社会网络节点自身属性或者网络自身拓扑结构来衡量网络中各个节点的重要程度,如度中心性算法,由于其计算节点的重要性时仅考虑节点的邻居拓扑结构,虽然其计算速度快,但是精确度欠佳;又如接近中心性算法和中介中心性算法,由于其计算时涉及到整个网络拓扑,所以其算法效率很低。而后者则是通过传播模型对于每一个节点进行传播模拟,进而通过其传播范围的大小来计算节点的重要程度,该类算法由于结合了传播模型进行真实传播,算法效率低下,导致了其不适用于大型社会网络。
技术实现思路
本专利技术的目的在于提供一种能够解决现有的社会网络影响力节点挖掘方法中启发类方法在节点挖掘效果上不理想及贪心类方法在算法复杂度上极高这两个问题的基于贪心子图的社会网络节点挖掘方法。本专利技术的目的是这样实现的:步骤一:输入社会网络图,根据邻居子图节点影响潜力算法得出每个节点的影响潜力,把节点按照其影响潜力递减的顺序排序,并选出个影响潜力最大的节点添加到候选集合C1中;步骤二:根据僵尸节点的定义,抽取社会网络图中符合条件的节点组成集合,并按照“僵尸节点”的本身特异性阈值从高到低排序,从排名中选取前个节点加入到候选集合C2中;步骤三:对于从候选集合C1中和候选集合C2中共抽取k个节点组成的集合C3,通过改进影响力的线性阈值模型表现为爬山贪婪算法进行传播激活尝试,初始时节点挖掘结果集S为空集,此时对集合C3中的每个节点进行传播模拟,选取激活范围最大的节点加入集合S中,完成第一个节点的选择,同时对每一个被激活的节点进行标记,下一次传播时默认为已激活节点不进行计算,每一次计算之后,剔除该社会网络图中被激活节点,抽取子图进行下一次传播;步骤四:通过步骤三的传播后对集合C3以被标记为传播过程中的已激活节点的节点进行剔除,此时C3中节点个数变少,重复步骤1和步骤2的节点选取过程,再次选取k个节点填充集合C3;步骤五:重复步骤三的激活传播过程,直至节点挖掘结果集S达到规模k,结束。本专利技术还可以包括:1、节点的影响潜力的估计公式为:其中,Γ(i)是节点i的相邻节点集合,C(j)代表节点j的聚集系数,di及dj分别代表节点i及节点j的度。2、节点i对节点j的影响力通过如下公式计算,式中,Pi代表源节点i的影响潜力,Pj代表节点j的影响潜力,C(i)为节点i的聚集系数。3、所述僵尸节点是激活阈值很高,所有的邻居节点都处于激活状态时其自身还无法被激活的节点,僵尸节点的定义通过如下公式表示:(1+γ)<θ>≤θv≤max{θ1,θ2...θn}其中,γ为僵尸节点的阈值调节参数,取值为[0,1],表示网络中被选为僵尸节点的最低阈值参数,而僵尸节点阈值选取的范围为介于(1+γ)<θ>和网络中阈值最高节点的阈值之间;<θ>为网络的平均阈值,网络平均阈值有如下公式表示:式中,|V|为网络中节点的数量,θi为节点i的特异性阈值,其取值在网络进行第一次传播之前根据网络的特性随机给出。本专利技术的目的是为了解决现有的社会网络影响力节点挖掘算法中启发类方法在节点挖掘效果上不理想及贪心类方法在算法复杂度上极高这两个问题,提出的一种基于贪心子图的节点挖掘改进方法。本专利技术针对于启发类方法在节点挖掘效果上不理想及贪心类方法在算法复杂度上极高这两个问题,采取先启发后贪心合并计算的理论,提出了基于贪心子图的社会网络节点挖掘算法。该算法首先依据节点度这个重要属性结合了局部拓扑结构的聚集系数估计出节点的影响潜力,根据影响潜力高低排序并加入种子节点候选集合,同时通过对网络的整体评判排序并选择出特异性阈值最高的节点加入种子节点候选集合。在完成候选集合的选择后,通过改进影响力的线性阈值模型表现为贪心子图策略对于集合中的节点进行真实的传播模拟,选取增量影响范围最大的节点加入到最终节点挖掘结果集合中,并且在每一步传播完成时动态的修正候选集合中的节点,重复候选集合修正过程和传播模拟过程直至达到预期规模的节点挖掘结果集合,最终得到理想的节点挖掘效果。本专利技术的特点主要体现在:目前,对于社会网络影响力最大化节点挖掘算法,无论国内还是国外,都在积极的研究,学者们提出了多种模型方法和相应的算法,它们针对不同的网络模型和具体的实际问题,各有特点。本专利技术在前人研究的基础上,针对于现有的影响力最大化节点挖掘算法在节点选择效果上的不稳定性以及算法执行效率上的低下,同时取其精华的结合了经典算法中的优点和创新,提出了基于节点贪心子图的挖掘算法,其主要观点和内容如下:(1)节点子图影响潜力估计算法。线性阈值模型一直以来都是最经典的传播模型之一,而在各种应用到该模型的算法中,需要得到模型中的影响力和特异性阈值,线性阈值模型中节点u对于邻节点v存在的影响力buv通常用1/d(v)(d(v)表示网络中节点v的度数)估计,这就表明,该节点周围的所有邻居节点对其的影响力大小都是相同的,显然这并不符合实际,同时也忽略了节点之间的差异性。为了弥补其不足,本专利技术设计并实现了节点子图影响潜力估计算法,通过影响潜力估计算法挑选出的节点,弥补了只考虑节点本身的缺陷,通过结合邻居节点的拓扑结构更加合理的考虑了近邻影响的效果,计算出社会网络图中每个节点的影响潜力。首先计算邻居子图中的节点对节点i的影响效果,公式中引入聚集系数C,用来测度网络中长度为3的环形(即三角形),通俗的意义就是说你的两个朋友,他们彼此也有可能互为朋友,这在一个社会网络图中是很容易存在的。在计算一个节点的影响效果时,同时考虑了节点本身以及邻居子图的一些拓扑度量系数,即邻居子图节点的度和节点的聚集系数。节点影响潜力估计公式定义为:其中,Γ(i)是节点i的相邻节点集合,C(j)代表节点j的聚集系数,亦即通过节点的周围相邻的节点影响力,线性地反映出该节点本身的影响力。算法以度中心性为基础,结合节点i的周围邻居节点的结构,通过引入邻居节点的聚集系数同时作用在周围节点的度指标上,这样通过综合节点本身的度,再加上节点周围邻居的结构,求得综合作用下该节点在局部的重要程度。如当一个节点的某一个邻居比较重要的话,相应的,该节点的重要性也会提升。而当网络图趋近于全图,即从节点的局部信息来看就是节点的所有邻居节点它们两两彼此之间都存在联系,显而易见,节点的重要程度远没有其为“桥”节点时高,所以节点的局部重要性与其聚集系数成反比。通过公式可以看出,当节点i的邻居节点的聚集系数趋近于1时,节点影响潜力估计公式就趋近于度中心性算法,而邻居节点的聚集系数越小,即邻居节点的局部重要性越高,则节点的影响潜力受其邻居节点的影响程度也就越大。与此同时,传播模型中的节点影响力则根据节点的影响潜力计算公式递进得出,在计算节点u对节点v的影响效果时,我们同时考虑了节点u及节点v本身的影响潜力,而这在现实应用中也是符合逻辑的,两个人的地位不同,就决定了一个人对另一个人的影响效果是不同的,地位高的人通常对地位相对低的人影响力高一些,即地位高的人说话更有效果一些。(2)基于贪心子图的节点挖掘算法。本专利技术的两个算法是一种递进关系,基于节点子图的影响潜力估计算法,通过结合节点邻居本文档来自技高网...
基于贪心子图的社会网络节点挖掘方法

【技术保护点】
一种基于贪心子图的社会网络节点挖掘方法,其特征是:步骤一:输入社会网络图,根据邻居子图节点影响潜力算法得出每个节点的影响潜力,把节点按照其影响潜力递减的顺序排序,并选出

【技术特征摘要】
1.一种基于贪心子图的社会网络节点挖掘方法,其特征是:步骤一:输入社会网络图,根据邻居子图节点影响潜力算法得出每个节点的影响潜力,把节点按照其影响潜力递减的顺序排序,并选出个影响潜力最大的节点添加到候选集合C1中;步骤二:根据僵尸节点的定义,抽取社会网络图中符合条件的节点组成集合,并按照“僵尸节点”的本身特异性阈值从高到低排序,从排名中选取前个节点加入到候选集合C2中;步骤三:对于从候选集合C1中和候选集合C2中共抽取k个节点组成的集合C3,通过改进影响力的线性阈值模型表现为爬山贪婪算法进行传播激活尝试,初始时节点挖掘结果集S为空集,此时对集合C3中的每个节点进行传播模拟,选取激活范围最大的节点加入集合S中,完成第一个节点的选择,同时对每一个被激活的节点进行标记,下一次传播时默认为已激活节点不进行计算,每一次计算之后,剔除该社会网络图中被激活节点,抽取子图进行下一次传播;步骤四:通过步骤三的传播后对集合C3以被标记为传播过程中的已激活节点的节点进行剔除,此时C3中节点个数变少,重复步骤1和步骤2的节点选取过程,再次选取k个节点填充集合C3;步骤五:重复步骤三的激活传播过程,直至节点挖掘结果集S达到规模k,结束。2.根据权利要求1所述的基于贪心子图的社会网络节点挖掘方法,其特征是节点的影响潜力的估计公式为:

【专利技术属性】
技术研发人员:王红滨印桂生王念滨周连科张载熙冯梦园侯莎张玉鹏刘红丽兰方合
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1