一种基于约束的种子节点数据挖掘系统技术方案

技术编号:24353323 阅读:109 留言:0更新日期:2020-06-03 02:02
本发明专利技术针对种子节点选择过程中存在的性能问题和影响力重叠问题,提出一种基于约束的种子节点数据挖掘系统。该系统包括影响力计算装置、候选种子筛选装置和重叠开销检查装置。影响力计算装置计算节点影响力;候选种子筛选装置以节点影响力为输入筛选出候选种子节点;重叠开销检查装置计算候选种子节点与已有种子节点的重叠开销,并选出种子节点。本发明专利技术提出了有限贪婪的种子选择思想,在有限的邻居间以贪婪方式识别出影响力最大的节点,即保留了贪婪方式能获取接近最优结果的长处,又降低了本发明专利技术的时间复杂度。本发明专利技术还提出了重叠开销计算模型,根据重叠开销决定一个候选种子节点能否成为种子节点,以此降低由影响力重叠引起的传播效率缩水。

A constraint based data mining system for seed nodes

【技术实现步骤摘要】
一种基于约束的种子节点数据挖掘系统
本专利技术涉及一种数据挖掘系统,具体涉及一种基于约束的种子节点数据挖掘系统,属于数据

技术介绍
影响力最大化问题最早源于市场营销领域,早期在利用数据挖掘改进病毒营销的研究中首次提出了社交网络影响力最大化的问题,即通过在网络中选择k个最有影响力的营销点去推销产品,使得最后购买该产品的人最多。后来又给出了作为离散优化问题的影响最大化的系统性研究。均从社交网络分析交互式粒子系统和市场营销的早期工作中提取出了两个非常经典的基础模型:线性阈值模型(LinearThreshold,LT)和独立级联模型(IndependentCascade,IC)。不仅证明了优化问题是NP难的,而且还提出了一种贪婪方法,可以保证最优结果近似在(1-1/e)因子内。由于大量的蒙特卡罗模拟导致了时间复杂度很高,因此如果面对实际网络中拥有上万,上千万甚至上亿个节点的大型网络时,贪心方法的时间过度消耗会使得其根本无法使用。针对贪心方法时间的低效性和不能扩展到大规模社交网络的问题,此后许多研究者基于这两种模型进行了不断改进,各种不同的方法也相继被提了出来,如CELF方法、CELF++方法、NewGreedy方法、MixGreedy方法等。尽管如此,面对成百上千万的大型网络,其高时间成本问题仍然未能得到很好的解决。为了进一步提升选种子的效率,一些启发式方法也被提了出来,如degreediscount方法、Group-PageRank策略、IMRank、IM-PLA方法、geneticalgorithm等。然而,这些方法选择种子依赖于迭代计算,这也是造成很高时间成本的关键原因之一。
技术实现思路
本专利技术针对选择种子节点的过程中存在性能问题和影响力重叠问题,提出一种基于约束的种子节点数据挖掘系统,具体步骤为:该系统包括影响力计算装置、候选种子筛选装置和重叠开销检查装置,影响力计算装置计算节点的影响力,候选种子筛选装置以影响力计算装置计算得到的影响力为输入,筛选出候选种子节点,重叠开销检查装置以候选种子节点筛选装置筛选出的候选种子为输入,选择出种子节点,其中:影响力计算装置包括活跃度计算模块、扩散意愿计算模块、传播潜力计算模块和直接影响力计算模块,活跃度计算模块、扩散意愿计算模块和传播潜力计算模块的输出共同构成直接影响力计算模块的输入;候选种子节点选择装置用于筛选候选种子节点,由受限邻居节点集合模块、受限扩散影响力计算模块和筛选模块组成;影响力重叠检测装置由重叠开销计算模块和种子节点决策模块组成。进一步地,在影响力计算装置中,活跃度计算模块用于计算节点参与信息传播的活跃程度,其中节点vi的活跃度记为Act(vi),由计算,Nvi表示vi的出边邻居集合,Wvi,vj表示连接vi和vj的边的权重。Act(vi)越大,表明vi分享信息的频率越高;扩散意愿计算模块定量计算节点vi将信息传播给vj的积极程度,vi对vj的扩散意愿记为DW(vi,vj),DW(vi,vj)是vi分享信息给vj的优选项,其值越高,表示vi越倾向于向vj共享信息;传播潜力计算模块计算节点传播信息的潜在能力,vi的传播潜力记为DP(vi),其中,outdegree(vi)表示vi的出度,DP(vi)值越高,节点vi的扩散潜力越大;直接影响计算模块计算一个节点对邻居节点的影响程度,vi对vj的直接影响力记为DI(vi,vj),DI(vi,vj)=ω1Act(vi)+ω2Wdiffu(vi,vj)+ω3DP(vi),其中ω1、ω2、ω3分别为节点活跃度、扩散意愿和传播潜力的权重系数。进一步地,候选种子节点选择装置中,受限邻居节点集合模块输入一个给定节点,输出该节点的受限邻居节点集合,如果从vi出发的一个消息能够在传播有限的距离后到达vj,则vj便是vi的受限邻居,记作为vi受限邻居节点集合描述vi可以通过贪婪的方式传播影响力的节点集合,记为CNvi,受限扩散影响力计算模块用于计算任意节点在受限邻居间的影响力,输入待计算的节点、该节点的受限邻居集合以及该节点对各个受限邻居的直接影响力,vi的受限扩散影响力activate(vi,vj)决定了vj是否能够被vi激活,如果vi能够激活vj,则activate(vi,vj)=1,否则其值为0。筛选模块选出受限扩散影响力最大的2K个节点作为候选种子节点,其中K表示种子节点的数量。进一步地,候选种子节点选择装置的工作流程为:步骤1:记划定有限邻居的最大距离为max-distance,令dis=1;步骤2:从网络中选择一个节点记为curNode,构建只包含CurNode的集合N,步骤3:对于集合N中的每个节点,执行下列步骤:步骤3.1:利用节点活跃度计算模块和扩散潜力计算模块分别计算当前节点活跃度和扩散潜力;步骤3.2:对于当前节点,利用受限邻居节点集合模块计算与当前节点距离为dis的受限邻居集合L;步骤3.3:利用受限扩散影响力计算模块计算该节点在受限邻居集合中的影响力,具体步骤如下:步骤3.3.1:对于L中的每个非激活邻居,执行下列操作:步骤3.3.1.1:利用扩散意愿计算模块计算当前节点对当前非激活邻居的扩散意愿;步骤3.3.1.2:利用直接影响力计算模块计算当前节点对当前非激活邻居的直接影响力;步骤3.3.1.3;如果直接影响力大于预定义的阈值θ,则将该邻居置为激活状态,并将其加入集合N中。步骤3.3.2:从N中删除当前节点,令dis=dis+1,步骤4:重复步骤3,直至dis大于预定义的距离max-distance;将此过程中激活的受限邻居数量作为curNode的受限扩散影响力;步骤5:重复步骤2到步骤4,得到网络中每个节点的受限扩散影响力;步骤6:利用筛选模块,选出2K个候选种子节点。进一步地,影响力重叠检测装置工作过程如下:步骤1:按受限扩散影响力由高到低的顺序对所有的候选种子节点排序;步骤2:将第一个候选种子节点作为种子加入种子集合;步骤3:对后续的每个候选种子节点执行下列操作:步骤3.1:利用重叠开销计算模块计算当前候选种子节点和每个种子的重叠开销;步骤3.2:利用种子节点决策模块计算是否将当前候选种子节点作为种子节点;如果可以把当前候选节点作为种子,则将此候选种子节点加入种子节点集合;步骤4:重复步骤3,直到获得K个种子节点。本专利技术提出了有限贪婪的种子选择思想,在有限的邻居之内通过贪婪方式识别出影响力最大的节点,即利用了贪婪可以获取接近最优结果的长处,又将贪婪搜索限制在一定范围之内,从而降低时间复杂度。本专利技术还提出了重叠开销计算模型。在决定是否将一个节点作为种子节点时,根据此模型计算该节点和种子节点之间的重叠开销。如果重叠开销不满足要求,则将该节点排除在种子节点之外,以此降低由影响力重叠引起的传播效率缩水。附图说明图1为本专利技术系本文档来自技高网
...

【技术保护点】
1.一种基于约束的种子节点数据挖掘系统,其特征在于:该系统包括影响力计算装置、候选种子筛选装置和重叠开销检查装置,影响力计算装置计算节点的影响力,候选种子筛选装置以影响力计算装置计算得到的影响力为输入,筛选出候选种子节点,重叠开销检查装置以候选种子节点筛选出的候选种子为输入,选择出种子节点,其中:/n影响力计算装置包括活跃度计算模块、扩散意愿计算模块、传播潜力计算模块和直接影响力计算模块,活跃度计算模块、扩散意愿计算模块和传播潜力计算模块的输出共同构成直接影响计算模块的输入;/n候选种子节点选择装置用于筛选候选种子节点,由受限邻居节点集合模块、受限扩散影响力计算模块和筛选模块组成;/n影响力重叠检测装置由重叠开销计算模块和种子节点决策模块组成。/n

【技术特征摘要】
1.一种基于约束的种子节点数据挖掘系统,其特征在于:该系统包括影响力计算装置、候选种子筛选装置和重叠开销检查装置,影响力计算装置计算节点的影响力,候选种子筛选装置以影响力计算装置计算得到的影响力为输入,筛选出候选种子节点,重叠开销检查装置以候选种子节点筛选出的候选种子为输入,选择出种子节点,其中:
影响力计算装置包括活跃度计算模块、扩散意愿计算模块、传播潜力计算模块和直接影响力计算模块,活跃度计算模块、扩散意愿计算模块和传播潜力计算模块的输出共同构成直接影响计算模块的输入;
候选种子节点选择装置用于筛选候选种子节点,由受限邻居节点集合模块、受限扩散影响力计算模块和筛选模块组成;
影响力重叠检测装置由重叠开销计算模块和种子节点决策模块组成。


2.根据权利要求1所述的系统,其特征在于:在影响力计算装置中,活跃度计算模块用于计算节点参与信息传播的活跃程度,其中节点vi的活跃度记为Act(vi),由计算,Nvi表示vi的出边邻居集合,Wvi,vj表示连接vi和vj的边的权重。Act(vi)越大,表明vi分享信息的频率越高;
扩散意愿计算模块定量计算节点vi将信息传播给vj的积极程度,vi对vj的扩散意愿记为DW(vi,vj),DW(vi,vj)是vi分享信息给vj的优选项,其值越高,表示vi越倾向于向vj共享信息;
传播潜力计算模块计算节点传播信息的潜在能力,vi的传播潜力记为DP(vi),f(vi)=lnoutdegree(vi)+1),其中,outdegree(vi)表示vi的出度,DP(vi)值越高,节点vi的扩散潜力越大;
直接影响计算模块计算一个节点对邻居节点的影响程度,vi对vj的直接影响力记为DI(vi,vj),DI(vi,vj)=ω1Act(vi)+ω2Wdiffu(vi,vj)+ω3DP(vi),其中ω1、ω2、ω3分别为节点活跃度、扩散意愿和传播潜力的权重系数。


3.根据权利要求1所述的系统,其特征在于:候选种子节点选择装置的工作流程为:
步骤1:记划定有限邻居的最大距离为max-distance,令dis=1;
步骤2:从网络中选择一个节点记为curNode,构建只包含CurNode的集合N,
步骤3:对于集合N中的每个节点,执行按下列步骤:
步骤3.1:利用节点活跃度计算模块和扩散潜力计算模块分别计算当前节点活跃度和扩散潜力;
步骤3.2:对于当前节点,利用受限...

【专利技术属性】
技术研发人员:张霄宏钱凯张东生郝浩宇
申请(专利权)人:河南理工大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1