一种基于凝聚熵的动态影响力最大化方法技术

技术编号：27415025 阅读：48 留言：0更新日期：2021-02-21 14:31

本发明专利技术公开了一种基于凝聚熵的动态影响力最大化方法，具体包括：1)提出了CeCOPRA算法对社交网络进行重叠社区发现；2)选出聚集区内有潜力的节点构建候选种子集；3)提出了可选择动态影响力传播算法，利用多种熵计算得到相邻节点间的凝聚力并由此来决定节点是否有能力成为另一节点的可传播先驱，使信息继续有效扩散；4)最后，通过多个数据集上的多次实验，验证DEIM算法能否在不同场景中使理想数量的用户被成功影响。此方法能过滤网络中的边缘节点，缩小种子节点选择范围，使得效率可以大幅度提高，而且个体自主性被保留，信息传播过程更加真实。真实。真实。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于凝聚熵的动态影响力最大化方法

[0001]本专利技术涉及社交网络
，特别是涉及一种基于凝聚熵的动态影响力最大化方法。

技术介绍

[0002]随着网络技术的发展，各种社交软件成为了人们线上交流的主流形式，如Facebook，YouTube，Twitter等。由此触发了海量的网络数据，使得影响力最大化的研究前景更加广阔并重要。影响最大化是指在社交网络中选择一组种子节点，根据特定的扩散模型使其对网络中其他节点的整体影响达到最大化的问题。一个被广泛应用的营销策略中通过口碑效应产生连锁反应让自己的商品被更多人购买，但如何以最小开销获得最好的宣传效果，即初始用户集的选择是影响力最大化问题面临的挑战。
[0003]影响力最大化的目标是确定K个有影响力的种子节点，复杂网络的特性使得这项工作非常复杂。节点在网络中的自身属性和结构特征在种子选择过程中起着关键性的作用，而社区结构正是因这些特征而存在，利用社区体现用户的拓扑特点是一个合理选择，同时社区中特殊用户也可为信息的扩散提供良好开端，因此社区划分的精确度直接影响着种子集的效果。目前有关社区划分的工作中包括，通过节点对邻居节点所属社区的隶属度大小判断划分社区结果，通过自组织节点间吸引力划分社区结构，通过预算分配确定社区并通过预算转移确定种子节点等。但这些算法缺乏对用户间社交距离的量化从而影响社区划分结果，而且得到的社区结构为非重叠社区，显然这不太符合现实。如何得到一个精准的社区结构并将次融入影响力最大化过程中，使结果更加理想并提高算法效率是一个值得研究的方向。r/>[0004]影响力最大化领域中的经典传播模型——独立级联模型和线性阈值模型，由此发展出了多个模型。但大多数算法存在一定的局限性，没有考虑到真实社交网络中扩散过程的不确定性，忽略了由个体的自主性导致的选择分享对象的权利。在现实中，用户可以主观选择分享信息的对象，对于挚友可能无话不谈，但对于同事可能只有工作上的交流。用户决定与何人进行资源共享是信息扩散的起点。从空间角度观察社交网络中每个用户，以其为中心呈放射状构成多条路径，信息沿路径流动至其他用户。由于用户自主选择信息流动经过点，使得以该用户为起点的传播路径的长度和方向具有不确定性。根据以上特点，如何将由个体自主性导致的传播路径动态性问题进行建模是一个挑战。

技术实现思路

[0005]本专利技术的目的是提供一种基于凝聚熵的动态影响力最大化方法，以解决上述现有技术存在的问题，使网络中的边缘节点被过滤掉，种子节点选择范围缩小，个体自主性被保留，信息传播过程更加真实。
[0006]为实现上述目的，本专利技术提供了如下方案：
[0007]本专利技术提供一种基于凝聚熵的动态影响力最大化方法，包括以下步骤：
[0008]S1.提构建CeCOPRA算法：利用节点的局部拓扑信息，用凝聚熵的概念定义了用户间的亲疏程度，并进行重叠社区划分；
[0009]S2.为了减小种子节点的选择范围，利用社区结构筛选出候选种子集，所述候选种子集为有潜力成为种子的节点集，具体包括：
[0010]在大型网络中选择的聚集桥；在每个社区中选择的聚集焦点；
[0011]S3.构建可选择动态影响力传播算法：加入了传播控制因子α，用于表示传播条件的下限，结合自信息熵和凝聚熵的凝聚力判断用户能否能成为可传播先驱而去影响他人，当凝聚力达到阈值时传播者才有机会去表达自己的观点，否则影响扩散结束；
[0012]S4.通过多个数据集上的多次实验，验证DEIM算法能否在不同场景中使理想数量的用户被成功影响。
[0013]进一步地，所述步骤S1中的凝聚熵是度量两个节点间关于邻域信息分布的相似性，将节点自身的属性放在首位，将局域区域内节点间连边的紧密度作为辅助属性，构成节点的邻域结构信息计算节点间的凝聚熵，节点i和节点j的凝聚熵CE
ij
计算公式定义如下：其中，r
ij
为节点i和节点j邻域信息分布的相对熵之和，即分散度。
[0014]进一步地，所述步骤S2中的聚集桥定义为：把每个社区视为一个聚集区，重叠节点所在位置为聚集相交区，聚集桥在此区域内产生，聚集桥N
hinge
是跨多个领域的用户代表集合，定义为：
[0015][0016]其中代表社区i内同时位于六个及以上社区的节点或节点集，这些点紧密连接多个聚集区，所属社区数量的规定能保证聚集桥中的用户有足够的机会尝试影响他人，确保一定数量的影响扩散路径。
[0017]进一步地，所述步骤S2中的聚集焦点定义为：每个社区的非重叠节点组成了社区的集中聚集区，其中度中心性最大的节点在该区域内与其他节点具有最紧密的联系，称其为聚集焦点，表示为：
[0018]其中代表使D(v)最大的节点v。
[0019]进一步地，所述步骤S3中的自信息熵定义为：节点自身携带的信息量，该值与节点的扩散量成正相关，公式：其中M是整个网络中边的总数，D
u
代表节点u的度数，信息熵是对信息的量化，所述自信息熵通过节点度和总边数的比值衡量节点所携带信息量的多少。
[0020]进一步地，所述步骤S3中的可传播先驱定义为：在网络G(V,E)中，V是节点集，E是边集，对于边(u,v)∈E，当节点u与节点v的凝聚力达到传播控制因子α的值时，节点u就具备了尝试影响节点v的能力，即节点u就成为了节点v的可传播先驱，然后尝试去影响节点v。
[0021]本专利技术公开了以下技术效果：
[0022]1.提出了CeCOPRA算法，利用节点的局部拓扑信息，用凝聚熵的概念定义了用户间的亲疏程度，并进行重叠社区划分。一定程度上消除由于忽略用户间关系和阈值选择不当
产生的随机性的影响，选出聚集桥和聚集焦点作为潜力种子节点，使得效率可以大幅度提高。
[0023]2.提出了可选择动态影响力传播算法，加入了传播控制因子α，用于表示传播条件的下限，即用于调节这个过程。并提出了结合自信息熵和凝聚熵的凝聚力判断用户能否成为可传播先驱从而去影响他人，当凝聚力达到阈值时传播者才有机会去表达自己的观点，否则影响扩散结束。使真正传播路径更符合现实，同时该条件的提出也可以提高效率，避免了利用大量时间进行不必要的扩散尝试。
[0024]3.在四个数据集上进行了多次试验，结果表明利用社区结构进行有条件的传播，可以明显提高时间效率，并保证了可接受的精度损失。
附图说明
[0025]为了更清楚地说明本专利技术实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0026]图1为网络结构，其中a)为一个网络的例子显示在子图，b)为节点的邻域结构展示如子图；
[0027]图2为基于社区结构选择候选种子集的例子；
[0028]图3为可传播先驱例子；
[0029]图4为四个数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于凝聚熵的动态影响力最大化方法，其特征在于：包括以下步骤：S1.构建CeCOPRA算法：利用节点的局部拓扑信息，用凝聚熵的概念定义了用户间的亲疏程度，并进行重叠社区划分；S2.为了减小种子节点的选择范围，利用社区结构筛选出候选种子集，所述候选种子集为有潜力成为种子的节点集，具体包括：在大型网络中选择的聚集桥；在每个社区中选择的聚集焦点；S3.构建可选择动态影响力传播算法：加入了传播控制因子α，用于表示传播条件的下限，结合自信息熵和凝聚熵的凝聚力判断用户能否能成为可传播先驱而去影响他人，当凝聚力达到阈值时传播者才有机会去表达自己的观点，否则影响扩散结束；S4.通过多个数据集上的多次实验，验证DEIM算法能否在不同场景中使理想数量的用户被成功影响。2.根据权利要求1所述的一种基于凝聚熵的动态影响力最大化方法，其特征在于：所述步骤S1中的凝聚熵是度量两个节点间关于邻域信息分布的相似性，将节点自身的属性放在首位，将局域区域内节点间连边的紧密度作为辅助属性，构成节点的邻域结构信息计算节点间的凝聚熵，节点i和节点j的凝聚熵CE
ij
计算公式定义如下：其中，r
ij
为节点i和节点j邻域信息分布的相对熵之和，即分散度。3.根据权利要求1所述的一种基于凝聚熵的动态影响力最大化方法，其特征在于：所述步骤S2中的聚集桥定义为：把每个社区视为一个聚集区，重叠节点所...

【专利技术属性】
技术研发人员：李卫民，钟克欣，王钊，刘艳霞，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人