一种基于差分预解集的网络信息扩散源头推断方法技术

技术编号:22242486 阅读:52 留言:0更新日期:2019-10-09 21:55
本发明专利技术提供一种基于差分预解集的网络信息扩散源头推断方法,属于信息技术处理领域,用G=(V,E)表示网络节点之间的连接关系,其中V表示网络节点集,E表示网络边集,从中选取差分预解集S,建立扩散源特征,收集级联信息,判断指标集合的模|Ic|的大小,如果大于预设值,则提取级联C的特征向量,对每个节点v∈V的扩散源特征进行调整,对所有的节点v∈V逐一计算范数,找到范数最小的那个节点推断为源头。本方法能够主动地对数据来源进行优化选取,提高输入数据的质量,大幅提升源头推断的精度。

An Inference Method of Network Information Diffusion Source Based on Differential Precomposition Set

【技术实现步骤摘要】
一种基于差分预解集的网络信息扩散源头推断方法
本专利技术涉及信息技术处理领域,具体涉及一种基于差分预解集的网络信息扩散源头推断方法。
技术介绍
复杂网络的一个重要特点是信息可以进行级联传播,实现信息的快速、爆炸式扩散。网络信息扩散源头推断(以下简称为“源头推断”)旨在根据已观测到的部分扩散级联信息(如参与该信息扩散的部分节点信息及其参与时间等等),推测出扩散的初始节点,即找出扩散最初是由谁发起的。该技术可广泛应用于舆情对抗、隐患排除等方面,如社交网络上的谣言散布者发现、计算机网络中的木马扩散源头检测、人群之间传染病的传播源头推断等等。现有的源头推断方法通常是在一定的随机动力模型假设下进行的。这里最为广泛采用的模型为SI模型、SIS模型和SIR模型[1],其中S代表susceptible易感状态,I代表infected被感染状态,R代表recovered免疫状态。代表性源头推断方法如下:·基于中心性度量的启发式算法[2]。这类方法选取具有较高中心性度量的节点作为源头节点。这里最有代表性的中心性度量为紧密度中心性,其直观想法是一个节点到所有感染节点的距离之和越小,那么这个节点越有可能是扩散源头。这类方法都是启发式的,而且并不考虑节点的参与扩散的时间等信息。·基于最大似然的优化方法[3]。该方法将源点推断问题定义为寻找使得观测到的部分扩散级联发生的可能性最大的那个节点,并将该节点视为源头节点。该方法利用的是极大似然的基本思想,为源头推断问题提供了一个基准的优化框架。方法[3]利用指数分布的无记忆性与树结构的无环性,将上述优化问题转化为生成路径的计数问题。此外,蒙泰卡罗抽样方法[4]、BP算法[5]、DMP算法[6]、谱方法[7]等方法从不同的建模视角为源头推断问题提供了不同的求解技术方案。现有技术方法在进行源头推断时所面对的输入数据(即前述的部分级联信息)是被动获取的,并没有对数据的来源做任何的优化选取,而数据质量的好坏通常会很大程度制约着源头推断性能的提升。现有这些方法可称之为纯“事后”的方法,即级联扩散发生后,根据可观测到的、被动拿到的部分扩散级联信息,去设计度量或模型去寻找源头。
技术实现思路
针对现有技术问题,本专利技术提出一种基于差分预解集的网络信息扩散源头推断方法,能够主动地对数据来源进行优化选取,提高输入数据的质量,大幅提升源头推断的精度。为解决上述技术问题,本专利技术采用如下技术方案:一种基于差分预解集的网络信息扩散源头推断方法,包括以下步骤:用G=(V,E)表示网络节点之间的连接关系,其中V表示网络节点集,E表示网络边集;从G中选取一个子集作为差分预解集S,该S:={s1,...,sK}为G中入度最高的前K个节点;根据差分预解集S估计每个节点v∈V到S中所有节点的扩散时间t(v,sk),其中k=1,2,...,K,根据该扩散时间建立扩散源特征对于一阶级联每个数据Cl∈C表示为ul为Cl的发起节点,为Cl的发起时间,vl为ul的一阶子节点,表示节点vl参与到Cl的时间,表示节点vl没有参与级联Cl或者参与了但没有被观测到;通过差分预解集S来收集级联信息其中表示节点sk参与到级联C的时间,表示节点sk没有参与级联C;判断指标集合的模|Ic|的大小,如果大于预设值,则提取级联C的特征向量其中1≤k1<k2<…<kI≤K;根据指标集合Ic的信息对每个节点v∈V的扩散源特征进行调整,调整后的扩散源特征对所有的节点v∈V逐一计算范数||h′(v)-h(C)||2,找到范数最小的那个节点推断为源头。进一步地,利用扩散模型估计节点v到S中所有节点的扩散时间t(v,sk),该扩散模型为:信息沿E中每条有向边e=(u1,u2)扩散的时间服从指数分布Exp(λe),如果通过某条边上的历史传播日志信息为空集,则从E中去掉这条边;如果通过某条边上的历史传播日志信息足够少,则用其它边上参数的平均值来估计该边上的λe。进一步地,所述λe根据一阶级联中的信息进行加和/平均/取倒数运算来估计。进一步地,估计扩散时间t(v,sk)的方法为,先模拟设定次数从v到sk所需的扩散时间,再取平均值。进一步地,如果模|Ic|小于预设值,则直接采用传统方法进行源头推断,该传统方法包括基于中心性度量的启发式算法、基于最大似然的优化方法、蒙泰卡罗抽样方法、BP算法、DMP算法、谱方法。进一步地,所述预设值为3,但不限定该值,根据实际需要设定。一种基于差分预解集的网络信息扩散源头推断系统,包括存储器和处理器,该存储器存储计算机程序,该程序被配置为由该处理器执行,该程序包括用于执行上述任一方法中各步骤的指令。一种存储计算机程序的计算机可读存储介质,该计算机程序包括指令,该指令当由服务器的处理器执行时使得该服务器执行上述任一方法中的各个步骤。本专利技术方法主动地对数据来源进行优化选取,通过引入差分预解集这个概念,为网络中的每个节点提取其作为扩散源头的特征,将源头推断问题转化为特征匹配问题,降低复杂度的同时还大幅提升了源头推断精度。这是一种“事前”与“事后”相结合的方法;在级联扩散发生前,优化选取一些节点来实时收集信息;在级联扩散发生后,利用收集来的信息进行扩散源头推断。附图说明图1是一种基于差分预解集的网络信息扩散源头推断方法的流程图。具体实施方式为使本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。本专利技术方法旨在为网络G=(V,E)建立一个新颖的扩散源推断整体方案。这里的V表示网络节点集,E表示网络边集,用来刻画节点之间的连接关系。不失一般性,这里假设G为有向全连通图,边的方向代表信息扩散的方向。除了网络拓扑结构之外,还需要一定量的一阶级联数据集作为输入来训练模型,每个一阶级联数据Cl可表示为其中ul为Cl的发起节点,为Cl的发起时间,vl为ul的一阶子节点,表示节点vl参与到Cl的时间。若表示节点vl没有参与级联Cl或者参与了但没有被观测到。本专利技术方法由扩散源特征提取与扩散源推断两大模块组成,其中扩散源特征提取为线下模块,扩散源推断为线上模块。扩散源特征提取的具体实施步骤如下:1.选取差分预解集差分预解集S是节点集V的一个子集,其大小K<<|V|,这里的K值可根据预算和需求情况进行调整(一般情况下,K值越大,模型的精度越高,但对应的计算复杂度也会增大)。差分预解集S中的节点就是要实时观测的节点,需要记录它们参与级联扩散的时间。为了让差分预解集S能尽可能地收集扩散信息而且保证信息的有效性,这里取差分预解集S:={s1,...,sK}为网络G=(V,E)中入度最高的前K个节点。2.为每个节点建立扩散源特征根据上一步选定的差分预解集S,这一步为每个节点v∈V建立扩散源特征。1)假设信息沿着每条有向边e=(u1,u2)扩散的时间服从指数分布Exp(λe),这里的λe可根据一阶级联数据集中的信息进行加和/平均/取倒数运算来估计。如果通过某条边上的历史传播日志信息为空集,可以从E中去掉这条边;如果通过某条边上的历史传播日志信息特别少,可以用其它边上参数的平均值来估计这条边上的λe。2)利用1)得到的扩散模型,估计节点v到S中所有节点的扩散时间t(v,sk)(其中k=1,2,...,K)。具体而言,先模拟100次从v到sk所需的扩散本文档来自技高网
...

【技术保护点】
1.一种基于差分预解集的网络信息扩散源头推断方法,包括以下步骤:用G=(V,E)表示网络节点之间的连接关系,其中V表示网络节点集,E表示网络边集;从G中选取一个子集作为差分预解集S,该S:={s1,...,sK}为G中入度最高的前K个节点;根据差分预解集S估计每个节点v∈V到S中所有节点的扩散时间t(v,sk),其中k=1,2,...K,根据该扩散时间建立扩散源特征

【技术特征摘要】
1.一种基于差分预解集的网络信息扩散源头推断方法,包括以下步骤:用G=(V,E)表示网络节点之间的连接关系,其中V表示网络节点集,E表示网络边集;从G中选取一个子集作为差分预解集S,该S:={s1,...,sK}为G中入度最高的前K个节点;根据差分预解集S估计每个节点v∈V到S中所有节点的扩散时间t(v,sk),其中k=1,2,...K,根据该扩散时间建立扩散源特征对于一阶级联每个数据Cl∈C表示为ul为Cl的发起节点,为Cl的发起时间,vl为ul的一阶子节点,表示节点vl参与到Cl的时间,表示节点vl没有参与级联Cl或者参与了但没有被观测到;通过差分预解集S来收集级联信息其中表示节点sk参与到级联C的时间,表示节点sk没有参与级联C;判断指标集合的模|Ic|的大小,如果大于预设值,则提取级联C的特征向量其中1≤k1<k2<…<kl≤K;根据指标集合Ic的信息对每个节点v∈V的扩散源特征进行调整,调整后的扩散源特征对所有的节点v∈V逐一计算范数||h′(v)-h((C)||2,找到范数最小的那个节点推断为源头。2.如权利要求1所述的方法,其特征在于,利用扩散模型估计节点v到S中所有节点的扩散时间t(v,sk),该扩散模型为:信息沿E中每条有向边e=(...

【专利技术属性】
技术研发人员:周川胡玥谭建龙郭莉
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1