本发明专利技术公开了基于聚类快速推演和子模最大化的信息传播网络推演方法,包括:获取传播时间数据以及需要推演的用户之间的传播关系数;根据传播时间数据构建数据模型;根据节点的接收时间大小,在信息级联集合中构造出所有的潜在边集;构造一个融合节点的接收时间和接收状态的聚类指标;计算每条潜在边的聚类指标值;利用聚类算法对所有潜在边的聚类指标值进行聚类,获取聚类结果;根据聚类结果获取一个对每条所述潜在边的聚类指标值进行筛选的阈值;将每条潜在边的聚类指标值与所述阈值进行比较,推演出有效潜在边,根据有效潜在边获取节点的簇结构;根据信息级联集合或信息传播构建观测级联的似然函数,利用贪心算法迭代推演出传播边,完成推演。完成推演。完成推演。
【技术实现步骤摘要】
基于聚类快速推演和子模最大化的信息传播网络推演方法
[0001]本专利技术属于信息传播网络的结构推演
,尤其涉及基于聚类快速推演和子模最大化的信息传播网络推演方法。
技术介绍
[0002]信息传播网络推演是指根据信息在微博、微信等主流社交网路上传播结束后所观测到的有关数据,一般是比较容易观测到的某个用户传播(转发或发送)某则信息的时间,推演出信息传播所依赖的潜在网络结构。在复杂网络中,用户可被抽象为网络中的节点,用户之间谁将信息传播给了谁的传播关系可被抽象为网络中的节点之间的有向连边,因此将现实世界中人群的社交关系抽象为网络中将可以更加方便、高效地研究他们之间传播关系的推演。
[0003]现有的传播网络推演方法大体分为两类:仅推演用户之间传播关系的方法和推演用户之间传播关系和传播关系强度的方法。仅推演用户之间传播关系的方法的主要思想是假定用户之间传播信息的倾向或意愿都是相同的,然后建立观测到的传播数据的似然函数,最后最大化该似然函数推演出最有可能在其上面观测到该级联数据的传播网络结构。推演用户之间传播关系和传播关系强度的方法的宗旨是以用户之间传播关系的强度为自变量,建立观测到的传播数据的似然函数,然后最大化该似然函数。这两类方法的共同点是:若在多条观测的传播数据中,若用户A总是在用户B感染后感染(或用户B发送信息后用户A再进行评论或转发),那么很有可能存在这样一条从用户A指向用户B的有向传播关系。早在2010年到2013年期间,Gomez
‑
Rodriguez和Myers等人提出了几种系统的传播网络推演方法。假设信息或疾病的传播轨迹像一棵树,NetInf算法在只考虑每个级联最有可能的传播生成树(即最有可能的传播情形)的条件下,结合观测级联的对数似然具有的子模性,利用贪心算法迭代推演出了传播边。而MulTree算法则考虑了每个级联所有可能的传播生成树(即所有可能的传播情形)。假设节点之间的关系强度是不同的,ConNIe算法和NetRate算法分别以节点之间的条件传播概率和传播速率为自变量,建立了观测的传播级联数据的似然函数(NetRate算法是依据生存分析理论来建立的)。由于观测级联的似然函数的对数是凸函数,均利用了凸优化的方法分别推演出节点之间的传播概率和传播速率。近几年,学者们陆续提出了一些改进的方法。为了更加准确刻画用户之间信息传播的异质性,2018年Zhao等人考虑到信息在传播的过程中流行度的变化,提出了将传播过程划分成不同生命阶段,然后将不同生命阶段的信息流行度与用户之间的关系强度的乘积作为用户之间的表观影响强度,以此提高现有算法的推演准确性。尽管对于描述网络的结构和功能来说,模体这一简单的网络构造模块非常重要,但是现有方法却没有将其利用起来的,因此2020年Tan等人从节点的观测数据中将复杂网络基础组件——模体挖掘出来,并作为结构先验加入到现有推演算法中,以此提高了现有算法的推演性能。然而,上述的传播网络推演方法仍存在一些问题:当网络规模稍大,或观测的级联数据的平均长度较长(即某一次观测到传播某条信息的人数较多)时,所有可能的潜在边数将至少是真实边数的10倍。由于是从所有可能的潜
在边中去推演少量传播边,现有方法的推演效率较低,也即方法运行时间慢得难以接受。当可观测到用户转发或感染的时间时,我们也可容易得知用户是感染的状态,现有方法大都只考虑节点的时间因素,较少研究同时考虑节点的时间因素和节点的状态因素;且现有方法较少同时考虑节点的传播时间信息和状态信息去预处理初始的所有可能的潜在边来提高算法的推演效率和准确性。
技术实现思路
[0004]本专利技术的目的在于提出基于聚类快速推演和子模最大化的信息传播网络推演方法,通过融合节点的接收时间信息和接收状态信息来预处理观测的级联数据,令算法在推演规模稍大的网络结构时可以更加快速和更加准确。
[0005]为实现上述目的,本专利技术提供了基于聚类快速推演和子模最大化的信息传播网络推演方法,包括以下步骤:
[0006]根据收集到的传播时间数据和需要推演的用户之间的传播关系数构建数据模型,基于所述数据模型进行抽象,获得网络传播动力学领域中的信息级联集合、待推演的信息传播网络中的节点、待推演的信息传播网络中的传播边数、节点的接收时间和节点的接收状态;
[0007]根据所述节点的接收时间大小,在所述信息级联集合中构造出所有的潜在边,构造一个融合所述节点的接收时间和接收状态的聚类指标,计算每条潜在边的聚类指标值;
[0008]利用2
‑
means聚类算法对每条所述潜在边的聚类指标值进行聚类,获取聚类结果,根据所述聚类结果获取一个对每条所述潜在边的聚类指标值进行筛选的阈值;
[0009]将每条所述潜在边的聚类指标值与所述阈值进行比较,推演出有效潜在边,根据所述有效潜在边获取节点的簇结构;
[0010]根据所述信息级联集合和信息传播按照树状构建观测级联的似然函数;将所述节点的簇结构融合到所述观测级联的似然函数中,利用贪心算法迭代推演出若干条传播边,完成传播网络推演。
[0011]可选的,根据收集到的传播时间数据和需要推演的用户之间的传播关系数构建数据模型具体包括:
[0012]将各用户和各用户传播信息的时间组成的一个序列抽象为一个信息级联,则多条传播数据组成的集合转化为信息级联集合;
[0013]每个级联c
k
中的节点v
i
抽象为待推演的信息传播网络中的节点;
[0014]用户之间谁传播信息给谁的传播关系抽象为待推演的信息传播网络中的传播边;
[0015]每个级联c
k
中的用户v
i
传播信息的时间抽象为节点的接收时间,每个级联c
k
中的用户v
i
是否传播了信息的状态抽象为节点的接收状态X
i
。
[0016]可选的,根据所述节点的接收时间大小,在所述信息级联集合中构造出所有的潜在边,具体包括:
[0017]根据节点的接收时间大小,基于所述信息级联集合构造出所有潜在边;
[0018]在每个观测到的信息级联中,若任意节点v
i
的接收时间小于任意节点v
j
的接收时间,则将节点对(v
i
,v
j
)推导为一条所述潜在边或推导出节点v
i
存在一条有向边指向节点v
j
。
[0019]可选的,构造一个融合所述节点的接收时间和接收状态的聚类指标,具体包括:
[0020]分别利用所述节点的接收时间和接收状态计算出潜在边上最终的传播似然和潜在边的两个节点接收状态之间的正相关性;
[0021]利用乘法原则,融合所述节点的接收时间和接收状态的隐含信息,构造出所述聚类指标。
[0022]可选的,根据所述聚类结果获取一个对每条所述潜在边的聚类指标值进行筛选的阈值,具体包括:
[0023]对所有潜在边的聚类本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于聚类快速推演和子模最大化的信息传播网络推演方法,其特征在于,包括以下步骤:根据收集到的传播时间数据和需要推演的用户之间的传播关系数构建数据模型,基于所述数据模型进行抽象,获得网络传播动力学领域中的信息级联集合、待推演的信息传播网络中的节点、待推演的信息传播网络中的传播边数、节点的接收时间和节点的接收状态;根据所述节点的接收时间大小,在所述信息级联集合中构造出所有的潜在边,构造一个融合所述节点的接收时间和接收状态的聚类指标,计算每条潜在边的聚类指标值;利用2
‑
means聚类算法对每条所述潜在边的聚类指标值进行聚类,获取聚类结果,根据所述聚类结果获取一个对每条所述潜在边的聚类指标值进行筛选的阈值;将每条所述潜在边的聚类指标值与所述阈值进行比较,推演出有效潜在边,根据所述有效潜在边获取节点的簇结构;根据所述信息级联集合和信息传播按照树状构建观测级联的似然函数;将所述节点的簇结构融合到所述观测级联的似然函数中,利用贪心算法迭代推演出若干条传播边,完成传播网络推演。2.如权利要求1所述的基于聚类快速推演和子模最大化的信息传播网络推演方法,其特征在于,根据收集到的传播时间数据和需要推演的用户之间的传播关系数构建数据模型具体包括:将各用户和各用户传播信息的时间组成的一个序列抽象为一个信息级联,则多条传播数据组成的集合转化为信息级联集合;每个级联c
k
中的节点v
i
抽象为待推演的信息传播网络中的节点;用户之间谁传播信息给谁的传播关系抽象为待推演的信息传播网络中的传播边;每个级联c
k
中的用户v
i
传播信息的时间抽象为节点的接收时间,每个级联c
k
中的用户v
i
是否传播了信息的状态抽象为节点的接收状态X
i
。3.如权利要求1所述的基于聚类快速推演和子模最大化的信息传播网络推演方法,其特征在于,根据所述节点的接收时间大小,在所述信息级联集合中构造出所有的潜在边,具体包括:根据节点的接收时间大小,基于所述信息级联集合构造出所有潜在边;在每个观测到的信息级联中,若任意节点v
i
的接收时间小于任意节点v
j
的接收时间,则将节点对(v
i
,v
j
)推导为一条所述潜在边或推导出节点v
i
存在一条有向边指向节点v
j
。4.如权利要求1所述的...
【专利技术属性】
技术研发人员:高超,孔露露,刘晨,王震,李向华,李学龙,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。