社交媒体网络事件传播关键时间预测方法、系统、介质技术方案

技术编号:27492703 阅读:27 留言:0更新日期:2021-03-02 18:12
本发明专利技术属于在线信息传播预测技术领域,公开了一种社交媒体网络事件传播关键时间预测方法、系统、介质,根据社交媒体网络事件在线信息的不同时间序列特征,进行类别划分;采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理;识别预处理后的社交媒体网络事件传播的关键节点发生的时间区间;针对经过预处理后的时间序列数据进行时间窗口划分,基于在线信息数据提取时序、波动及文本情感特征;构建预测模型训练样本,根据训练样本和未来时间窗口数量,采用XGBoost算法训练预测模型;采用训练完成的模型预测社交媒体网络事件传播过程的关键节点发生的时间。本发明专利技术能有效预测社交媒体网络事件传播过程的关键节点发生时间。生时间。生时间。

【技术实现步骤摘要】
retrieval.2014:233-242.对在线信息的评论进行分析时考虑了多种类型关键因素:用于获取时间因素的时间戳,用于挖掘用户潜在社交网络影响的用户名,以及当前已知的流行度因素。基于这些关键因素,该文献针对YouTube,Flickr和Last.fm的数据建立了用于预测未来流行度的时间感知二分图模型,并利用此模型预测最终的流行度。文献Zohourian A,Sajedi H,Yavary A.Popularity prediction of images and videos on Instagram.20184th International Conference on Web Research(ICWR).IEEE,2018:111-117.针对Instagram网站的视频和图片定义了流行度分数,且提取了这些数据的时间特征、常见附加特征、文本特征、视频特征、视觉特征、图片特征等特征,基于这些特征使用了线性回归和支持向量机等方法对视频和图片的流行度进行预测,使用K近邻、随机森林、朴素贝叶斯、决策树等算法对流行度分数进行了分类。这类方法的不足之处在于仅针对在线信息未来的某一个时本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种社交媒体网络事件传播关键时间预测方法,其特征在于,所述社交媒体网络事件传播关键时间预测方法包括:根据社交媒体网络事件在线信息的不同时间序列特征,采用K-SC(K-Spectral Centroid)聚类算法进行类别划分;采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理;识别预处理后的社交媒体网络事件传播的关键节点发生的时间区间;针对经过预处理后的时间序列数据进行时间窗口划分,基于在线信息数据提取时序、波动及文本情感特征;构建预测模型训练样本,根据训练样本和未来时间窗口数量,采用XGBoost算法训练预测模型;采用训练完成的模型预测社交媒体网络事件传播过程的爆发、顶峰、衰退关键节点发生的时间。2.如权利要求1所述的社交媒体网络事件传播关键时间预测方法,其特征在于,所述根据社交媒体网络事件在线信息的不同时间序列特征,采用K-SC聚类算法进行类别划分包括以下步骤:(1)从社交平台上获取社交媒体网络事件数据集,得到社交媒体网络事件在线信息的流行度时间序列list
i
={p
i
(1),p
i
(2),...,p
i
(N
i
)},其中N
i
表示网络事件i的流行度时间序列的长度,p
i
(j)表示网络事件i在第j个固定的时间区间内的受关注程度,即该时间区间内带有事件i标签的句子在社交平台上的被搜索次数;(2)依据以下流程对流行度时间序列完成K-SC聚类过程:1)设置聚类类别数K;2)从所有流行度时间序列中随机选择K个,作为初始聚类中心;3)计算每个流行度时间序列到K个聚类中心的距离,并把该流行度时间序列划分到距离最近的类别里;4)更新聚类中心;5)如果更新后的聚类中心与原聚类中心相同,则停止迭代,得到K个聚类中心作为流行度时间序列,否则返回3)继续执行;其中3)中提到的距离计算方式如下:其中为流行度时间序列x和流行度时间序列y之间的距离,α为数量缩放系数,实现纵向放缩,b为时间轴偏移系数,实现横向平移,y
(b)
是将时间序列左右平移b个时间区间的后的结果,||
·
||为二范数。求解时首先固定b的值,此时||x-αy
(b)
||/||x||为α的凸函数,α的最优值为||x
T
y
(b)
||/||y
(b)
||2,对于b的最优值,首先找到使两个时间序列的最高波峰对齐的b',围绕b'寻找b的最优值,通过α和b的最优值,计算出x与y的距离;4)中第k个新的聚类中心为矩阵M
k
的最小特征值对应的特征向量,其中:
C
k
为划分到第k类的流行度时间序列的集合,I是单位矩阵。3.如权利要求1所述的社交媒体网络事件传播关键时间预测方法,其特征在于,所述采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理中,通过以下公式对聚类得到的K个流行度时间序列中波动性过强的序列y完成霍尔特线性趋势法的平滑处理:其中y
t
表示流行度时间序列y在时间t的值,2≤t≤n,表示流行度序列数量级别在时间t的估计值,b
t
表示流行度序列在时间t的趋势估计值,α为数量级别的平滑参数,0≤α≤1,β为趋势的平滑参数,0≤β≤1。4.如权利要求1所述的社交媒体网络事件传播关键时间预测方法,其特征在于,所述关键节点发生的时间区间根据{p
i
(1),p
i
(2),...,p
i
(N
i
)}识别,{p
i
(1),p
i
(2),...,p
i
(N
i
)}为网络事件i在N
i
个时间区间内的流行度演化时间序列;若存在T
ip
,满足T
ip
∈{1,2,3,...,N
i
},并且p
i
(T
ip
)为时间序列{p
i
(1),p
i
(2),...,p
i
(N
i
)}中的最大元素,则称“顶峰”节点发生在时间第T
ip
个区间;若存在T
ib
,满足T
ib
∈{2,3,4,...,T
ip
},并且[p
i
(T
ib
)-p
i
(T
ib-1)]为{p
i
(2)-p
i
(1),p
i
(3)-p
i
(2),...,p
i
(T
ip
)-p
i
(T
ip-1)}中的最大值,则称“爆发”节点发生在第T
ib
个时间区间;若存在T
if
,满足T
if
∈{T
ip
,T
ip
+1,...,N
i-1},此时流行度序列呈现下降趋势,并且[p
i
(T
if
)-p
i
(T
if
+1)]为{p
i
(T
ip
+1)-p
i
(T
ip
+2),p
i
(T
ip
+2)-p
i
(T
ip
+3),...,p
i
(N
i-1)-p
i
(N
i
)}中的最大值,则称“衰退”节点发生在第T
if
个时间区间;根据定义得到K个流行度时间序列爆发、顶峰和衰退节点发生的时间区间。5.如利要求1所述的社交媒体网络事件传播关键时间预测方法,其特征在于,所述针对经过预处理后的时间序列数据进行时间窗口划分,基于在线信息数据提取时序、波动及文本情感特征包括:(1)设定前置时间窗口数量N,N≥1;(2)时间序列起始时间记为t0,预测时间点记为t
P
,预测开始前传播的时间区间为[t0,t
P
],将此区间划分为N个大小相同的时间窗口,每个时间窗口大小为则未来的第f个时间窗口定义为:(3)时序特征按照如下定义进行提取;1)单时间窗口平均增长率给定时间序列s的第i个和第i+1个时间窗口的流行度分别为和定义相邻时间窗口的单时间窗口平均增长率为:
2)双时间窗口平均增长率与单时间窗口平均增长率相似,计算时间序列s的第i个和第i+2个时间窗口流行度的平均增长率,定义双时间窗口平均增长率定义为:3)近邻时间窗口传播速度距离预测时间最近的连续前a个时间窗口的信息传播速度,定义为:其中t

【专利技术属性】
技术研发人员:安玲玲吴梦凯张康姚俊严圳裴庆祺
申请(专利权)人:西安电子科技大学广州研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1