一种基于知识图谱的微博事件热度预测方法技术

技术编号:37967612 阅读:8 留言:0更新日期:2023-06-30 09:42
本发明专利技术涉及一种基于知识图谱的微博事件热度预测方法,包括以下步骤,首先对某一微博话题下的博文和用户数据进行爬取,将微博数据建立社交网络知识图谱,然后对事件数据进行时间区间划分,在时间区间上建立动态话题模型,得到话题特征,通过知识融合模块,利用图卷积网络和递归神经网络预测微博事件热度。本发明专利技术弥补了现有舆情事件热度预测过程中对于社交网络的内在拓扑特征和舆情特征的趋势和周期性的忽略,对事件热度预测方法提供了可借鉴的方案,提高了热度预测的准确性。提高了热度预测的准确性。提高了热度预测的准确性。

【技术实现步骤摘要】
一种基于知识图谱的微博事件热度预测方法


[0001]本专利技术涉及数据挖掘,自然语言处理领域,尤其涉及一种基于知识图谱的微博事件热度预测方法。

技术介绍

[0002]微博等社交网络为个人用户和社会媒体等提供了人人都能发声的渠道。微博事件热度预测作为舆情分析的关键技术之一,可以应对新发生的事件及后续业务运营,也可以为整个微博舆情环境管理提供数据支撑和决策,对于制定调控方案提高效率。
[0003]舆情热度预测是根据历史舆情事件信息预测未来一段时间的事件热度状态。舆情事件状态具有明显的时序性,它不仅受当前发帖用户的用户特征影响,还受历史话题事件的影响。
[0004]现有研究很少考虑外部因素或忽略外部因素之间复杂的相关性对舆情事件热度的影响。过去的研究模型仅保留有关舆情事件网络关系的信息,而缺乏捕获时间关系的能力。相应地,前馈神经网络等模型、DBN和RNN等捕捉了舆情特征的趋势和周期性,但它们忽略了社交网络的内在拓扑特征。
[0005]综合考虑了社交知识图谱的拓扑结构以及事件话题时序发展对舆情热度的影响,本专利技术提供了一种基于知识图谱的微博事件热度预测方法。

技术实现思路

[0006]为解决上述问题,弥补现有技术的缺陷,本专利技术提供了一种基于知识图谱的微博事件热度预测方法,该方法采用知识图谱表示方法来提取相关知识,将舆情事件特征结合微博用户社交网络和微博舆情事件话题特征,通过图卷积网络和递归神经网络预测微博事件热度。
[0007]本专利技术是通过以下技术方案达到上述目的:一种基于知识图谱的微博事件热度预测方法,包括如下步骤:
[0008](1)对某一微博话题下的博文和用户数据进行爬取;
[0009](2)建立社交网络知识图谱;
[0010](3)使用最小条件熵方法对话题进行时间分片;
[0011](4)获取舆情事件主题特征;
[0012](5)引入图卷积网络GCN;
[0013](6)利用递归神经网络热度预测;
[0014]作为优选,所述步骤(1)具体包括以下步骤:
[0015](1.1)对微博的HTTP请求通过抓包分析软件分析各参数的含义。
[0016](1.2)通过Python的爬虫框架对用户数据和微博内容进行爬取,将获取到的数据持久化存储起来。
[0017]作为优选,所述步骤(2)建立微博舆情网络知识图谱,过程包括:
[0018](2.1)根据微博数据集特征,通过知识抽取、知识融合、知识加工形成微博事件知识图谱。针对微博相关联的用户网络,根据中心度筛选用户集,构建用户社交网络知识图谱。得到用户的特征向量表示其中分别代表发布微博数,关注数,认证类型,用户节点度中心性,用户节点紧密中心性。
[0019](2.2)对微博事件知识图谱采用基于实体

属性

关系的知识表示,将与舆情事件、属性及其之间的关系以三元组的形式表示为CKG={F,F_att,att_att},其中
[0020]F={(f
i
,adj,f
j
),i,j∈{1,2,...,n}}
ꢀꢀ
(3)
[0021]其中,F为表示微博事件f
i
与f
j
之间的邻接关系adj的关系三元组,n为事件总数。
[0022]F_att={(f
i
,att
l
,att
l
_f
i
),i∈{1,2,...,n},l∈{1,2,...,L}}
ꢀꢀ
(4)
[0023]F_att表示微博用户和属性之间的对应关系。其中,将微博用户的属性分为转发量、点赞数、评论数和阅读数。att
l
代表第l类属性,att
l
_r
i
是相应的属性值的事件,L是属性值的数量。
[0024]att_att={(att
l1
,att
l2
,p),l1,l2∈{1,2,...,L}}
ꢀꢀ
(5)
[0025]att_att代表属性之间的共现关系,其中代表不同的属性,p代表他们共现的概率。
[0026]将实体、关系和属性的嵌入向量记为X
E

[0027]作为优选,所述步骤(3)使用最小条件熵方法对话题进行时间分片,其特征在于,为得到时间分片S={s1,s2,s3...s
N
},其中s
i
(1≤i≤N)表示一个时间分片,对微博总集合R={r1,r2,r3...r
n
},其中r
i
(1≤i≤n)表示一个微博,通过合并N+1分割方案中最相似的两个临近微博,得到的局部最优解S

近似为最小熵分割集S
*
,目标函数表达式为:
[0028]S
*
=argmin
s
H(R|S)
ꢀꢀ
(6)
[0029]其中H(R|S)表示给定方案的似然。
[0030]作为优选,所述步骤(4)获取舆情事件主题特征,实现步骤如下:
[0031](4.1)根据步骤(3)得到的时间分片建立DTM动态主题模型,得到舆情事件的主题分布。
[0032](4.2)根据步骤(4.1)的舆情事件的主题分布得出主题因素向量其中分别代表主题名称,阅读次数,讨论数,原创数,评论数,点赞数,转发量。
[0033]作为优选,所述步骤(5)将引入图卷积网络GCN,结合舆情事件时序上的特征和社交网络的拓扑关系,得到舆情事件的表示向量:
[0034][0035]其中,σ(*)是一个激活函数,A是具有自连接的邻接矩阵,是A的度矩阵。W
l
是第l层卷积层的权重矩阵,y

l
是第l层节点的非线性组合输出。在第一层时,y

l
的初始值是融合外部因素的特征矩阵X

t

[0036]作为优选,所述步骤(5)中融合外部因素的特征矩阵X

t
具体为:将知识嵌入向量X
E
和t时刻的舆情事件热度特征X
t
,融合外部因素更新表示为X

t

[0037][0038]X
t

=[X
s
,X
d
][0039]其中,w
s
和w
d
是线性变换,b
d
和b
s
是偏置常数。e
s
和e
d
分别表示步骤(2.1)得到的用户因素和步骤(4.2)得到的话题因素。
[0040]作为优选,所述步骤(6)利用递归神经网络热度预测具体为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的微博事件热度预测方法,其特征在于,包括如下步骤:(1)对某一微博话题下的博文和用户数据进行爬取;(2)建立微博舆情网络知识图谱;(3)使用最小条件熵方法对话题进行时间分片;(4)获取舆情事件主题特征;(5)引入图卷积网络GCN;(6)利用递归神经网络热度进行预测。2.根据权利要求1所述的一种基于知识图谱的微博事件热度预测方法,其特征在于,步骤(1)具体包括:(1.1)对微博的HTTP请求通过抓包分析软件分析各参数的含义;(1.2)通过Python的爬虫框架对用户数据和微博内容进行爬取,将获取到的数据持久化存储起来。3.根据权利要求1所述的一种基于知识图谱的微博事件热度预测方法,其特征在于,步骤(2)具体包括:(2.1)根据微博数据集特征,通过知识抽取、知识融合、知识加工形成微博事件知识图谱;针对微博相关联的用户网络,根据中心度筛选用户集,构建用户社交网络知识图谱;得到用户的特征向量表示其中分别代表发布微博数,关注数,认证类型,用户节点度中心性,用户节点紧密中心性;(2.2)对微博事件知识图谱采用基于实体

属性

关系的知识表示,将与舆情事件、属性及其之间的关系以三元组的形式表示为CKG={F,F_att,att_att},其中,F={(f
i
,adj,f
j
),i,j∈{1,2,...,n}}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,F为表示微博事件f
i
与f
j
之间的邻接关系adj的关系三元组,n为事件总数;F_att={(f
i
,att
l
,att
l
_f
i
),i∈{1,2,...,n},l∈{1,2,...,L}}
ꢀꢀꢀꢀꢀꢀꢀ
(4)F_att表示微博用户和属性之间的对应关系;其中,将微博用户的属性分为转发量、点赞数、评论数和阅读数;att
l
代表第l类属性,att
l
_r
i
是相应的属性值的事件,L是属性值的数量;att_att代表属性之间的共现关系,其中代表不同的属性,p代表他们共现的概率;将实体、关系和属性的嵌入向量记为X
E
。4.根据权利要求1所述的一种基于知识图谱的微博事件热度预测方法,其特征在于,步骤(3)具体包括:为得到时间分片S...

【专利技术属性】
技术研发人员:赵小敏高栋亮
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1