一种基于话题关联的话题传播预测方法技术

技术编号:36690842 阅读:19 留言:0更新日期:2023-02-27 19:58
本发明专利技术属于网络舆情分析领域,具体涉及一种基于话题关联的话题传播预测方法;包括:获取话题信息,提取话题信息的内部属性和外部属性;采用DTR2vec算法从用户话题内容集合中挑选出用户兴趣特征关键词和用户认知特征关键词,对挑选出的关键词进行向量表示,得到用户历史行为特征向量;根据所有内部属性以及部分外部属性,采用演化博弈论量化话题对用户的影响力,得到话题影响力邻接矩阵;根据话题影响力邻接矩阵提取网络结构特征,得到用户的网络结构特征向量;将用户历史行为特征向量和用户的网络结构特征向量输入到DT

【技术实现步骤摘要】
一种基于话题关联的话题传播预测方法


[0001]本专利技术属于网络舆情分析领域,具体涉及一种基于话题关联的话题传播预测方法。

技术介绍

[0002]一般来说,话题是指一定时间、一定范围内,公众最为关心的热点问题。各种多样化的话题在社交网络中广泛传播,承载了网络用户的大量言论与信息行为。这些话题数据反映了用户兴趣、行为和社交关系,利用这些数据进行研究可以有效进行信息推荐。但与此同时,在现实世界中,话题所包含的信息真假参杂,当话题在社会群体中大量传播时,会对人们的认知以及社会的稳定造成一系列的影响。
[0003]伴随互联网的发展,话题传播的方式发生了巨大的变化。一方面,微博、微信、论坛等蓬勃发展的社交平台为话题的传播提供了跨越时空、地区且覆盖全民的信息交流渠道。另一方面,互联网用户下沉使得网络群体的构成更加多样化,信息的流动和传播更加扁平,话题的发展和衍生更加复杂。这也就意味着较传统的信息传播方式而言,现如今话题传播速度更快,影响更广,形式更复杂。因此,对于话题传播传播态势的研究,能够更好的了解信息传播特性,同时对于预防突发事件和舆情管控都具备重要意义。
[0004]近年来,学者们从多个维度对社交网络中话题的传播态势进行了一系列的研究并取得显著效果;随着网络社交平台数据量的不断增长和深度学习技术的成熟,基于神经网络、深度学习模型对话题传播进行预测备受青睐。然而,对于话题传播依然存在很多挑战,比如:1.衍生话题特征空间的关联性、复杂性。衍生话题由原生话题演化而来,与单一话题相比,衍生话题和原生话题之间的特征相互交织,不断进行信息动态交换,这对如何有效的提取话题特征来说是一个挑战;2.用户在原生

衍生话题传播过程中的复杂联系。在话题传播过程中,原生话题与衍生话题相互博弈,如何量化原生话题和衍生话题的用户影响力,挖掘用户之间的隐藏关系是急需解决的问题;3.衍生话题动态演化的阶段性、时效性。衍生话题的演化趋势随时间动态变化的同时受到原生话题的影响,话题状态交替演进,如何动态化分析衍生话题传播态势是目前研究面临的困难。
[0005]因此,本专利技术提出了一种基于话题关联的信息传播预测方法,引入衍生话题,不仅可以有效预测话题的传播态势,还可以更真实的反映原生话题和衍生话题在传播过程中的关联和博弈关系。

技术实现思路

[0006]针对现有技术存在的不足,本专利技术提出了一种基于话题关联的话题传播预测方法,该方法包括:获取话题信并对话题信息进行预处理;将预处理后的话题信息输入到基于话题关联的话题传播预测模型中,预测用户对话题的传播趋向;根据用户对话题的传播趋向对话题传播趋势进行控制;
[0007]基于话题关联的话题传播预测模型对预处理后的话题信息进行处理的过程包括:
[0008]S1:提取话题信息的内部属性和外部属性;内部属性包括用户活跃度、用户话题感知率和用户历史转发率,外部属性包括用户好友带动力、话题热度和用户话题内容集合;
[0009]S2:从用户话题内容集合中挑选出用户兴趣特征关键词和用户认知特征关键词,对挑选出的关键词进行向量表示,得到用户历史行为特征向量;
[0010]S3:根据所有内部属性以及外部属性中的用户好友带动力、话题热度,采用演化博弈论量化话题对用户的影响力,得到话题影响力邻接矩阵;
[0011]S4:根据话题影响力邻接矩阵提取网络结构特征,得到用户的网络结构特征向量;
[0012]S5:将用户历史行为特征向量和用户的网络结构特征向量输入到DT

GCN模型中,得到用户话题传播预测结果,包括用户是否参与话题传播以及用户参与话题类型。
[0013]优选的,采用DTR2vec算法从用户话题内容集合中挑选出用户兴趣特征关键词和用户认知特征关键词的过程包括:
[0014]S21:用户话题内容集合包括原生话题内容集合、衍生话题内容集合和用户社交内容集合;分别将三种内容集合输入到LDA主题识别模型中,得到原生话题关键词集合key
pre
,衍生话题主题关键词集合key
deri
和用户内容关键词集合key
user

[0015]S22:计算原生话题关键词集合key
pre
和衍生话题主题关键词集合key
deri
的关联度;计算原生话题内容集合和衍生话题内容集合的相似度,将关联度大于相似度的两个关键词放入话题关联特征词集合key
com

[0016]S23:根据原生话题关键词集合key
pre
、衍生话题主题关键词集合key
deri
和话题关联特征词集合key
com
计算用户内容关键词集合key
user
的兴趣权重和认知权重;
[0017]S24:分别根据兴趣权重和认知权重从用户内容关键词集合key
user
中选取Top

k个关键词作为用户兴趣特征关键词和用户认知特征关键词。
[0018]进一步的,计算原生话题内容集合和衍生话题内容集合的相似度采用BM25算法,公式为:
[0019][0020]其中,Score(Q,d)表示原生话题内容集合和衍生话题内容集合的相似度得分,Q表示原生话题内容集合,d表示衍生话题内容集合,W
i
表示词权重,q
i
表示集合Q中的第i个词,n表示原生话题内容集合Q中的词总数量,R(q
i
,d)表示集合Q中第i个词q
i
和集合d的相关程度。
[0021]进一步的,计算用户内容关键词集合key
user
的兴趣权重和认知权重的公式为:
[0022][0023][0024]其中,w
i

inter
表示用户内容关键词集合中第i个词的兴趣权重,w
i

cong
表示用户内容关键词集合中第i个词的认知权重,sim(key
i,u
,key
deri
)表示第i个候选关键词与衍生话
题主题关键词集合key
deri
之间的相似度,sim(key
i,u
,key
com
)表示示第i个候选关键词与话题关联特征词集合key
com
之间的相似度,N表示用户内容关键词集合中词的总个数,sim(key
i,u
,key
pre
)表示第i个候选关键词与原生话题关键词集合key
pre
之间的相似度,t表示当前时刻,t

表示初始话题产生时刻,w表示正则化因子。
[0025]优选的,采用演化博弈论量化话题对用户的影响力的过程包括:
[0026]S31:根据内部属性计算内部影响力,根据用户好友带动力和话题热度计算外部影响力;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于话题关联的话题传播预测方法,其特征在于,包括:获取话题信息并对话题信息进行预处理;将预处理后的话题信息输入到基于话题关联的话题传播预测模型中,预测用户对话题的传播趋向;根据用户对话题的传播趋向对话题传播趋势进行控制;基于话题关联的话题传播预测模型对预处理后的话题信息进行处理的过程包括:S1:提取话题信息的内部属性和外部属性;内部属性包括用户活跃度、用户话题感知率和用户历史转发率,外部属性包括用户好友带动力、话题热度和用户话题内容集合;S2:采用DTR2vec算法从用户话题内容集合中挑选出用户兴趣特征关键词和用户认知特征关键词,对挑选出的关键词进行向量表示,得到用户历史行为特征向量;S3:根据所有内部属性以及外部属性中的用户好友带动力、话题热度,采用演化博弈论量化话题对用户的影响力,得到话题影响力邻接矩阵;S4:根据话题影响力邻接矩阵提取网络结构特征,得到用户的网络结构特征向量;S5:将用户历史行为特征向量和用户的网络结构特征向量输入到DT

GCN模型中,得到用户话题传播预测结果,包括用户是否参与话题传播以及用户参与话题类型。2.根据权利要求1所述的一种基于话题关联的话题传播预测方法,其特征在于,采用DTR2vec算法从用户话题内容集合中挑选出用户兴趣特征关键词和用户认知特征关键词的过程包括:S21:用户话题内容集合包括原生话题内容集合、衍生话题内容集合和用户社交内容集合;分别将三种内容集合输入到LDA主题识别模型中,得到原生话题关键词集合key
pre
,衍生话题主题关键词集合key
deri
和用户内容关键词集合key
user
;S22:计算原生话题关键词集合key
pre
和衍生话题主题关键词集合key
deri
的关联度;计算原生话题内容集合和衍生话题内容集合的相似度,将关联度大于相似度的两个关键词放入话题关联特征词集合key
com
;S23:根据原生话题关键词集合key
pre
、衍生话题主题关键词集合key
deri
和话题关联特征词集合key
com
计算用户内容关键词集合key
user
的兴趣权重和认知权重;S24:分别根据兴趣权重和认知权重从用户内容关键词集合key
user
中选取Top

k个关键词作为用户兴趣特征关键词和用户认知特征关键词。3.根据权利要求2所述的一种基于话题关联的话题传播预测方法,其特征在于,计算原生话题内容集合和衍生话题内容集合的相似度采用BM25算法,公式为:其中,Score(Q,d)表示原生话题内容集合和衍生话题内容集合的相似度得分,Q表示原生话题内容集合,d表示衍生话题内容集合,W
i
表示词权重,q
i
表示集合Q中的第i个词,n表示原生话题内容集合Q中的词总数量,R(q
i
,d)表示集合Q中第i个词q
i
和集合d的相关程度。4.根据权利要求2所述的一种基于话题关联的话题传播预测方法,其特征在于,计算用户内容关键词集合key
user
的兴趣权重和认知权重的公式为:
其中,w
i,inter
表示用户内容关键词集合中第i个词的兴趣权重,w
i,cong
表示用户内容关键词集合中第i个词的认知权重,sim(key
i,u
,key
deri
)表示第i个候选关键词与衍生话题主题关键词集合key
deri
之间的相似度,sim(key
i,u
,key
com
)表示示第i个候选关键词与话题关联特征词集合key
com
之间的相似度,N表示用户内容关键词集合中词的总个数,sim(key
i,u
,key
pre
)表示第i个候选关键词与原生话题关键词集合key
pre
之间的相似度,t表示当前时刻,t

表示初始话题产生时刻,w表示正则化因子。5.根据权利要求1所述的一种基于话题关联的话题传播预测方法,其特征在于,采用演化博弈论量化话题对用户的影响力的过程包括:S31:根据内部属性计...

【专利技术属性】
技术研发人员:余翔周心明庞育才段思睿王蓉肖云鹏李暾
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1