一种基于主题演化的舆情事件发展预测方法技术

技术编号:38905522 阅读:9 留言:0更新日期:2023-09-22 14:24
本发明专利技术提供了一种基于主题演化的舆情事件发展预测方法,涉及自然语言处理舆情预测领域。该方法包括以下具体步骤:步骤1,进行舆情事件的数据采集与预处理,划分舆情事件初始发展阶段P',并提取关键词;步骤2,划分舆情事件主题演化阶段,根据相邻初始发展阶段的关键词的持续性与热度重构发展阶段P”,并更新关键词集合,对关键词进行聚类形成主题;步骤3,提取各阶段属性与主题属性,并构建主题关系图;步骤4,构建特征提取模型,捕捉阶段特征和主题依赖特征;步骤5,构建时序模型,进行舆情事件主题预测。通过基于主题演化的舆情事件发展预测方法,可以实现对突发网络舆情事件的预测,把握舆情事件的焦点舆论与发展方向。握舆情事件的焦点舆论与发展方向。握舆情事件的焦点舆论与发展方向。

【技术实现步骤摘要】
一种基于主题演化的舆情事件发展预测方法


[0001]本专利技术涉及自然语言处理舆情预测领域,具体为一种基于主题演化的舆情事件发展预测方法。

技术介绍

[0002]随着移动互联网技术和新兴社交媒体的发展,网民以微博、抖音、快手、微信等新兴社交平台为载体,通过视频、文本等方式进行互动发表对社会突发事件的观点、看法和态度,这些民意取向被称为网络舆情。由于这些社交平台在发布方式上具有简单快捷的特点,所以当发生社会突发事件后,网民往往未经过深思熟虑,便会在网上发表自己的见解,通过转发、评论等方式促使了舆情在社交平台上的迅速扩散,从而形成网络舆论,舆情事件主题的生成并不是偶然的,而是对应于现实事件或现象,或者说现实社会生活是热点主题诞生的社会背景,而这些主题切实关乎社会大众的切身利益。网络本身具有开放性与共享性,网民可自由选择是否参与或发表热点主题讨论,而不用确保言论的真实性,因此容易产生过激或不当言论,从而促使网络舆情主题偏离原来面貌,产生不良后果,网络舆情事件的主题演化模式主要包括六个阶段,包括潜伏期、爆发期、蔓延期、反复期、缓解期、长尾期。其中潜伏期主要为主题的产生,爆发期主要表现为受到主流媒体的关注呈现出主题关注度的增加,蔓延期表现为主题关注度持续增加,反复期表现为关注度再次增多,缓解期表现为主题关注度不断减少,长尾期表现为关注度降低到最低值,并在长时间内不再反复。
[0003]为了确保降低某些负面或不正当的网络舆情主题的负面影响,强化网络舆情事件主题预警的及时性和准确性,才能够引导网络舆情主题的演变方向,通过构建科学、合理的网络舆情事件主题预测机制,使得相关部门关注并把控舆情主题的发展情况,为采取应对策略预留更多时间,这对于降低网络舆情主题的不良影响具有重要的现实意义,随着大数据技术的发展与应用,可以对网络舆情事件的主题进行实时关注,借助语义解析、关键词分析等技术,识别舆情事件的主题,分析主题的演化方式,获得舆情事件发展规律的先验知识,并采用神经网络模型进行训练预测,有助于未来发现潜在的网络舆情主题。
[0004]本专利技术提供了一种基于主题演化的舆情事件发展预测方法,解决了传统的仅依赖舆情事件的转赞评等统计数据而忽略事件主题的缺陷。首先,由于社交网络平台存在刷帖、刷赞等行为,导致统计数据有不准确、差异大等特点,无法准确获知网络舆情事件的发展状态;其次,网络舆情事件拥有大量文本数据,现有方法没有充分挖掘文本信息进行应用;最后,传统主题预测方法依赖于已知的主题信息而忽略了在事件的发展过程中主题的演变,无法得知驱使舆情事件发展的具体内容,没有充分对导致舆情事件发展的主题进行深刻的挖掘。

技术实现思路

[0005]针对现有技术的不足,本专利技术提供了一种基于主题演化的舆情事件发展预测方法,解决了上述的问题。
[0006]为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于主题演化的舆情事件发展预测方法,包括以下具体步骤:
[0007]步骤1,进行舆情事件的数据采集,并以15分钟为时间单位划分舆情事件初始发展阶段P',并提取每个初始发展阶段的关键词;
[0008]步骤2,划分舆情事件主题演化阶段,根据相邻初始发展阶段的关键词的持续性与热度重构发展阶段P”,并更新关键词集合,将新的发展阶段下的关键词进行聚类形成主题集合;
[0009]步骤3,提取阶段属性与主题属性,并根据主题的共现关系构建主题关系图;
[0010]步骤4,构建特征提取模型,提取阶段特征与主题依赖特征;
[0011]步骤5,构建时序模型,进行舆情事件主题预测,以阶段特征与主题依赖特征作为输入,预测下一阶段的主题。
[0012]优选的,所述步骤1中舆情事件为网络突发事件,以15分钟为时间单位划分舆情事件数据的初始发展阶段P'={p'1,p'2,

,p'
n
},n为阶段数量,此时间单位为经验值,此方法能够根据主题的特征合理划分主题的演化阶段,分析舆情事件的发展机理,并能够根据舆情事件的历史发展阶段预测下一个发展阶段的主题数量,从而预测舆情事件的发展趋势,有助于相关部门及时了解网络舆情发展动向与媒体和网民的心声,对于舆情引导和处理管理提供辅助决策。
[0013]优选的,所述步骤2包括:
[0014]步骤21,运用关键词提取技术提取每个初始发展阶段P'下文本的关键词,得到初始发展阶段的关键词集合Keywords'={keywords'1,keywords'2,

,keywords

i
,

,keywords

n
},n为阶段数,也为初始阶段下关键词集合数量,,},n为阶段数,也为初始阶段下关键词集合数量,,为第i个初始发展阶段的关键词集合,kw为关键词,为第i个发展阶段下关键词数量;
[0015]步骤22,比较相邻的初始发展阶段p

i
∈P

和p

i+1
∈P

的关键词的持续性与热度,若相邻初始发展阶段具有相似性,则将两个初始阶段进行合并,重构新的发展阶段P”={p
″1,p
″2,

,p”m
},m为重构发展阶段后阶段数量,并更新关键词集合Keywords”={keywords
″1,keywords
″2,

,keywords

τ
,

,keywords

m
},keywords

τ
∈Keywords

,keywords

τ
={kw
″1,kw
″2,

,kw

ρ
},,以下所述发展阶段都为新的发展阶段P”;
[0016]步骤23,使用编辑距离聚类算法将每个发展阶段下的关键词集合Keywords”进行关键词聚类,形成主题集合Topics={Topics1,Topics2,

,Topics
p
,

,Topics
m
},Topics
p
={t1,t2,

,t
v
},v是第p个发展阶段的主题数。
[0017]优选的,所述步骤3包括:
[0018]步骤31,提取每个发展阶段下的阶段属性,包括文本数量,主题数量,发布人数,具有影响力人数,持续时间;
[0019]步骤32,提取每个发展阶段下的主题属性,包括主题频数,发布人数,具有影响力人数,主题情感,主题新颖性,主题受欢迎度;
[0020]步骤33,在同一个发展阶段下,根据主题的共现关系构建主题关系图,主题的共现来源于所构成主题的关键词间的共现关系,并且所构成的主题的关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于主题演化的舆情事件发展预测方法,其特征在于:包括以下具体步骤:步骤1,进行舆情事件的数据采集,并以15分钟为时间单位划分舆情事件初始发展阶段P

,并提取每个初始发展阶段的关键词;步骤2,划分舆情事件主题演化阶段,根据相邻初始发展阶段的关键词的持续性与热度重构发展阶段P

,并更新关键词集合,将新的发展阶段下的关键词进行聚类形成主题集合;步骤3,提取阶段属性与主题属性,并根据主题的共现关系构建主题关系图;步骤4,构建特征提取模型,提取阶段特征与主题依赖特征;步骤5,构建时序模型,进行舆情事件主题预测,以阶段特征与主题依赖特征作为输入,预测下一阶段的主题。2.根据权利要求1所述的基于主题演化的舆情事件发展预测方法,其特征在于:所述步骤1中舆情事件为网络突发事件,以15分钟为时间单位划分舆情事件数据的初始发展阶段P

={p
′1,p
′2,...,p

n
},n为阶段数量,此时间单位为经验值。3.根据权利要求1所述的基于主题演化的舆情事件发展预测方法,其特征在于:所述步骤2包括:步骤21,使用关键词提取技术提取每个初始发展阶段P

下文本的关键词,得到初始发展阶段的关键词集合Keywords

={keywords
′1,keywords
′2,...,keywords

i
,...,keywords

n
},n为阶段数,也为初始阶段下关键词集合数量,keywords

i
∈Keywords

为第i个初始发展阶段的关键词集合,kw为关键词,为第i个发展阶段下关键词数重;步骤22,比较相邻的初始发展阶段p

i
∈P

和p

i+1
∈P

的关键词的持续性与热度,若相邻初始发展阶段具有相似性,则将两个初始阶段进行合并,重构新的发展阶段P

={p
″1,p
″2,...,p

m
},m为重构发展阶段后阶段数量,并更新关键词集合Keywords

={...

【专利技术属性】
技术研发人员:张学勤王茜王先俊孔明明刘书伶田显俊汪小林章超
申请(专利权)人:四川警察学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1