当前位置: 首页 > 专利查询>三江学院专利>正文

一种基于微博数据的网络舆情预测方法技术

技术编号:31311237 阅读:22 留言:0更新日期:2021-12-12 21:43
本发明专利技术涉及数据分析及预测领域,尤其涉及一种基于微博数据的网络舆情预测方法,其特征在于:构建预测模型:预测模型为包括两个隐含层的长短期记忆神经网络模型,第一隐含层为单向长短期记忆神经网络单元,第二隐含层为双向长短期记忆神经网络单元;训练预测模型:根据预测模型计算时间序列中的一个时刻,将当前输入和前一时刻输出传入预测模型得到当前输出作为预测值;根据预测值和真实值计算误差,通过优化器反向传播求解,更新模型参数直至收敛;基于微博数据计算微博热度总分值,将百度指数、微博热度总分值、时间偏移量和上一时刻第一隐含层的输出作为模型输入量输入至训练好的预测模型进行网络舆情预测。本发明专利技术预测准确度高。确度高。确度高。

【技术实现步骤摘要】
一种基于微博数据的网络舆情预测方法


[0001]本专利技术涉及数据分析及预测领域,尤其涉及一种基于微博数据的网络舆情预测方法。

技术介绍

[0002]当前互联网已成为公众获取信息、表达观点的重要平台,网络起着反映社情民意和引导舆论的作用,但也带来社会舆情事件易发生的风险。有效的舆情预测方法对预估网络舆情发展趋势,化解潜在的舆情危机,营造良好的网络生态环境,具有必要的现实意义。通过对网络舆情走势的提前预测,能够准确判断热点事件的发展态势,为政府相关部门应对舆情危机提供参考。
[0003]受众多外界因素影响,网络舆情发展趋势具有明显的模糊性和不确定性,人工神经网络具有很强的非线性拟合能力,适合于解决复杂非线性的时序数据分析问题。在互联网快速发展的今天,自媒体、移动社交平台等新兴表现形式的兴起,导致人们产生信息和获取信息的方式和规模发生了巨大变化,实时的互联网数据(微博、贴吧、微指数)成为提高预测精度的积极补充。

技术实现思路

[0004]本专利技术的目的是为了提供一种基于微博数据的网络舆情预测方法,预测准确度高。
[0005]为解决以上技术问题,本专利技术的技术方案为:一种基于微博数据的网络舆情预测方法,包括:
[0006]步骤1:构建预测模型:定义预测模型网络结构,预测模型为包括两个隐含层的长短期记忆神经网络模型,第一隐含层为单向长短期记忆神经网络单元,第二隐含层为双向长短期记忆神经网络单元;预测模型的输入为第一隐含层的输入,预测模型的输出为第二隐含层的输出;第一隐含层的输入为百度指数、微博热度总分值、时间偏移量、上一时刻第一隐含层的输出;第二隐含层的输入为同一时刻上一隐含层的输出和同一隐含层上一时刻的输出;
[0007]步骤2:训练预测模型:
[0008]步骤2.1:根据预测模型计算时间序列中的一个时刻,将当前输入和前一时刻输出传入预测模型得到当前输出作为预测值;
[0009]步骤2.2:根据预测值和真实值计算误差,通过优化器反向传播求解,更新模型参数;
[0010]步骤2.3:重复上述步骤2.1和步骤2.2直至收敛;
[0011]步骤3:基于微博数据计算微博热度总分值,将百度指数、微博热度总分值、时间偏移量和上一时刻第一隐含层的输出作为模型输入量输入至训练好的预测模型进行网络舆情预测。
[0012]按以上方案,微博热度总分值的计算方法为:
[0013]对网络舆情事件的微博数据进行分析,根据网络舆情事件的关键词采集微博热点,对p个关键词匹配的微博进行热点分析,计算微博热度分值,微博热度分值由转发数、评论数、点赞数的权重累加得到:
[0014]HotScore
i
=α*转发数+β*评论数+γ*点赞数
[0015]其中,HotScore
i
表示第i个关键词的微博热度分值,α表示第i个关键词转发数的权重,β表示第i个关键词评论数的权重,γ表示第i个关键词点赞数的权重;
[0016]将p个关键词的热度分值排序,取前q个累加,得到微博热度总分值HotScore;
[0017][0018]其中,q﹤p。
[0019]按以上方案,第一隐含层的计算方法为:
[0020][0021]其中,表示第一隐含层t时刻的输出,W1表示第一隐含层的权重向量,BaiduIndex
t
表示t时刻的百度指数,BaiduIndex来源于百度网站,HotScore
t
表示t时刻微博热度总分值,ΔT表示时间偏移量,时间偏移量指的是被预测日与舆情事件第一天之间的时间间隔;σ表示激活函数,为Sigmoid函数。
[0022]按以上方案,第二隐含层的计算方法为:
[0023][0024]其中,表示第二隐含层t时刻的输出,W2表示第二隐含层的权重矩阵,表示第二隐含层t

1时刻的输出,表示t时刻第一隐含层到第二隐含层的输入向量。
[0025]按以上方案,训练过程中,预测模型的误差指标为损失函数:
[0026]损失函数是预测误差平方和与模型权值参数的平方和之和,具体公式如下:
[0027][0028]其中,n为样本个数,h(x
i
)表示输入样本x
i
时模型的预测输出,y
i
为样本x
i
的真实值,m为模型权重个数,表示第j个权重的平方,α表示学习率,α取0.1。
[0029]按以上方案,步骤1中,定义预测模型网络结构时,设置每一层网络节点的舍弃率为0.2,设置优化器为自适应矩估计Adam。
[0030]本专利技术具有如下有益效果:
[0031]本专利技术考虑到舆情数据量不多的特点,设计的预测模型由单向长短期记忆神经网络单元和双向长短期记忆神经网络单元两个隐含层组成,在保留长短期记忆神经网络特性的同时,降低由于训练样本较少而产生过拟合的风险,同时使用社交媒体信息即微博数据作为模型计算的输入之一,从预测模型和数据扩充两方面进行改进,提出的基于微博数据的网络舆情预测方法结合实时性的微博数据和权威性的百度指数进行网络舆情发展趋势预测,有效提高了预测精度。
附图说明
[0032]图1为本专利技术预测模型的网络结构示意图;
[0033]图2为本专利技术实施例中长短期记忆神经网络的单元结构示意图。
具体实施方式
[0034]为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本专利技术作进一步详细说明。
[0035]请参考图1和图2,本专利技术提供一种基于微博数据的网络舆情预测方法,其包括:
[0036]步骤1:构建预测模型:定义预测模型网络结构,设置每一层网络节点的舍弃率为0.2,设置优化器为自适应矩估计Adam;
[0037]在传统长短期记忆神经网络(LSTM:Long Short

Term Memory)的基础上,构建包含两个隐含层的长短期记忆神经网络模型作为预测模型,第一隐含层为单向长短期记忆神经网络单元,第二隐含层为双向长短期记忆神经网络单元;预测模型的输入为第一隐含层的输入,预测模型的输出为第二隐含层的输出;第一隐含层的输入为百度指数、微博热度总分值、时间偏移量、上一时刻第一隐含层的输出;第二隐含层的输入为同一时刻上一隐含层的输出和同一隐含层上一时刻的输出;
[0038]微博热度总分值的计算方法为:
[0039]首先对网络舆情事件的微博数据进行分析,根据网络舆情事件的关键词采集微博热点,对p个关键词匹配的微博进行热点分析,计算微博热度分值,微博热度分值由转发数、评论数、点赞数的权重累加得到:
[0040]HotScore
i
=α*转发数+β*评论数+γ*点赞数
ꢀꢀꢀꢀꢀꢀꢀ
(1)
[0041]其中,HotScore
i
表示第i个关键词的微博热度分值,α表示第i个关键词转发数的权重,β表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于微博数据的网络舆情预测方法,其特征在于:包括步骤1:构建预测模型:定义预测模型网络结构,预测模型为包括两个隐含层的长短期记忆神经网络模型,第一隐含层为单向长短期记忆神经网络单元,第二隐含层为双向长短期记忆神经网络单元;预测模型的输入为第一隐含层的输入,预测模型的输出为第二隐含层的输出;第一隐含层的输入为百度指数、微博热度总分值、时间偏移量、上一时刻第一隐含层的输出;第二隐含层的输入为同一时刻上一隐含层的输出和同一隐含层上一时刻的输出;步骤2:训练预测模型:步骤2.1:根据预测模型计算时间序列中的一个时刻,将当前输入和前一时刻输出传入预测模型得到当前输出作为预测值;步骤2.2:根据预测值和真实值计算误差,通过优化器反向传播求解,更新模型参数;步骤2.3:重复上述步骤2.1和步骤2.2直至收敛;步骤3:基于微博数据计算微博热度总分值,将百度指数、微博热度总分值、时间偏移量和上一时刻第一隐含层的输出作为模型输入量输入至训练好的预测模型进行网络舆情预测。2.根据权利要求1所述的基于微博数据的网络舆情预测方法,其特征在于:微博热度总分值的计算方法为:对网络舆情事件的微博数据进行分析,根据网络舆情事件的关键词采集微博热点,对p个关键词匹配的微博进行热点分析,计算微博热度分值,微博热度分值由转发数、评论数、点赞数的权重累加得到:HotScore
i
=α*转发数+β*评论数+γ*点赞数其中,HotScore
i
表示第i个关键词的微博热度分值,α表示第i个关键词转发数的权重,β表示第i个关键词评论数的权重,γ表示第i个关键词点赞数的权重;将p个关键词的热度分值排序,取前...

【专利技术属性】
技术研发人员:刘定一应毅李晓明顾问
申请(专利权)人:三江学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1