当前位置: 首页 > 专利查询>清华大学专利>正文

基于微博文本的地铁突发事件网络舆情分析方法及装置制造方法及图纸

技术编号:37815198 阅读:8 留言:0更新日期:2023-06-09 09:45
本申请提出了一种基于微博文本的地铁突发事件网络舆情分析方法及装置,涉及应急管理领域,包括:制定网络舆情采集规则,并根据网络舆情采集规则确定地铁突发事件中网络舆情信息的目标网络舆情数据,其中,网络舆情采集规则包括采集时间规则、采集关键词规则与采集字段规则;对目标网络舆情数据进行预处理,提取目标网络舆情数据内文本的特征向量;对经过预处理后的目标网络舆情数据分别进行时间序列分析、空间分析、情感分析以及话题与民生分析,并对各分析数据进行统计,获取统计数据;根据统计数据,制定最佳应急救助方案。本申请从时间、空间、情感和话题方面对地铁突发事件进行分析,为地铁系统安全运营、舆情分析和舆论引导提供支持。导提供支持。导提供支持。

【技术实现步骤摘要】
基于微博文本的地铁突发事件网络舆情分析方法及装置


[0001]本申请涉及应急管理领域,尤其涉及一种基于微博文本的地铁突发事件网络舆情分析方法及装置。

技术介绍

[0002]随着社会的不断发展与进步,地铁成为人们出行的重要手段。各种突发事件与突发大客流相互耦合会对地铁系统的安全运营带来巨大风险。如何在面临地铁突发事故时,及时有效地掌握民众的情感倾向与需求成为当前地铁应急管理的重点和难点。同时,随着互联网技术的普及,越来越多的民众更愿意将其想法和需求发布于社交媒体平台上。因此,网络舆情分析给地铁应急管理带来了全新的途径和挑战。
[0003]目前应急管理领域的网络舆情分析主要集中于灾害本身,在地铁的应急管理中,网络舆情分析和民众舆论引导的经验存在不足,仍然具有较大的改进空间。

技术实现思路

[0004]针对上述问题,提出了一种基于微博文本的地铁突发事件网络舆情分析方法及装置,通过网络爬虫技术,规定地铁突发事件网络舆情的爬取关键词,识别网络舆情信息中的发布时间、发布地点和文本内容等关键信息,并从时间、空间、情感和热点话题对地铁突发事件网络舆情进行分析,得到民众在各时间段最需要的应急救助,从而帮助地铁应急管理部门及时采取应急措施,保障民众的衣食住行需求,为地铁系统安全运营、舆情分析和舆论引导提供支持。
[0005]本申请第一方面提出一种基于微博文本的地铁突发事件网络舆情分析方法,包括:
[0006]制定网络舆情采集规则,并根据所述网络舆情采集规则确定地铁突发事件中网络舆情信息的目标网络舆情数据,其中,所述网络舆情采集规则包括采集时间规则、采集关键词规则与采集字段规则;
[0007]对所述目标网络舆情数据进行预处理,提取所述目标网络舆情数据内文本的特征向量;
[0008]对经过预处理后的所述目标网络舆情数据分别进行时间序列分析、空间分析、情感分析以及话题与民生分析,并对各分析数据进行统计,获取统计数据;
[0009]根据所述统计数据,制定最佳应急救助方案。
[0010]可选的,所述采集时间规则,包括:
[0011]确定所述地铁突发事件的分析需求;
[0012]若所述分析需求为对历史突发事件进行分析,选取所述历史突发事件发生前一周至所述历史突发事件结束后一周为采集时间范围;
[0013]若所述分析需求为实时监测,对所述网络舆情信息进行实时采集,采集方式为每Δt分钟采集一次,一次采集前Δt分钟的所述网络舆情信息。
[0014]可选的,所述采集关键词规则,包括:
[0015]确定所述网络舆情信息文本的必须包含词汇与任意包含词汇的数量,其中,所述必须包含词汇的数量大于0,所述任意包含词汇的数量不做限定。
[0016]可选的,所述采集字段规则,包括:
[0017]根据社交平台的规则,提取所述地铁突发事件中网络舆情信息的目标字段,其中,所述目标字段包括发文者昵称、发文者认证信息、发文时间、发文内容、转发数、评论数与点赞数。
[0018]可选的,所述对所述目标网络舆情数据进行预处理,提取所述目标网络舆情数据内文本的特征向量,包括:
[0019]对所述目标网络舆情数据进行中文分词处理,确定词汇列表;
[0020]遍历所述词汇列表中的每一个词汇,若某词汇的文本长度小于2或某词汇位于停用词列表中,则剔除该词汇;
[0021]计算经剔除处理后剩余词汇的TF

IDF权重,其中,对任意词汇的TF

IDF权重的步骤如下:
[0022][0023]其中,n为该词汇在该条舆情文本中的出现次数,N为所述舆情文本中剔除停用词后的剩余词语个数,M为所述舆情文本的条数,m为包含该词汇的舆情文本条数;
[0024]根据所述TF

IDF权重与所述剩余词汇构建特征权重,公式化为:
[0025]Y
i
={w1:TF_IDF(w1),w2:TF_IDF(w2),

,w
m
:TF_IDF(w
m
)};
[0026]对于一条目标网络舆情数据,对经剔除处理后剩余的词汇按照所述TF

IDF权重从大到小进行排序,保留前Vim位的词汇与TF

IDF权重,完成所述特征向量的降维处理。
[0027]可选的,所述对经过预处理后的所述目标网络舆情数据进行时间序列分析,包括:
[0028]根据经过预处理后的所述目标网络舆情数据,确定各时间段的网络舆情数量,并绘制时间

数量变化曲线;
[0029]通过分析所述时间

数量变化曲线,确定网络舆情爆发的可能性。
[0030]可选的,所述对经过预处理后的所述目标网络舆情数据进行空间分析,包括:
[0031]获取经过预处理后的所述目标网络舆情数据的地理位置信息,其中,所述地理位置信息包括地铁线路信息、地铁车站信息与地铁区间段信息;
[0032]结合经过预处理后的所述目标网络舆情数据的文本内容,对所述地理位置信息进行识别,确定求救信息与避难信息;
[0033]统计所述地理位置信息中的所述求救信息与所述避难信息的数量,并通过热力图的方式将信息数量与位置绘制在地铁线网地图上。
[0034]可选的,所述对经过预处理后的所述目标网络舆情数据进行情感分析,包括:
[0035]根据朴素贝叶斯算法计算目标网络舆情数据情感值;
[0036]根据预设规则对所述目标网络舆情数据情感值进行划分,确定情感倾向,其中,所述情感倾向包括负面情绪、中立情绪与正面情绪;
[0037]根据预设时间间隔划分经过预处理后的所述目标网络舆情数据,并计算划分后各时间组的情感倾向,其中,若某一时间组的情感倾向为负面情绪或某一时间组的情感值与
上一时间组点情感值差值不小于预设值,则地铁舆情管理部门发布官方微博;
[0038]根据所述地理位置信息确定所述目标网络舆情数据的情感值,其中,若车站或区间段得所述情感值低于预设值,分析所述车站或所述区间段的情感值原因,并对所述车站或所述区间段采取应急救援措施。
[0039]可选的,所述对经过预处理后的所述目标网络舆情数据进行话题与民生分析,包括:
[0040]根据公共安全三角形理论模型,将话题划分为灾害环境、灾害影响、应急管理、承灾载体、正面评价和负面评价,将民生划分为衣、食、住和行;
[0041]根据所述特征向量,将经过预处理后的所述目标网络舆情数据划分至对应的话题分类与民生分类;
[0042]统计各时间段内每个所述话题分类与民生分类的舆情数量,并绘制时间

数量变化曲线;
[0043]根据所述绘制时间

数量变化曲线,获取各时段民众关注重点与需求内容。
[0044]本申请第二方面提出一种基于微博文本的地铁突发事件网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于微博文本的地铁突发事件网络舆情分析方法,其特征在于,包括:制定网络舆情采集规则,并根据所述网络舆情采集规则确定地铁突发事件中网络舆情信息的目标网络舆情数据,其中,所述网络舆情采集规则包括采集时间规则、采集关键词规则与采集字段规则;对所述目标网络舆情数据进行预处理,提取所述目标网络舆情数据内文本的特征向量;对经过预处理后的所述目标网络舆情数据分别进行时间序列分析、空间分析、情感分析以及话题与民生分析,并对各分析数据进行统计,获取统计数据;根据所述统计数据,制定最佳应急救助方案。2.根据权利要求1所述的方法,其特征在于,所述采集时间规则,包括:确定所述地铁突发事件的分析需求;若所述分析需求为对历史突发事件进行分析,选取所述历史突发事件发生前一周至所述历史突发事件结束后一周为采集时间范围;若所述分析需求为实时监测,对所述网络舆情信息进行实时采集,采集方式为每Δt分钟采集一次,一次采集前Δt分钟的所述网络舆情信息。3.根据权利要求1所述的方法,其特征在于,所述采集关键词规则,包括:确定所述网络舆情信息文本的必须包含词汇与任意包含词汇的数量,其中,所述必须包含词汇的数量大于0,所述任意包含词汇的数量不做限定。4.根据权利要求1所述的方法,其特征在于,所述采集字段规则,包括:根据社交平台的规则,提取所述地铁突发事件中网络舆情信息的目标字段,其中,所述目标字段包括发文者昵称、发文者认证信息、发文时间、发文内容、转发数、评论数与点赞数。5.根据权利要求1所述的方法,其特征在于,所述对所述目标网络舆情数据进行预处理,提取所述目标网络舆情数据内文本的特征向量,包括:对所述目标网络舆情数据进行中文分词处理,确定词汇列表;遍历所述词汇列表中的每一个词汇,若某词汇的文本长度小于2或某词汇位于停用词列表中,则剔除该词汇;计算经剔除处理后剩余词汇的TF

IDF权重,其中,对任意词汇的TF

IDF权重的步骤如下:其中,n为该词汇在该条舆情文本中的出现次数,N为所述舆情文本中剔除停用词后的剩余词语个数,M为所述舆情文本的条数,m为包含该词汇的舆情文本条数;根据所述TF

IDF权重与所述剩余词汇构建特征权重,公式化为:Y
i
={w1:TF_IDF(w1),w2:TF_IDF(w2),

,w
m
:TF_IDF(w
m
)};对于一条目标网络舆情数据,对经剔除处理后剩余的词汇按照所述TF

IDF权重从大到小进行排序,保留前Vim位的词汇与TF

IDF权重,完成所述特征向量的降维处理。6.根据权利要求1所述的方法,其特征在于,所述对经过预处理后的所述目标网络舆情数据进行时间序列分析,包...

【专利技术属性】
技术研发人员:周义棋钟茂华陈俊沣
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1