一种实时舆情预警方法及装置制造方法及图纸

技术编号:37587568 阅读:18 留言:0更新日期:2023-05-18 11:03
本发明专利技术涉及大数据领域,具体提供了一种实时舆情预警方法及装置,具有如下步骤:S1、网络数据实时采集;S2、数据清洗与结构化处理;S3、预警模型分析。与现有技术相比,本发明专利技术可以实时采集主流社交媒体的舆论信息,进行数据转化后通过预警模型进行热度分析预警。相比于传统的舆情感知方法,该方法具备高实时性、高可靠性,解放人力、提高舆论甄别的覆盖面,提高舆论识别的准确性。识别的准确性。识别的准确性。

【技术实现步骤摘要】
一种实时舆情预警方法及装置


[0001]本专利技术涉及大数据领域,具体提供一种实时舆情预警方法及装置。

技术介绍

[0002][0003]如何利用大数据采集、清洗、建模技术,自动对时事热点进行分析预警,用以解决互联网舆情实时监控、预警的问题是本领域技术人员亟待解决的问题。

技术实现思路

[0004]本专利技术是针对上述现有技术的不足,提供一种实用性强的实时舆情预警方法。
[0005]本专利技术进一步的技术任务是提供一种设计合理,安全适用的实时舆情预警装置。
[0006]本专利技术解决其技术问题所采用的技术方案是:
[0007]一种实时舆情预警方法,具有如下步骤:
[0008]S1、网络数据实时采集;
[0009]S2、数据清洗与结构化处理;
[0010]S3、预警模型分析。
[0011]进一步的,在步骤S1中,通过网络爬虫工具抓取社交媒体的舆论数据,服务器作为云数据中心,不断采集数据。
[0012]进一步的,利用爬虫工具爬虫运行过程为:
[0013](1)首先,引擎从调度器中取出一个链接用于接下来的抓取;
[0014](2)引擎把链接封装成一个请求传给下载器,下载器把资源下载下来,并封装成应答包;
[0015](3)然后爬虫解析应答包;
[0016](4)若是解析出实体,则交给实体管道进行进一步的处理;
[0017](5)若是解析出的是链接,则把URL交给Scheduler等待抓取。
[0018]进一步的,对于爬取的数据,定期同步至相关存储单元;
[0019]其中结构化及半结构化数据存储至结构化数据库,备份至Hive数据仓库,非结构化数据存储至非结构化数据库,备份至HDFS分布式文件系统。
[0020]进一步的,在步骤S2中,对实时采集的网络数据进行处理与二次加工,统一化为系统处理所适配的数据格式。
[0021]进一步的,对于非结构化数据处理时,包括视频、语音和图片;
[0022]对于视频,建立视频抽帧任务,选择图片格式、抽帧间隔、选择视频文件和选择起止帧;运行视频抽帧任务;处理抽帧结果,列表化显示抽取的图片,提供删除、保留功能,用于对图片的归纳筛选;
[0023]对于语音,通过语音识别算法将语音翻译成文字信息;
[0024]对于图片,通过图像识别算法对图像中的物体、人像进行目标识别与标注。
[0025]进一步的,对于半结构化数据,通过扩展结构化数据的属性进行转化,将提取的文本信息进行自然语言处理,提取其中的关键信息。
[0026]进一步的,在步骤S3中,预警模型分析是将数据清洗与结构化后的结构化数据进行模型碰撞预警,热度指数定义如下:
[0027]Heat(a,v,s,d,e,t)=k
a
N(a,t)+k
v
N(v,t)+k
s
N(s,t)+k
a
N(d,t)+k
e
N(e,t)
[0028]其中,0≤k
a
≤1,0≤k
v
≤1,0≤k
s
≤1,0≤k
d
≤1,0≤k
e
≤1,k
a
+k
v
+k
s
+k
d
+k
e
=1,可根据实际情况进行调整;
[0029]其中,a=传播量;v=传播速度;s=传播范围;d=观点分歧度;e=观点负面度;N(a,t)为传播量的归一标准化函数;N(v,t)为传播速度的归一标准化函数;N(s,t)为传播范围的归一标准化函数;N(d,t)为观点分歧度的归一化标准函数;N(e,t)为观点负面度的归一化标准函数。
[0030]进一步的,传播量针对同一用户ID,转载、点赞、评论只要存在一个,就累加计数,A
i
(t)=R[0,1]||T[0,1]||C[0,1];A
i
(t)表示单个用户ID的传播量;R表示单个用户的转载量;T表示单个用户的点赞量;C表示单个用户的评论量;汇总所有用户的传播量
[0031]传播速度是从舆情的受众数量递增率角度体现,Δt的值可根据实际情况进行调整,当舆情传播速度V(t)大于某个值时,说明事态扩展迅速,可以进行预警;
[0032]传播范围是以地市为单位实时统计受众的分布范围,当舆情从一个地市传播到另一个地市,会出现指数式爆炸性的增长,通过传播范围指标衡量舆情的传播态势;
[0033]观点分歧度利用人工智能的情感分析、主题关键词挖掘技术能够统计出相关观点及数量,作为评估舆情热点指数的指标;
[0034]观点负面度利用人工智能算法分析观点的价值倾向,统计出具有负面倾向的观点的占比。
[0035]一种实时舆情预警装置,包括:至少一个存储器和至少一个处理器;
[0036]所述至少一个存储器,用于存储机器可读程序;
[0037]所述至少一个处理器,用于调用所述机器可读程序,执行一种实时舆情预警方法。
[0038]本专利技术的一种实时舆情预警方法及装置和现有技术相比,具有以下突出的有益效果:
[0039]本专利技术可以实时采集主流社交媒体的舆论信息,进行数据转化后通过预警模型进行热度分析预警。相比于传统的舆情感知方法,该方法具备高实时性、高可靠性,解放人力、提高舆论甄别的覆盖面,提高舆论识别的准确性。
附图说明
[0040]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]附图1是一种实时舆情预警方法的流程示意图;
[0042]附图2是一种实时舆情预警方法中爬虫处理流程图。
具体实施方式
[0043]为了使本
的人员更好的理解本专利技术的方案,下面结合具体的实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本专利技术保护的范围。
[0044]下面给出一个最佳实施例:
[0045]如图1所示,本实施例中的一种实时舆情预警方法,具有如下步骤:
[0046]S1、网络数据实时采集;
[0047]如图2所示,通过网络爬虫工具抓取主流社交媒体的舆论数据,依托国产高性能刀片式服务器作为云数据中心,7*24不间断高效稳定采集数据。
[0048]利用爬虫工具爬虫运行过程为:
[0049](1)首先,引擎从调度器中取出一个链接用于接下来的抓取;
[0050](2)引擎把链接封装成一个请求传给下载器,下载器把资源本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实时舆情预警方法,其特征在于,具有如下步骤:S1、网络数据实时采集;S2、数据清洗与结构化处理;S3、预警模型分析。2.根据权利要求1所述的一种实时舆情预警方法,其特征在于,在步骤S1中,通过网络爬虫工具抓取社交媒体的舆论数据,服务器作为云数据中心,不断采集数据。3.根据权利要求2所述的一种实时舆情预警方法,其特征在于,利用爬虫工具爬虫运行过程为:(1)首先,引擎从调度器中取出一个链接用于接下来的抓取;(2)引擎把链接封装成一个请求传给下载器,下载器把资源下载下来,并封装成应答包;(3)然后爬虫解析应答包;(4)若是解析出实体,则交给实体管道进行进一步的处理;(5)若是解析出的是链接,则把URL交给Scheduler等待抓取。4.根据权利要求3所述的一种实时舆情预警方法,其特征在于,对于爬取的数据,定期同步至相关存储单元;其中结构化及半结构化数据存储至结构化数据库,备份至Hive数据仓库,非结构化数据存储至非结构化数据库,备份至HDFS分布式文件系统。5.根据权利要求4所述的一种实时舆情预警方法,其特征在于,在步骤S2中,对实时采集的网络数据进行处理与二次加工,统一化为系统处理所适配的数据格式。6.根据权利要求5所述的一种实时舆情预警方法,其特征在于,对于非结构化数据处理时,包括视频、语音和图片;对于视频,建立视频抽帧任务,选择图片格式、抽帧间隔、选择视频文件和选择起止帧;运行视频抽帧任务;处理抽帧结果,列表化显示抽取的图片,提供删除、保留功能,用于对图片的归纳筛选;对于语音,通过语音识别算法将语音翻译成文字信息;对于图片,通过图像识别算法对图像中的物体、人像进行目标识别与标注。7.根据权利要求6所述的一种实时舆情预警方法,其特征在于,对于半结构化数据,通过扩展结构化数据的属性进行转化,将提取的文本信息进行自然语言处理,提取其中的关键信息。8.根据权利要求7所述的一种实时舆情预警方法,其特征在于,在步骤S3中,预警模型分析是将数据清洗与结构化后的结构化数据进行模型碰撞预警,热度指数定义如下:Heat(a,v,s,d,e,t)=k
a
N(a,t)+k
v
N(v,t)+k
s...

【专利技术属性】
技术研发人员:冯蕾牛玉峰毕茂华
申请(专利权)人:西安超越申泰信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1