【技术实现步骤摘要】
一种实时舆情预警方法及装置
[0001]本专利技术涉及大数据领域,具体提供一种实时舆情预警方法及装置。
技术介绍
[0002][0003]如何利用大数据采集、清洗、建模技术,自动对时事热点进行分析预警,用以解决互联网舆情实时监控、预警的问题是本领域技术人员亟待解决的问题。
技术实现思路
[0004]本专利技术是针对上述现有技术的不足,提供一种实用性强的实时舆情预警方法。
[0005]本专利技术进一步的技术任务是提供一种设计合理,安全适用的实时舆情预警装置。
[0006]本专利技术解决其技术问题所采用的技术方案是:
[0007]一种实时舆情预警方法,具有如下步骤:
[0008]S1、网络数据实时采集;
[0009]S2、数据清洗与结构化处理;
[0010]S3、预警模型分析。
[0011]进一步的,在步骤S1中,通过网络爬虫工具抓取社交媒体的舆论数据,服务器作为云数据中心,不断采集数据。
[0012]进一步的,利用爬虫工具爬虫运行过程为:
...
【技术保护点】
【技术特征摘要】
1.一种实时舆情预警方法,其特征在于,具有如下步骤:S1、网络数据实时采集;S2、数据清洗与结构化处理;S3、预警模型分析。2.根据权利要求1所述的一种实时舆情预警方法,其特征在于,在步骤S1中,通过网络爬虫工具抓取社交媒体的舆论数据,服务器作为云数据中心,不断采集数据。3.根据权利要求2所述的一种实时舆情预警方法,其特征在于,利用爬虫工具爬虫运行过程为:(1)首先,引擎从调度器中取出一个链接用于接下来的抓取;(2)引擎把链接封装成一个请求传给下载器,下载器把资源下载下来,并封装成应答包;(3)然后爬虫解析应答包;(4)若是解析出实体,则交给实体管道进行进一步的处理;(5)若是解析出的是链接,则把URL交给Scheduler等待抓取。4.根据权利要求3所述的一种实时舆情预警方法,其特征在于,对于爬取的数据,定期同步至相关存储单元;其中结构化及半结构化数据存储至结构化数据库,备份至Hive数据仓库,非结构化数据存储至非结构化数据库,备份至HDFS分布式文件系统。5.根据权利要求4所述的一种实时舆情预警方法,其特征在于,在步骤S2中,对实时采集的网络数据进行处理与二次加工,统一化为系统处理所适配的数据格式。6.根据权利要求5所述的一种实时舆情预警方法,其特征在于,对于非结构化数据处理时,包括视频、语音和图片;对于视频,建立视频抽帧任务,选择图片格式、抽帧间隔、选择视频文件和选择起止帧;运行视频抽帧任务;处理抽帧结果,列表化显示抽取的图片,提供删除、保留功能,用于对图片的归纳筛选;对于语音,通过语音识别算法将语音翻译成文字信息;对于图片,通过图像识别算法对图像中的物体、人像进行目标识别与标注。7.根据权利要求6所述的一种实时舆情预警方法,其特征在于,对于半结构化数据,通过扩展结构化数据的属性进行转化,将提取的文本信息进行自然语言处理,提取其中的关键信息。8.根据权利要求7所述的一种实时舆情预警方法,其特征在于,在步骤S3中,预警模型分析是将数据清洗与结构化后的结构化数据进行模型碰撞预警,热度指数定义如下:Heat(a,v,s,d,e,t)=k
a
N(a,t)+k
v
N(v,t)+k
s...
【专利技术属性】
技术研发人员:冯蕾,牛玉峰,毕茂华,
申请(专利权)人:西安超越申泰信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。