一种精准高效的目标舆情智能监控系统及方法技术方案

技术编号:28321085 阅读:12 留言:0更新日期:2021-05-04 13:01
本发明专利技术属于网络监控技术领域,具体涉及一种精准高效的目标舆情智能监控系统及方法。所述系统包括:若干数据获取模块,用于实现舆情信息的增量式获取和舆情信息实际内容的主题式获取;URL模块,用于接收来自综合管理模块的初始URL表和数据获取模块筛选后的URL;综合管理模块,用于实现统一资源调度及系统综合管理功能;若干数据获取模块分布在若干个服务器上;所述数据获取模块、URL模块和综合管理模块三者通信连接。所述系统以增量式主题数据获取系统为核心,以提升数据获取速率及准确性两个方面为出发点,开发出了一套新型高效的舆情监控系统。此系统保证了目前常用系统的速率,提高了数据获取的准确性,并且节省了硬件系统的开销。

【技术实现步骤摘要】
一种精准高效的目标舆情智能监控系统及方法
本专利技术属于网络监控
,具体涉及一种精准高效的目标舆情智能监控系统及方法。
技术介绍
随着互联网的迅猛发展,web信息量呈爆炸式增长,互联网已经成为公民接受信息和传播信息的主要途径。互联网自由开放、不受监督、不受约束的特性,使得许多舆情信息不受控制,从而能够广泛传播。部分负面舆情会产生巨大的舆论力量甚至经济损失。因此有效的监控,并采取必要的措施,及时发现分析网络舆情,并对其进行管理利用,将网络舆情的不利因素降到最低,同时继续扩展正面舆情的影响力,是非常有必要且有价值的。目标舆情监控系统是一种有效监控各大舆情网站,根据既定关键词,依据一定规律监控舆情网站,并获取舆情信息的系统。此系统的最大优势是提高了数据获取系统的效率,节省了硬件资源消耗,并且保障了数据获取的全面性及准确性。目前提升数据获取系统速率的方法主要是分布式,其借助分布式系统,将数据获取系统有规划的分布到不同的硬件设备,通过提高硬件设备的数量来提高数据获取系统的速度。提升数据获取系统准确率的方法主要是主题式数据获取,其对获取的数据,拆分热点词并构建词向量,将此词向量与搜索的关键词词向量做比较,舍弃相似度较低的数据,保存相似度大的数据。然而,由于特定关键词的舆情信息数据量,在每一个舆情网站的日更新量是有限的,若每次数据获取过程均获取整个网站的数据,将耗费大量不必要的硬件资源。目前增量式主题数据获取系统很少有应用,其通过限定每次数据获取量的方法来提升数据获取系统的速率与准确性。所谓增量式,主要是针对更新的内容,未改变的地方则不做访问处理;所以增量式数据获取系统,在获取数据的时候,获取内容发生变化的网页或者新产生的网页,对于未发生内容变化的网页,则做舍弃处理。
技术实现思路
为解决上述问题,本专利技术提出一种精准高效的目标舆情智能监控系统及方法。所述系统以增量式主题数据获取系统为核心,以提升数据获取速率及准确性两个方面为出发点,开发出了一套新型高效的舆情监控系统。此系统保证了目前常用系统的速率,提高了数据获取的准确性,并且节省了硬件系统的开销。本专利技术是通过以下技术方案实现的:一种精准高效的目标舆情智能监控系统,所述系统包括:若干数据获取模块,用于实现舆情信息的增量式获取和舆情信息实际内容的主题式获取;URL(全称UniformResourceLocator;统一资源定位器)模块,用于接收来自综合管理模块的初始URL表和数据获取模块筛选后的URL,记录、存储并按照综合管理模块中监控单元监控到的服务器内存、CPU的使用率情况,经调度模块分发到各项资源利用率相对较低的服务器的数据获取模块;综合管理模块,用于实现统一资源调度及系统综合管理功能;若干数据获取模块分布在若干个服务器上;所述数据获取模块、URL模块和综合管理模块三者通信连接。进一步地,所述URL模块包括接收单元和存储单元,接受所述综合管理模块和数据获取模块提供的信息。进一步地,所述数据获取模块基于增量式数据获取系统,实现舆情信息的增量式获取,通过初始配置的URL,获取舆情网站的新增URL链接,URL链接经过去重模块,传递至URL模块。同时通过接收URL模块分发的URL,访问并解析页面内容,实现舆情信息实际内容的主题式获取。进一步地,所述综合管理模块包括:监控单元,用于监控各个服务器的CPU、带宽、硬盘、内存等的使用情况,为数据获取系统分布于哪一台或哪几台服务器进行获取数据的服务,提供服务分发的依据;调度单元,基于监控单元监控所得的服务器监控数据,调度资源利用率低的服务器中的数据获取模块,获取舆情信息;系统预警单元,用于预警所述系统本身的错误信息,此处所述预警,指通过邮件提醒、日志记录、短信提醒等方式,将系统中需要注意的信息通知运营人员;此处所述的系统本身的错误信息包括系统停止运行、获取数据模块未获取到数据、服务器资源长时间占用率过高等;程序持久化单元,用于对部分能预测到的错误给予处理,此处所提及错误包括系统停止运行、获取数据模块未获取到数据、服务器资源长时间占用率过高等,处理方式包括程序重启动、重复开启数据获取模块、重新调度分配数据获取模块在各台服务中的部署情况等。并将此处所提及的错误在日志单元中进行记录,且经系统预警单元提醒运维人员人工干预;系统配置单元,用于配置系统内部运营过程需要的参数;日志单元,用于记录系统运行过程中,出现的错误,此处所指错误与系统预警单元及程序持久化单元相同,及数据获取过程中请求发送数量、成功数量、失败数量;所述监控单元、调度单元、系统预警单元、程序持久化单元、系统配置单元和日志单元分别对所述数据获取模块进行监控、整体调度、系统预警、程序持久化、系统配置和日志记录的工作。进一步地,所述错误信息不仅包括系统停止运行、获取数据模块未获取到数据、服务器资源长时间占用率过高,URL存储、获取、分配过程效率低下,获取数据资源占用硬盘资源过多;还包括增量式判断单元中的预警,此处所提及的错误及预警信息均会通知运维人员手动干预。进一步地,所述数据获取模块包括:增量式判断单元,用于判断舆情新增量;具体用于增量式的获取舆情网站的URL,对数据库已有数据进行统计分析,归纳总结出主体目标名称、主体目标性质、主体目标重要日期节点、节假日、网站级别、网站名称、舆情发布时间、媒体所在地、目标所在地等与网站舆情信息更新频率的关系;得出媒体名称与舆情信息更新频率的关系,构建舆情网站更新频率模型,从而得出目标网站的更新频率;基于此模型针对不同的网站,有效的调度数据获取系统,获取舆情网站信息;所述目标为企业、事业单位、社会团体或流量明星等主体,与这些主体相关的自变量也会发生相应变化;主题判断单元,用于判断舆情相关度;为了提高舆情系统本身所获取舆情信息的准确性,对获取的舆情进行主题判断;保留与关键词词向量相似度较大的舆情信息;所述主题判断单元对获取的舆情信息做分词、统计词频、建关键词与焦点词的词向量,并比较其距离,判断舆情信息与关键词词向量的相似度,进而判断舆情信息与词向量的相关性;所述关键词与焦点词的词向量的距离比较,采用向量间范数的形式来判定;所述增量式判断单元将获取的舆情信息传递给所述主题判断单元,判断所述舆情的相关度。进一步地,所述增量式判断单元令所述数据获取模块形成增量式的形式,在获取具体舆情数据前,先判断舆情信息的更新数量,有针对性的获取新更新的舆情,节省了服务器资源的占用。进一步地,所述增量式判断单元基于k-近邻算法,训练模型,估计目标舆情网站舆情信息的更新数量k,及日集中更新时间。进一步地,所述系统还包括去重模块,用于过滤所述数据获取模块向所述URL模块传输的URL;所述去重模块设置在所述URL模块和数据获取模块之间。进一步地,所述去重模块基于布隆过滤器,实现与现有爬虫系统相同的URL的基本过滤功能,以降低服务器的压力,提高爬虫代码的效率本文档来自技高网
...

【技术保护点】
1.一种精准高效的目标舆情智能监控系统,其特征在于,所述系统包括:/n若干数据获取模块,用于实现舆情信息的增量式获取和舆情信息实际内容的主题式获取;/nURL模块,用于接收来自综合管理模块的初始URL表和数据获取模块筛选后的URL,记录、存储并按照综合管理模块中监控单元监控到的服务器内存、CPU的使用率情况,经综合管理模块中的调度单元分发到各项资源利用率相对较低的服务器的数据获取模块;/n综合管理模块,用于实现统一资源调度及系统综合管理功能;/n若干数据获取模块分布在若干个服务器上;/n所述数据获取模块、URL模块和综合管理模块三者通信连接。/n

【技术特征摘要】
1.一种精准高效的目标舆情智能监控系统,其特征在于,所述系统包括:
若干数据获取模块,用于实现舆情信息的增量式获取和舆情信息实际内容的主题式获取;
URL模块,用于接收来自综合管理模块的初始URL表和数据获取模块筛选后的URL,记录、存储并按照综合管理模块中监控单元监控到的服务器内存、CPU的使用率情况,经综合管理模块中的调度单元分发到各项资源利用率相对较低的服务器的数据获取模块;
综合管理模块,用于实现统一资源调度及系统综合管理功能;
若干数据获取模块分布在若干个服务器上;
所述数据获取模块、URL模块和综合管理模块三者通信连接。


2.根据权利要求1所述的一种精准高效的目标舆情智能监控系统,其特征在于,所述URL模块包括接收单元和存储单元,分别接收和存储所述综合管理模块和数据获取模块提供的信息。


3.根据权利要求1所述的一种精准高效的目标舆情智能监控系统,其特征在于,所述综合管理模块包括:
监控单元,用于监控各个服务器的CPU、带宽、硬盘、内存等的使用情况,为数据获取系统分布于哪一台或哪几台服务器进行获取数据的服务,提供服务分发的依据;
调度单元,基于监控单元监控所得的服务器监控数据,调度资源利用率低的服务器中的数据获取模块,获取舆情信息;
系统预警单元,用于预警所述系统本身的错误信息;
程序持久化单元,用于对部分能预测到的错误给予处理;
系统配置单元,用于配置系统内部运营过程需要的参数;
日志单元,用于记录系统运行过程中,出现的错误。


4.根据权利要求1-3任一项所述的一种精准高效的目标舆情智能监控系统,其特征在于,所述数据获取模块包括:
增量式判断单元,用于判断舆情新增量;
主题判断单元,用于判断舆情相关度;

【专利技术属性】
技术研发人员:李振刘恒魏华徐元义冯一杜昭慧丁晓强
申请(专利权)人:民生科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1