一种基于爬虫技术的境外舆情监测装置、系统及方法制造方法及图纸

技术编号:17779938 阅读:16 留言:0更新日期:2018-04-22 08:33
本发明专利技术公开一种基于爬虫技术的境外舆情监测装置、系统及方法,该方法构建数据爬取模块数据获取规则,获取目标站点的数据信息;设定监控关键词,通过舆情搜索模块对获取的数据信息进行对应于关键词的舆情信息搜索;通过文字获取模块、语音获取模块及图像获取模块分别获取对应于关键词的文字、语音或图像数据;利用境外服务器将在境外获取的文字、语音或图像数据中的敏感信息通过信息发送模块发送到数据存储模块。本发明专利技术通过搭建海外服务器的方式,合法绕过访问控制,采集境外网站舆情,分析在线言论及传播行为,并且当某些舆情在国内封锁的时候,可继续追踪舆情发酵情况,为国内舆情正向引导提供数据支持。

【技术实现步骤摘要】
一种基于爬虫技术的境外舆情监测装置、系统及方法
本专利技术涉及舆情监测
,具体涉及一种基于爬虫技术的境外舆情监测装置、系统及方法。
技术介绍
随着信息全球化的来临,信息呈现全球化传播的趋势。当前,网络媒体日益发达,网民数量也不断增加,互联网已经成为民意表达的最主要空间。网络舆情监测与预警可以发掘其出现、发展和消亡的因素,通过连续不间断地动态监测、度量及采集相关的信息,从而对当前网络舆情做出评价分析并预测其发展趋势,及时做出等级预报。反映民意的网络舆情,源于现实世界,又会正面或负面作用于现实世界,舆情传播过程中,与现实的关系可能发生复杂的变化。及时发现、分析、管理、利用网络舆情就变得非常重要。目前,境外监测除了要实现数据实时抓取外,还需要避免采用翻墙软件等违规操作。现阶段采集海外舆情的方式主要有VPN模式,调用指定媒体数据接口方式,代理服务器方式,搭建海外服务器方式。其中,VPN方式目前国内属于非法操作;调用数据接口的方式受限于接口配置的各种访问控制,无法获得足够的信息,代理服务器存在安全方面的考虑也不实用。同时某些舆情在国内封锁的时候,无法继续追踪舆情发酵情况,无法为国内舆情正向引导提供数据支持。
技术实现思路
本专利技术的目的在于提供一种基于爬虫技术的境外舆情监测装置、系统及方法,通过搭建海外服务器的方式,合法绕过访问控制,采集境外网站舆情,分析在线言论及传播行为,为国内舆情正向引导提供数据支持。为实现上述目的,本专利技术的技术方案为:一种基于爬虫技术的境外舆情监测装置,所述监测装置包括数据爬取模块、舆情搜索模块、文字获取模块、语音获取模块、图像获取模块、文字监测模块、语音监测模块、图像监测模块及预警模块;所述数据爬取模块用于获取进行舆情监测的网站数据信息;所述舆情搜索模块用于对用户输入的关键词进行舆情信息搜索;所述文字获取模块与所述舆情搜索模块建立连接关系,文字获取模块用于获取对应于用户输入关键词的文字舆情信息;所述语音获取模块与所述舆情搜索模块建立连接关系,语音获取模块用于获取对应于用户输入关键词的语音舆情信息;所述图像获取模块与所述舆情搜索模块建立连接关系,图像获取模块用于获取对应于用户输入关键词的图像舆情信息;所述文字监测模块与所述文字获取模块建立连接关系,文字监测模块用于对获取的文字舆情信息进行敏感信息监测;所述语音监测模块与所述语音获取模块建立连接关系,语音监测模块用于对获取的语音舆情信息进行敏感信息监测;所述图像监测模块与所述图像获取模块建立连接关系,图像监测模块用于对获取的图像舆情信息进行敏感信息监测;所述预警模块与所述文字监测模块、语音监测模块及图像监测模块建立连接关系,预警模块用于对获取的文字、语音或图像敏感信息进行预警。如上所述的一种基于爬虫技术的境外舆情监测装置,所述监测装置还包括信息发送模块,所述信息发送模块与所述文字监测模块、语音监测模块或图像监测模块建立连接关系,信息发送模块用于传输文字监测模块、语音监测模块或图像监测模块监测到的敏感信息。以设置在中国境内和境外的监测装置为例,设置在境外的监测装置利用信息发送模块将监测到的敏感信息发送到境内的服务器。文字监测模块通过文字监测算法进行实现,如通过关键字匹配算法进行敏感信息匹配。语音监测模块通过语音识别算法进行实现,语音识别算法如DTW算法,DTW算法是应用在孤立词识别的算法,用来识别一些特定的指令,DTW算法是基于DP(动态规划)的算法基础上发展而来的。语音识别的框架是,首先有一个比对的模版声音,然后去截取其里面包含真正属于语音的部分,采用vad语音活动检测的算法,而在vad中间使用双门限端点检测这种方法,采用vad判断语音的开始和结束,判断方法就是通过音量的大小做一个阈值判定,在时域上很简单就能判定。图像监测模块通过图像识别算法进行实现,图像识别算法根据图像的颜色特征、纹理特征、形状特征以及局部特征点进行识别,从而对含有敏感信息的图像进行监测。进一步,所述监测装置还包括数据存储模块,所述数据存储模块与所述信息发送模块建立连接关系,数据存储模块用于存储文字监测模块、语音监测模块或图像监测模块监测到的敏感信息。数据存储模块可以整合到数据中心实现,数据中心不仅包括计算机系统和与之配套的设备,例如通信和存储系统,还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。数据中心可以采用无线或有线两种方式,无线方式可以采用无线DDN系统,无线DDN系统分为监测点和数据中心两部分,监测点采用GPRSDTU,可提供RS-232、RS485、以及以太网接口,数据中也可采用宽带ADSL或专线方式接入Internet。如上所述的一种基于爬虫技术的境外舆情监测装置,所述数据爬取模块采用通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和\或深层网络爬虫规则。通用网络爬虫爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。通用网络爬虫结构可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合部分。聚焦网络爬虫是指选择性地爬行那些与预先定义好的主题相关页面,与通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。增量式网络爬虫是对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,能够在一定程度上保证所爬行的页面是尽可能新的页面。增量式爬虫有两个目标:保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。为实现第一个目标,增量式爬虫需要通过重新访问网页来更新本地页面集中页面内容,可以采用统一更新法:爬虫以相同的频率访问所有网页,不考虑网页的改变频率;个体更新法:爬虫根据个体网页的改变频率来重新访问各页面;基于分类的更新法:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。深层网络爬虫结构包含爬行控制器、解析器、表单分析器、表单处理器、响应分析器、LVS控制器和两个爬虫内部数据结构URL列表、LVS表。其中LVS表示标签/数值集合,用来表示填充表单的数据源。深层网络爬虫表单填写可以基于领域知识进行表单填写,此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。也可以采用基于网页结构分析进行表单填写,此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成DOM树,从中提取表单各字段值。本专利技术还提供一种基于爬虫技术的境外舆情监测系统,所述监测系统采用上述的监测装置,所述监测系统还包括第一服务器、第二服务器及数据中心设备;所述第一服务器与所述监测装置建立连接关系,第一服务器设置在一国境外,第一服务器通过信息发送模块与所述数据中心设备建立连接关系,第一服务器用于对国外舆情进行监测并将监测信息发送到所述数据中心设备;所述第二服务器与所述监测装置建立连接关系,第二服务器设置在一国境内,第二服务器用于对境内舆情进行监测并将监测信息发送到所述数据中心设备;所述数据中心设备与所述第一服务器或第二服务器建立连接关系,数据中心设备通过数据接口存储舆情采集信息。如上所述的一种基于爬虫技术的本文档来自技高网...
一种基于爬虫技术的境外舆情监测装置、系统及方法

【技术保护点】
一种基于爬虫技术的境外舆情监测装置,其特征在于:所述监测装置包括数据爬取模块、舆情搜索模块、文字获取模块、语音获取模块、图像获取模块、文字监测模块、语音监测模块、图像监测模块和预警模块;所述数据爬取模块用于获取进行舆情监测的网站数据信息;所述舆情搜索模块用于对用户输入的关键词进行舆情信息搜索;所述文字获取模块与所述舆情搜索模块建立连接关系,文字获取模块用于获取对应于用户输入关键词的文字舆情信息;所述语音获取模块与所述舆情搜索模块建立连接关系,语音获取模块用于获取对应于用户输入关键词的语音舆情信息;所述图像获取模块与所述舆情搜索模块建立连接关系,图像获取模块用于获取对应于用户输入关键词的图像舆情信息;所述文字监测模块与所述文字获取模块建立连接关系,文字监测模块用于对获取的文字舆情信息进行敏感信息监测;所述语音监测模块与所述语音获取模块建立连接关系,语音监测模块用于对获取的语音舆情信息进行敏感信息监测;所述图像监测模块与所述图像获取模块建立连接关系,图像监测模块用于对获取的图像舆情信息进行敏感信息监测;所述预警模块与所述文字监测模块、语音监测模块及图像监测模块建立连接关系,预警模块用于对获取的文字、语音或图像敏感信息进行预警。...

【技术特征摘要】
1.一种基于爬虫技术的境外舆情监测装置,其特征在于:所述监测装置包括数据爬取模块、舆情搜索模块、文字获取模块、语音获取模块、图像获取模块、文字监测模块、语音监测模块、图像监测模块和预警模块;所述数据爬取模块用于获取进行舆情监测的网站数据信息;所述舆情搜索模块用于对用户输入的关键词进行舆情信息搜索;所述文字获取模块与所述舆情搜索模块建立连接关系,文字获取模块用于获取对应于用户输入关键词的文字舆情信息;所述语音获取模块与所述舆情搜索模块建立连接关系,语音获取模块用于获取对应于用户输入关键词的语音舆情信息;所述图像获取模块与所述舆情搜索模块建立连接关系,图像获取模块用于获取对应于用户输入关键词的图像舆情信息;所述文字监测模块与所述文字获取模块建立连接关系,文字监测模块用于对获取的文字舆情信息进行敏感信息监测;所述语音监测模块与所述语音获取模块建立连接关系,语音监测模块用于对获取的语音舆情信息进行敏感信息监测;所述图像监测模块与所述图像获取模块建立连接关系,图像监测模块用于对获取的图像舆情信息进行敏感信息监测;所述预警模块与所述文字监测模块、语音监测模块及图像监测模块建立连接关系,预警模块用于对获取的文字、语音或图像敏感信息进行预警。2.根据权利要求1所述的一种基于爬虫技术的境外舆情监测装置,其特征在于:所述监测装置还包括信息发送模块,所述信息发送模块与所述文字监测模块、语音监测模块或图像监测模块建立连接关系,信息发送模块用于传输文字监测模块、语音监测模块或图像监测模块监测到的敏感信息。3.根据权利要求2所述的一种基于爬虫技术的境外舆情监测装置,其特征在于:所述监测装置还包括数据存储模块,所述数据存储模块与所述信息发送模块建立连接关系,数据存储模块用于存储文字监测模块、语音监测模块或图像监测模块监测到的敏感信息。4.根据权利要求1所述的一种基于爬虫技术的境外舆情监测装置,其特征在于:所述数据爬取模块采用通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和\或深层网络爬虫规则。5.一种基于爬虫技术的境外舆情监测系统,所述监测系统采用如权利要求1至4任一项...

【专利技术属性】
技术研发人员:陈晨曾祥伟
申请(专利权)人:中广在线北京文化传媒有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1