多语种网络舆情分析方法技术

技术编号:13603781 阅读:125 留言:0更新日期:2016-08-27 23:24
一种多语种网络舆情分析方法,包括(1)采用基于云计算的分布式爬虫设计,将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上;(2)对网络数据进行去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息的去噪;(3)海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并建立索引;(4)建立海量数据管理系统,对海量数据依托时间轴进行读写管理;(5)采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息。

【技术实现步骤摘要】

本专利技术涉及语义分析及机器翻译领域,具体涉及一种多语种互联网信息分析方法。
技术介绍
在互联网高速发展的今天,各民族每时每刻都会通过短信、微信、论坛、贴吧、博客、微博等网络及移动网络等媒体发表言论,参与话题交流,汇集成网络民意,形成网络舆论,同时各种犯罪分子、恐怖分子等也会通过网络进行沟通联络。只有及时发现互联网中有较大影响的重要事件和正在谋划、将要发生、已经发生的犯罪事件,并快速识别和定向跟踪,才能更快更全面地掌握情报动向,从而正面引导舆论和宣传,并打击犯罪。
技术实现思路
本专利技术的目的是提供一种多语种网络舆情分析方法,在多语种的海量社交网络中抓取网络舆情信息,并基于多语种进行源语分析,实现对网络舆情的及时分析,掌握各民族舆情情况,以有效为党和政府制定民族政策提供支持,为在特殊地区反恐维稳工作提供情报信息。一种多语种网络舆情分析方法,其特征在于:(1)采用基于云计算的分布式爬虫设计,将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上;(2)对网络数据进行去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息的去噪;(3)海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并建立索引;(4)建立海量数据管理系统,对海量数据依托时间轴进行读写管理;(5)采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息。所述步骤(4)进一步包括:通过收集海量数据,建立各语种的大语料库,并建立各语种的原子特征库,原子特征库由各语种特定类型的词汇组成,成行排列,作为调取脚本,用于后续统计分析。本专利技术通过结合互联网信息分析技术和多语言互译技术,实现了针对互联网海量舆情信息中涉及多种语言的自动实时监测分析,有效地解决了互联网信息监测分析的难题,对于促进加强互联网信息监管,组织力量展开信息整理和深入分析,应对网络突发的公共事件,全面掌握社情民意都起到了一定的推动作用。具体实施方式本专利技术的设计思路如下:在海量的多语种社交网络中采用网络搜索引擎的数据技术抓取、下载多语种的舆情信息,并进行快速的去重、垃圾过滤、编码解析(将所有编码转换为unicode国际标准编码),然后将初步处理后的数据转移到内网。数据进入内网后,通过利用VSM模型和HMM分析模型搭建运算平台,进行分词与解析。为实现上述专利技术目的,本专利技术采用以下技术方案:基于云计算的分布式爬虫设计,即将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上,这样可以提高监控效率,合理利用网络资源和云计算资源。对网络数据进行同一个网站的去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息等数据的去噪。海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并进行索引建立。建立海量数据管理系统,对海量数据依托时间轴进行读写管理。采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息。为实现上述技术方案,本专利技术采用以下技术手段:采用HIT算法对网页链接进行分类,分成导航型网页和内容型网页;借助类似XPATH规则去抽取有效信息,过滤掉广告,重复模板信息等;借助布隆过滤器对网页链接进行去重,依据向量词模型对网页内容进行去重和过滤;分布式定制爬虫,引入调度系统,支持水平扩展,轻松支撑7000个爬虫网站。网络爬虫系统,实现能够部署云平台上,依托下载服务器和数据服务器采用分布式设计,依托云计算资源实现对7000多网站的下载,同时实现去重、去噪功能。高速搜索引擎,实现对海量数据进行快速检索,性能指标控制在现有高性能服务器上实现一亿条数据平均1.5秒内搜索显示完毕。焦点热点、异常词、敏感词、定制话题的功能实现,利用数据挖掘算法对海量数据进行
挖掘发现需要监控的信息。海量数据管理系统实现,实现数据横向的无障碍扩充,建立索引库自动更新机制,实现分布式数据保存与读写。本专利技术的系统在thrift基础上,构建一个强化的分布式服务RPC框架,类似淘宝的HSF,后端业务模块都借助IDL进行接口交互;引入分布式队列kafka,用于爬虫数据和后端数据模块进行解耦,爬虫的网页被各个数据模块进行订阅处理;引入分布式索引系统,基于lucene进行架构优化和封装,对网页数据进行索引构建,支持快速检索,支持当天检索。本文档来自技高网
...

【技术保护点】
一种多语种网络舆情分析方法,其特征在于:(1)采用基于云计算的分布式爬虫设计,将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上;(2)对网络数据进行去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息的去噪;(3)海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并建立索引;(4)建立海量数据管理系统,对海量数据依托时间轴进行读写管理;(5)采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息。

【技术特征摘要】
1.一种多语种网络舆情分析方法,其特征在于:(1)采用基于云计算的分布式爬虫设计,将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上;(2)对网络数据进行去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息的去噪;(3)海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并建...

【专利技术属性】
技术研发人员:宁勇
申请(专利权)人:北京航天长峰科技工业集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1