【技术实现步骤摘要】
本专利技术涉及语义分析及机器翻译领域,具体涉及一种多语种互联网信息分析方法。
技术介绍
在互联网高速发展的今天,各民族每时每刻都会通过短信、微信、论坛、贴吧、博客、微博等网络及移动网络等媒体发表言论,参与话题交流,汇集成网络民意,形成网络舆论,同时各种犯罪分子、恐怖分子等也会通过网络进行沟通联络。只有及时发现互联网中有较大影响的重要事件和正在谋划、将要发生、已经发生的犯罪事件,并快速识别和定向跟踪,才能更快更全面地掌握情报动向,从而正面引导舆论和宣传,并打击犯罪。
技术实现思路
本专利技术的目的是提供一种多语种网络舆情分析方法,在多语种的海量社交网络中抓取网络舆情信息,并基于多语种进行源语分析,实现对网络舆情的及时分析,掌握各民族舆情情况,以有效为党和政府制定民族政策提供支持,为在特殊地区反恐维稳工作提供情报信息。一种多语种网络舆情分析方法,其特征在于:(1)采用基于云计算的分布式爬虫设计,将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上;(2)对网络数据进行去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息的去噪;(3)海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并建立索引;(4)建立海量数据管理系统,对海量数据依托时间轴进行读写管理;(5)采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息。所述步骤(4)进一步包括:通过收集海量数据,建立各语种的大语料库,并建立各语种的原子特征库, ...
【技术保护点】
一种多语种网络舆情分析方法,其特征在于:(1)采用基于云计算的分布式爬虫设计,将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上;(2)对网络数据进行去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息的去噪;(3)海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并建立索引;(4)建立海量数据管理系统,对海量数据依托时间轴进行读写管理;(5)采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息。
【技术特征摘要】
1.一种多语种网络舆情分析方法,其特征在于:(1)采用基于云计算的分布式爬虫设计,将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上;(2)对网络数据进行去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息的去噪;(3)海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并建...
【专利技术属性】
技术研发人员:宁勇,
申请(专利权)人:北京航天长峰科技工业集团有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。