多语种网络舆情分析方法技术

技术编号：13603781 阅读：125 留言：0更新日期：2016-08-27 23:24

一种多语种网络舆情分析方法，包括(1)采用基于云计算的分布式爬虫设计，将监控的网站分担到各个下载服务器上进行分布式下载，然后将数据汇总在数据服务器上；(2)对网络数据进行去重、去噪处理，即对同一网站上基本内容相同的数据进行去重，同时进行广告、不相关信息的去噪；(3)海量数据的高速检索，即对数据服务器上的海量数据内容，采用高速分布式检索算法，利用云计算资源对数据进行快速的查询和检索，并建立索引；(4)建立海量数据管理系统，对海量数据依托时间轴进行读写管理；(5)采用人工智能技术，对海量数据进行自动处理，然后经过分析，得出准确的监控内容，并提出预警信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语义分析及机器翻译领域，具体涉及一种多语种互联网信息分析方法。
技术介绍
在互联网高速发展的今天，各民族每时每刻都会通过短信、微信、论坛、贴吧、博客、微博等网络及移动网络等媒体发表言论，参与话题交流，汇集成网络民意，形成网络舆论，同时各种犯罪分子、恐怖分子等也会通过网络进行沟通联络。只有及时发现互联网中有较大影响的重要事件和正在谋划、将要发生、已经发生的犯罪事件，并快速识别和定向跟踪，才能更快更全面地掌握情报动向，从而正面引导舆论和宣传，并打击犯罪。
技术实现思路
本专利技术的目的是提供一种多语种网络舆情分析方法，在多语种的海量社交网络中抓取网络舆情信息，并基于多语种进行源语分析，实现对网络舆情的及时分析，掌握各民族舆情情况，以有效为党和政府制定民族政策提供支持，为在特殊地区反恐维稳工作提供情报信息。一种多语种网络舆情分析方法，其特征在于：(1)采用基于云计算的分布式爬虫设计，将监控的网站分担到各个下载服务器上进行分布式下载，然后将数据汇总在数据服务器上；(2)对网络数据进行去重、去噪处理，即对同一网站上基本内容相同的数据进行去重，同时进行广告、不相关信息的去噪；(3)海量数据的高速检索，即对数据服务器上的海量数据内容，采用高速分布式检索算法，利用云计算资源对数据进行快速的查询和检索，并建立索引；(4)建立海量数据管理系统，对海量数据依托时间轴进行读写管理；(5)采用人工智能技术，对海量数据进行自动处理，然后经过分析，得出准确的监控内容，并提出预警信息。所述步骤(4)进一步包括：通过收集海量数据，建立各语种的大语料库，并建立各语种的原子特征库，...

【技术保护点】
一种多语种网络舆情分析方法，其特征在于：(1)采用基于云计算的分布式爬虫设计，将监控的网站分担到各个下载服务器上进行分布式下载，然后将数据汇总在数据服务器上；(2)对网络数据进行去重、去噪处理，即对同一网站上基本内容相同的数据进行去重，同时进行广告、不相关信息的去噪；(3)海量数据的高速检索，即对数据服务器上的海量数据内容，采用高速分布式检索算法，利用云计算资源对数据进行快速的查询和检索，并建立索引；(4)建立海量数据管理系统，对海量数据依托时间轴进行读写管理；(5)采用人工智能技术，对海量数据进行自动处理，然后经过分析，得出准确的监控内容，并提出预警信息。

【技术特征摘要】
1.一种多语种网络舆情分析方法，其特征在于：(1)采用基于云计算的分布式爬虫设计，将监控的网站分担到各个下载服务器上进行分布式下载，然后将数据汇总在数据服务器上；(2)对网络数据进行去重、去噪处理，即对同一网站上基本内容相同的数据进行去重，同时进行广告、不相关信息的去噪；(3)海量数据的高速检索，即对数据服务器上的海量数据内容，采用高速分布式检索算法，利用云计算资源对数据进行快速的查询和检索，并建...

【专利技术属性】
技术研发人员：宁勇，
申请(专利权)人：北京航天长峰科技工业集团有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人