一种网络舆情监控方法及系统技术方案

技术编号:10181509 阅读:163 留言:0更新日期:2014-07-03 11:19
本发明专利技术公开一种网络舆情监控方法及系统,该方法包括:采集待分析文本;检测所述待分析文本的语种,提取所述待分析文本的特征词;根据所述待分析文本的特征词,查询所述待分析文本的语种到基准语言语种的翻译词典,得到所述待分析文本的特征词在基准语言中的译文;计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度,并根据计算结果,确定所述待分析文本与所述基准语言热点舆情的相关度,从而得到与基准语言热点舆情相关的其他语种的网络舆情信息,使得网络舆情监控的范围不再局限于基准语言的范围,提高网络舆情监控的有效性和广泛性。

【技术实现步骤摘要】
【专利摘要】本专利技术公开一种网络舆情监控方法及系统,该方法包括:采集待分析文本;检测所述待分析文本的语种,提取所述待分析文本的特征词;根据所述待分析文本的特征词,查询所述待分析文本的语种到基准语言语种的翻译词典,得到所述待分析文本的特征词在基准语言中的译文;计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度,并根据计算结果,确定所述待分析文本与所述基准语言热点舆情的相关度,从而得到与基准语言热点舆情相关的其他语种的网络舆情信息,使得网络舆情监控的范围不再局限于基准语言的范围,提高网络舆情监控的有效性和广泛性。【专利说明】一种网络舆情监控方法及系统
本专利技术涉及通信网络
,尤其涉及一种网络舆情监控方法及系统。
技术介绍
随着互联网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的第四媒体,互联网成为反映社会舆情的主要载体之一。网络舆情是指,因各种事件的刺激而产生的,通过互联网传播的,人们对于该事件的所有认知、态度、情感和行为倾向的集合。网络舆情表达快捷、信息多元、形成迅速,方式互动,具备传统媒体无法比拟的优势,且对社会影响巨大。互联网环境下的舆情信息的主要来源有:新闻评论、BBS (BulletinBoard System,电子公告牌系统)、博客、聚合新闻(RSS)。由于互联网具有“下情上达”的特点,一方面为人们获取信息提供了快捷的途径,但随之带来的是对政治安全和文化安全的严重威胁。传统的网络舆情监控方案通常是对本国家语言的舆情监控,具有局限性,无法获知其他国家对热点舆情的相关信息,使得网络舆情监控的效果大打折扣。也无法获知涉及国际事件的热点舆情在相关国家的舆情信息,不能为管理决策提供更有效的参考依据。因此,亟需一种网络舆情监控方案出现,用以解决上述技术问题。
技术实现思路
本专利技术实施例提供了一种网络舆情监控方法及系统,用以获取与基准语言热点舆情相关的其他语种语言的舆情信息,提高网络舆情监控的有效性和广泛性。为了实现上述目的,本专利技术实施例采用以下技术手段:本专利技术实施例提供一种网络舆情监控方法,所述方法包括:采集待分析文本;检测所述待分析文本的语种,提取所述待分析文本的特征词;根据所述待分析文本的特征词,查询所述待分析文本的语种到基准语言语种的翻译词典,得到所述待分析文本的特征词在基准语言中的译文;计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度,并根据计算结果,确定所述待分析文本与所述基准语言热点舆情的相关度。本专利技术实施例还提供一种网络舆情监控系统,包括:采集模块,用于采集待分析文本;语种检测模块,用于检测所述待分析文本的语种;特征词提取模块,用于提取所述待分析文本的特征词;翻译模块,用于根据所述待分析文本的特征词,查询所述待分析文本的语种到基准语言的语种的翻译词典,得到所述待分析文本的特征词在基准语言中的译文;舆情分析模块,用于计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度,并根据计算结果,确定所述待分析文本与所述基准语言热点舆情的相关度。与现有技术相比,本专利技术的上述实施例具有以下有益技术效果:本专利技术实施例提供的网络舆情监控方案,在采集待分析文本后,检测待分析文本的语种,提取待分析文本的特征词,查询相应的翻译词典获得待分析文本的特征词在基准语言中的译文,并计算基准语言热点舆情与待分析文本的特征词在基准语言中的译文的相似度,确定待分析文本与基准语言热点舆情的相关度,从而得到与基准语言热点舆情相关的其他语种的网络舆情信息,使得网络舆情监控的范围不再局限于基准语言的范围,提高网络舆情监控的有效性和广泛性。【专利附图】【附图说明】图1为本专利技术实施例提供的网络舆情监控流程示意图;图2为本专利技术实施例提供的提取特征词的流程示意图;图3为本专利技术实施例提供的网络舆情监控系统的结构示意图。【具体实施方式】针对现有技术存在的上述问题,本专利技术实施例提供了一种网络舆情监控方案,用以获取与基准语言热点舆情相关的其他语种语言的舆情信息,提高网络舆情监控的有效性和广泛性。下面结合附图对本专利技术实施例进行详细描述。在本专利技术实施例提供的网络舆情监控系统中存储有翻译词典,翻译词典用于存储词条与该词条在不同语种中的译文之间的对应关系。翻译词典可以为提取的待分析文本特征词提供对应的基准语种的译文,作为与基准热点舆情相似度计算和判断的依据。以下结合图1,详细说明网络舆情监控流程,如图所示,该流程包括以下步骤:步骤101,网络舆情监控系统采集待分析文本。具体的,网络舆情监控系统可以通过普通网页、动态网页、论坛评论、搜索引擎等渠道,采集网络文本,网络文本的采集获取方式属于现有技术,在此不再赘述。进一步的,网络舆情监控系统还可以确定网络文本的类别,并判断所采集到的网络文本的类别与基准语言热点舆情的类别是否相同,若相同,则将该网络文本确定为待分析文本。网络舆情监控系统可以根据文本内容对网络文本进行分类,确定出网络文本的类另IJ。例如,网络文本的类别可以包括:军事、健康、政治、文化等。网络舆情监控系统可以采用SVM (Support Vector Machine,支持向量机)算法,对网络文本进行分类,确定出网络文本的类别。网络文本类别的确定也可以采用其他能够实现文本分类目的其他方式实现,上述确定网络文本类别的具体实现方式属于现有技术,在此不再赘述。基准语言热点舆情是网络舆情监控系统利用现有技术获取的,在此不再赘述。通过上述处理,网络舆情监控系统可以获取与基准语言热点舆情分类相同的网络文本,作为待分析文本,将不相关类别的网络文本排除,避免对不相关网络文本进行相关度的判断,避免网络舆情监控系统资源浪费,提高网络舆情监控的处理速度。步骤102,网络舆情监控系统检测待分析文本的语种。具体的,网络舆情监控系统可通过识别待分析文本的字符编码,检测出文本的语种。文本语种检测的实现方式属于现有技术,在此不再赘述。步骤103,网络舆情监控系统提取待分析文本的特征词。特征词用以表征文本的主要信息,网络舆情监控系统可以在检测出待分析文本的语种之后,按照相应语种语言的语法,对待分析文本进本特征词的提取。提取特征词的流程会在后续做进一步详细说明。步骤104,网络舆情监控系统根据待分析文本的特征词,查询待分析文本的语种到基准语言的语种的翻译词典,得到待分析文本的特征词在基准语言中的译文。具体的,网络舆情监控系统可以根据待分析文本的语种,确定出待分析文本的语种到基准语言的语种的翻译词典,并根据待分析文本的特征词,查询确定出的翻译词典,得到待分析文本的特征词在基准语言中的译文。通过双语的翻译词典,对待分析文本特征词进行直译,以获得同一语言序列,其直译过程为一一对应的直接映射。步骤105,网络舆情监控系统计算基准语言热点舆情与待分析文本的特征词在基准语言中的译文的相似度。具体的,同一语言序列的基础上,网络舆情监控系统对待分析文本的特征词的相应译文和基准语言热点舆情进行相似度计算,相似度计算可以采用现有算法实现,在此不再赘述。相似度可以依据网络舆情监控系统中的同义词表、上下位词表、领域词表等进行判断。步骤106,网络舆情监控系统根据计算出的相似度,确定待分析文本与基准语言热点舆情的本文档来自技高网
...
一种网络舆情监控方法及系统

【技术保护点】
一种网络舆情监控方法,其特征在于,包括:采集待分析文本;检测所述待分析文本的语种,提取所述待分析文本的特征词;根据所述待分析文本的特征词,查询所述待分析文本的语种到基准语言语种的翻译词典,得到所述待分析文本的特征词在基准语言中的译文;计算基准语言热点舆情与所述待分析文本的特征词在基准语言中的译文的相似度,并根据计算结果,确定所述待分析文本与所述基准语言热点舆情的相关度。

【技术特征摘要】

【专利技术属性】
技术研发人员:韩金宇孙少陵
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1