当前位置: 首页 > 专利查询>代松专利>正文

一种基于语义的网络智能舆情监测系统及其工作方法技术方案

技术编号:7843301 阅读:237 留言:0更新日期:2012-10-13 01:39
本发明专利技术属于自然语言处理领域,特别涉及一种基于语义的网络智能舆情监测系统及其工作方法,该方法采用智能爬虫技术、命名实体抽取技术、概念智能识别技术、基于语义的倾向性分析技术、话题抽取技术、智能统计分析等;其搜索的结果不是简单的包含某个或某类关键词的网页集合,而是与所设定的监测事件具有相同语义(即在意义上相同)的文本信息,具有较高的准确率。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,特别涉及。
技术介绍
近年来,互联网发展迅速,作为继电视、广播、报纸之外的第四媒体,已经成为反映社会舆情的一个重要载体。另一方面,由于网络的开放性和虚拟性,网上舆情已经越来越复杂,对现实生活的影响与日俱增,一些重大的网络舆情事件往往对社会产生较大的影响力。舆情监测的目的,即为准确有效地掌握网络舆情现状,加强对网络舆情的及时监测和跟踪,以便准确快速地发现互联网上的各类舆情,产生舆论导向并积极化解舆论危机,对促进社会和企业的健康发展具有重要的现实意义。对政府部门、公众媒体和大型企业来说,如何加强对网络舆情的及时监测,以及时采取措施进行有效应对,成为网络舆情管理的一大难点。
技术实现思路
本专利技术就是针对上述
技术介绍
中的不足之处,而提出的,其搜索的结果不是简单的包含某个或某类关键词的网页集合,而是与所设定的监测事件具有相同语义(即在意义上相同)的文本信息,具有较高的准确率。本专利技术的目的是通过如下技术措施来实现的。一种基于语义的网络智能舆情监测系统,该系统包括智能爬虫爬取模块、命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题抽取模块和智能统计分析模块,所述智能爬虫爬取模块用于从互联网上采集舆情信息,并存储到数据库中,所述命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块用于对舆情信息进行智能分析和加工,所述智能统计分析模块把舆情信息中经过分析处理的数据以各种形式展现给用户并提供预警。各模块具体功能如下 智能爬虫爬取模块传统的舆情监测系统采用关键词或关键词组合的方式进行搜索,该方法存在两个问题一是基于关键词搜索的准确度不高,结果可能包含大量噪音,例如要搜索“北大”(这里指的是北京大学)的信息,那么包含词条“北大荒”的文本也会被搜索出来;二是传统舆情监测系统的关键词集需人工收集并添加,繁琐且费时。造成以上问题的根本原因是,系统无法真正理解搜索词的意义。本系统采用智能爬虫技术,通过“理解”输入的关键词或句子的意思,在文本中找出相应的内容。命名实体抽取模块舆情监测的内容中可能包含人物、地点和组织机构的信息。而传统的舆情监测系统无法自动识别出文本中包含的这些内容,只能由人工进行添加。本系统自动对人物名称、地点名称和组织机构的名称(即命名实体)进行识别,并提取与之相关的信息。全部过程由机器自动完成,无需人工干预。概念智能识别模块传统的舆情监测系统采用关键词或关键词组合的方式进行监测,一旦发现信息中包含关键词或其组合,则发布预警信息。然而,利用关键词检索得到的结果可能包含大量噪音,而有用的信息却可能因为不在关键词列表中而被过滤掉。本系统采用基于概念的识别搜索机制,通过自动识别出意义相同的概念,过滤大量无关的信息,从而得到的结果具有较高的准确率。例如,给定一个新闻线索“腐败”,本系统自动监测与“腐败”相关的“行贿受贿”、“公款吃喝”、“买官卖官”等内容。基于语义的倾向性分析模块本系统实现了对舆情的倾向性进行自动分析,例如,调查网民对某一事件的评论是正面还是负面的。传统的舆情监测系统无法进行倾向性分析,或者倾向性分析方法是基于关键词的。这种方法的主要问题是准确度较低。利用基于语义的倾向性自动分析技术,本模块实现了对舆情的语义分析,并能给出基于事件的某个侧面的倾向性评价结果。话题抽取模块话题就是一个核心事件或活动以及与之直接相关的事件或活动。而一个事件(Event)通常由某些原因、条件引起,发生在特定时间、地点,涉及某些对象(人或物),并可能伴随某些必然结果。通常情况下,可以简单地认为话题就是若干对某事件相关报道的集合。话题分析具体包括话题检测与跟踪,定义为“在新闻专线(Newswire)和广 播新闻等来源的数据流中自动发现主题并把主题相关的内容联系在一起的技术”。本模块在海量信息中搜索同一话题的内容,并自动进行归类,同时给出话题名称,方便用户查看。智能统计分析模块将舆情监测的结果进行分析汇总,并以图文并茂的形式展现给用户。统计方式可由用户自行定义,如按时间、按来源、按舆情类别、按用户倾向性等。本专利技术还提供一种基于语义的网络智能舆情监测系统的工作方法,该方法包括以下步骤 (1)构建语义本体,用XML文档描述本体,在构建好本体以后,通过解析XML文档,将本体存储到数据库中,便于其它模块使用;具体构建步骤如下 (1-1)确定领域本体层次,将领域本体设计成层次型的结构,分为三个层次,事件层,模板层和概念层,并采用XML文档存储本体; (1-2)定义常用的事件,每个事件都用模板来具体化; (2)智能爬虫爬取模块从互联网上采集舆情信息,并存储到数据库中;具体步骤如下 (2-1)在数据库中定义需要采集信息的网站来源,包括新闻网站,论坛以及博客,并统一分成两类,即全国性的网站,和非全国性的网站; (2-2)智能爬虫爬取模块在指定网站来源爬取指定时间内的网页,下载与本体中定义的事件相关的网页,过滤掉大量与要监控的舆情无关的网页;具体爬取过程如下 (2-2-1)通过本体中定义的事件对网页进行分析,以此将与要监控的事件无关的链接过滤掉,剩下与事件有关的网络链接,将这些与事件有关的链接保留下来,并把它们存入等待抓取网页的URL队列里面; (2-2-2)完成上一步后,根据预先定义的搜索策略,举例来说,搜索策略为地域(云南丽江)+时间(I年以内发表的)+本体概念层拆分出来的关键词(例如贪污I腐败),根据这些信息来综合搜索;从前面存入的URL队列中选出根据本搜索策略抓取的网页所对应的URL,重复过程(2-2-1),当满足了系统预设的停止条件后即所有满足条件的网站都以被标记则停止爬取过程; (2-3)信息预处理,对步骤(2-2)中爬取的网页信息进行处理,具体处理过程如下(2-3-1)对web文档去web标签,采用htmlparser包提供的方法; (2-3-2)提取web文档的标题和正文; (2-3-3)抽取web文档发表的精确的时间; (2-3-4) web文档中有很多带链接的文字,对后续分析会产生一定的噪音,去掉文档中带链接的文字; (2-4)如果经预处理格式化后的网页与已经采集到的网页不重复就将下载的格式化后的网页文件储存到本地,供后续步骤使用,并将本地路径存储到数据 库中以便读取本地文件;下载的时候存储的格式设定的为标题,内容,日期,网址,网站名; (3)命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块对采集到的舆情信息进行智能分析和加工;具体步骤如下 (3-A)命名实体自动抽取,自动对舆情监测的内容中包含的人物名称、地点名称和组织机构的名称即命名实体进行识别,并提取与之相关的信息;采用基于CRFs模型和规则的命名实体识别,基于CRFs的中文命名实体识别,关键在于抽取命名实体的合适特性,通过对中文命名实体的特点进行分析定义命名实体的特征,规则方法最主要利用到两种信息,命名实体用字分类和限制性成分,即分析过程中,如果扫描到具有明显特征的命名实体用字时,便开始触发命名实体抽取过程,并且采集命名实体前后相关的成分,对命名实体的前后位置进行相应的限制; (3-B)概念智能识别,采用基于概念的识别搜索机制,通过自本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语义的网络智能舆情监测系统,其特征是该系统包括智能爬虫爬取模块、命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题抽取模块和智能统计分析模块,所述智能爬虫爬取模块用于从互联网上采集舆情信息,并存储到数据库中,所述命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块用于对舆情信息进行智能分析和加工,所述智能统计分析模块把舆情信息中经过分析处理的数据以各种形式展现给用户并提供预警。2.如权利要求I所述的一种基于语义的网络智能舆情监测系统的工作方法,其特征在于该方法包括以下步骤 (1)构建语义本体,用XML文档描述本体,在构建好本体以后,通过解析XML文档,将本体存储到数据库中,便于其它模块使用;具体构建步骤如下 (1-1)确定领域本体层次,将领域本体设计成层次型的结构,分为三个层次,事件层,模板层和概念层,并采用XML文档存储本体; (1-2)定义常用的事件,每个事件都用模板来具体化; (2)智能爬虫爬取模块从互联网上采集舆情信息,并存储到数据库中;具体步骤如下 (2-1)在数据库中定义需要采集信息的网站来源,包括新闻网站,论坛以及博客,并统一分成两类,即全国性的网站,和非全国性的网站; (2-2)智能爬虫爬取模块在指定网站来源爬取指定时间内的网页,下载与本体中定义的事件相关的网页,过滤掉大量与要监控的舆情无关的网页;具体爬取过程如下 (2-2-1)通过本体中定义的事件对网页进行分析,以此将与要监控的事件无关的链接过滤掉,剩下与事件有关的网络链接,将这些与事件有关的链接保留下来,并把它们存入等待抓取网页的URL队列里面; (2-2-2)完成上一步后,根据预先定义的搜索策略,从前面存入的URL队列中选出根据本搜索策略抓取的网页所对应的URL,重复过程(2-2-1),当满足了系统预设的停止条件后即所有满足条件的网站都已被标记则停止爬取过程; (2-3)信息预处理,对步骤(2-2)中爬取的网页信息进行处理,具体处理过程如下 (2-3-1)对web文档去web标签,采用htmlparser包提供的方法; (2-3-2)提取web文档的标题和正文; (2-3-3)抽取web文档发表的精确的时间; (2-3-4) web文档中有很多带链接的文字,对后续分析会产生一定的噪音,去掉文档中带链接的文字; (2-4)如果经预处理格式化后的网页与已经采集到的网页不重复就将下载的格式化后的网页文件储存到本地,供后续步骤使用,并将本地路径存储到数据库中以便读取本地文件;下载的时候存储的格式设定的为标题,内容,日期,网址,网站名; (3)命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块对采集到的舆情信息进行智能分析和加工;具体步骤如下 (3-A)命名实体自动抽取,自动对舆情监测的内容中包含的人物名称、地点名称和组织机构的名称即命名实体进行识别,并提取与之相关的信息;采用基于CRFs...

【专利技术属性】
技术研发人员:代松姬东鸿
申请(专利权)人:代松
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1