当前位置: 首页 > 专利查询>代松专利>正文

一种基于语义的网络智能舆情监测系统及其工作方法技术方案

技术编号：7843301 阅读：237 留言：0更新日期：2012-10-13 01:39

本发明专利技术属于自然语言处理领域，特别涉及一种基于语义的网络智能舆情监测系统及其工作方法，该方法采用智能爬虫技术、命名实体抽取技术、概念智能识别技术、基于语义的倾向性分析技术、话题抽取技术、智能统计分析等；其搜索的结果不是简单的包含某个或某类关键词的网页集合，而是与所设定的监测事件具有相同语义（即在意义上相同）的文本信息，具有较高的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理领域，特别涉及。
技术介绍
近年来，互联网发展迅速，作为继电视、广播、报纸之外的第四媒体，已经成为反映社会舆情的一个重要载体。另一方面，由于网络的开放性和虚拟性，网上舆情已经越来越复杂，对现实生活的影响与日俱增，一些重大的网络舆情事件往往对社会产生较大的影响力。舆情监测的目的，即为准确有效地掌握网络舆情现状，加强对网络舆情的及时监测和跟踪，以便准确快速地发现互联网上的各类舆情，产生舆论导向并积极化解舆论危机，对促进社会和企业的健康发展具有重要的现实意义。对政府部门、公众媒体和大型企业来说，如何加强对网络舆情的及时监测，以及时采取措施进行有效应对，成为网络舆情管理的一大难点。
技术实现思路
本专利技术就是针对上述
技术介绍
中的不足之处，而提出的，其搜索的结果不是简单的包含某个或某类关键词的网页集合，而是与所设定的监测事件具有相同语义(即在意义上相同)的文本信息，具有较高的准确率。本专利技术的目的是通过如下技术措施来实现的。一种基于语义的网络智能舆情监测系统，该系统包括智能爬虫爬取模块、命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题抽取模块和智能统计分析模块，所述智能爬虫爬取模块用于从互联网上采集舆情信息，并存储到数据库中，所述命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块用于对舆情信息进行智能分析和加工，所述智能统计分析模块把舆情信息中经过分析处理的数据以各种形式展现给用户并提供预警。各模块具体功能如下智能爬虫爬取模块传统的舆情监测系统采用关键词或关键词组合的方式进行搜索，该方法...

【技术保护点】

【技术特征摘要】
1.一种基于语义的网络智能舆情监测系统，其特征是该系统包括智能爬虫爬取模块、命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题抽取模块和智能统计分析模块，所述智能爬虫爬取模块用于从互联网上采集舆情信息，并存储到数据库中，所述命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块用于对舆情信息进行智能分析和加工，所述智能统计分析模块把舆情信息中经过分析处理的数据以各种形式展现给用户并提供预警。2.如权利要求I所述的一种基于语义的网络智能舆情监测系统的工作方法，其特征在于该方法包括以下步骤 (1)构建语义本体，用XML文档描述本体，在构建好本体以后,通过解析XML文档，将本体存储到数据库中，便于其它模块使用；具体构建步骤如下 (1-1)确定领域本体层次，将领域本体设计成层次型的结构，分为三个层次，事件层，模板层和概念层，并采用XML文档存储本体； (1-2)定义常用的事件，每个事件都用模板来具体化； (2)智能爬虫爬取模块从互联网上采集舆情信息，并存储到数据库中；具体步骤如下 (2-1)在数据库中定义需要采集信息的网站来源，包括新闻网站，论坛以及博客，并统一分成两类，即全国性的网站，和非全国性的网站； (2-2)智能爬虫爬取模块在指定网站来源爬取指定时间内的网页，下载与本体中定义的事件相关的网页，过滤掉大量与要监控的舆情无关的网页；具体爬取过程如下 (2-2-1)通过本体中定义的事件对网页进行分析，以此将与要监控的事件无关的链接过滤掉，剩下与事件有关的网络链接，将这些与事件有关的链接保留下来，并把它们存入等待抓取网页的URL队列里面； (2-2-2)完成上一步后，根据预先定义的搜索策略，从前面存入的URL队列中选出根据本搜索策略抓取的网页所对应的URL，重复过程(2-2-1)，当满足了系统预设的停止条件后即所有满足条件的网站都已被标记则停止爬取过程； (2-3)信息预处理，对步骤(2-2)中爬取的网页信息进行处理，具体处理过程如下 (2-3-1)对web文档去web标签,采用htmlparser包提供的方法； (2-3-2)提取web文档的标题和正文； (2-3-3)抽取web文档发表的精确的时间； (2-3-4) web文档中有很多带链接的文字，对后续分析会产生一定的噪音，去掉文档中带链接的文字； (2-4)如果经预处理格式化后的网页与已经采集到的网页不重复就将下载的格式化后的网页文件储存到本地，供后续步骤使用，并将本地路径存储到数据库中以便读取本地文件；下载的时候存储的格式设定的为标题，内容，日期，网址，网站名； (3)命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块对采集到的舆情信息进行智能分析和加工；具体步骤如下 (3-A)命名实体自动抽取，自动对舆情监测的内容中包含的人物名称、地点名称和组织机构的名称即命名实体进行识别，并提取与之相关的信息；采用基于CRFs...

【专利技术属性】
技术研发人员：代松，姬东鸿，
申请(专利权)人：代松，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人