一种微博舆情监控方法及监控系统技术方案

技术编号：11312657 阅读：147 留言：0更新日期：2015-04-16 14:49

本发明专利技术涉及一种微博舆情监控系统及方法，所述系统包括用于爬取微博实时数据并写入数据库的数据采集模；用于按照预定算法对预定时间内的微博实时数据进行排序，筛选出特定时间段内的热门微博的热门微博检测模块；用于将微博文本向量化，对向量化的微博文本进行聚类，选取各类中热度最大的微博作为监测到的异常微博的异常微博监控模块；用于根据预设阈值显示相应条数的热门微博和异常微博的数据显示模块。本发明专利技术可快速的分析一段时间内的微博，提取出最热微博，跟踪最热门的微博话题；监控一段时间内的实时微博，检测出最近一段时间内的异常微博，系统能够自动进行数据清洗，算法采用成熟的聚类方法具有较高的稳定性和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种微博舆情监控系统及方法，所述系统包括用于爬取微博实时数据并写入数据库的数据采集模；用于按照预定算法对预定时间内的微博实时数据进行排序，筛选出特定时间段内的热门微博的热门微博检测模块；用于将微博文本向量化，对向量化的微博文本进行聚类，选取各类中热度最大的微博作为监测到的异常微博的异常微博监控模块；用于根据预设阈值显示相应条数的热门微博和异常微博的数据显示模块。本专利技术可快速的分析一段时间内的微博，提取出最热微博，跟踪最热门的微博话题；监控一段时间内的实时微博，检测出最近一段时间内的异常微博，系统能够自动进行数据清洗，算法采用成熟的聚类方法具有较高的稳定性和准确率。【专利说明】一种微博舆情监控方法及监控系统
本专利技术涉及自然语言处理领域，尤其涉及一种微博舆情监控方法及监控系统。
技术介绍
微博是近年来出现的新兴媒体，具有便捷性、背对脸和原创性等特性。在数据爆炸的今天，用户不可能通过阅读大量的微博信息来获取实时的突发事件。因此，从海量微博数据中挖掘出用户感兴趣的突发事件，是非常有意义的。现有技术中按照突发特征识别的顺序挖掘突发事件，突发事件识别可以分为以文本为中心的方法和以突发特征为中心的方法。前者是先进行文本聚类，再在类中抽取出突发特征，进行突发事件的识别；后者是先抽取出突发特征，再对突发特征进行分组，使用突发特征组进行突发事件的识别。以文本为中心的方法针对传统的文本，效果较好，但是微博文本稀疏并且含有很多垃圾信息，先进行聚类再进行突发特征识别会引入很多噪声信息，并且在文本聚类时还存在较多阈值的...

【技术保护点】
一种微博舆情监控方法，其特征在于，包括如下步骤：爬取微博实时数据并写入数据库；按照预定算法对第一预定时间段内的微博实时数据进行排序，筛选出第一预定时间段内的热门微博；对第二预定时间段内的由微博数据构成的微博文本进行突发词抽取,进而进行向量化，对向量化的微博文本进行聚类，选取各类中异常值最大的微博作为监测到的异常微博；根据预设阈值显示相应条数的热门微博和异常微博。

【技术特征摘要】

【专利技术属性】
技术研发人员：姬东鸿，王路路，白旭，
申请(专利权)人：北京牡丹电子集团有限责任公司数字电视技术中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人