一种微博舆情监控方法及监控系统技术方案

技术编号:11312657 阅读:147 留言:0更新日期:2015-04-16 14:49
本发明专利技术涉及一种微博舆情监控系统及方法,所述系统包括用于爬取微博实时数据并写入数据库的数据采集模;用于按照预定算法对预定时间内的微博实时数据进行排序,筛选出特定时间段内的热门微博的热门微博检测模块;用于将微博文本向量化,对向量化的微博文本进行聚类,选取各类中热度最大的微博作为监测到的异常微博的异常微博监控模块;用于根据预设阈值显示相应条数的热门微博和异常微博的数据显示模块。本发明专利技术可快速的分析一段时间内的微博,提取出最热微博,跟踪最热门的微博话题;监控一段时间内的实时微博,检测出最近一段时间内的异常微博,系统能够自动进行数据清洗,算法采用成熟的聚类方法具有较高的稳定性和准确率。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种微博舆情监控系统及方法,所述系统包括用于爬取微博实时数据并写入数据库的数据采集模;用于按照预定算法对预定时间内的微博实时数据进行排序,筛选出特定时间段内的热门微博的热门微博检测模块;用于将微博文本向量化,对向量化的微博文本进行聚类,选取各类中热度最大的微博作为监测到的异常微博的异常微博监控模块;用于根据预设阈值显示相应条数的热门微博和异常微博的数据显示模块。本专利技术可快速的分析一段时间内的微博,提取出最热微博,跟踪最热门的微博话题;监控一段时间内的实时微博,检测出最近一段时间内的异常微博,系统能够自动进行数据清洗,算法采用成熟的聚类方法具有较高的稳定性和准确率。【专利说明】一种微博舆情监控方法及监控系统
本专利技术涉及自然语言处理领域,尤其涉及一种微博舆情监控方法及监控系统。
技术介绍
微博是近年来出现的新兴媒体,具有便捷性、背对脸和原创性等特性。在数据爆炸的今天,用户不可能通过阅读大量的微博信息来获取实时的突发事件。因此,从海量微博数据中挖掘出用户感兴趣的突发事件,是非常有意义的。 现有技术中按照突发特征识别的顺序挖掘突发事件,突发事件识别可以分为以文本为中心的方法和以突发特征为中心的方法。前者是先进行文本聚类,再在类中抽取出突发特征,进行突发事件的识别;后者是先抽取出突发特征,再对突发特征进行分组,使用突发特征组进行突发事件的识别。 以文本为中心的方法针对传统的文本,效果较好,但是微博文本稀疏并且含有很多垃圾信息,先进行聚类再进行突发特征识别会引入很多噪声信息,并且在文本聚类时还存在较多阈值的选取问题,阈值选取大多是根据经验值来设定,对聚类结果比较敏感。以突发特征为中心的方法避免了阈值的问题,但是没有很好地解决垃圾信息的问题。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种微博舆情监控方法及监控系统。 本专利技术解决上述技术问题的技术方案如下:一种微博舆情监控方法,包括如下步骤: 爬取微博实时数据并写入数据库; 按照预定算法对第一预定时间段内的微博实时数据进行排序,筛选出第一预定时间段内的热门微博; 对第二预定时间段内的由微博数据构成的微博文本进行突发词抽取,进而进行向量化,对向量化的微博文本进行聚类,选取各类中异常值最大的微博作为监测到的异常微博; 根据预设阈值显示相应条数的热门微博和异常微博。 本专利技术的有益效果是:本专利技术可快速的分析一段时间内的微博,提取出最近一段时间内的最热微博,跟踪最近一段时间内的最热门的微博话题;监控一段时间内的实时微博,检测出最近一段时间内的异常微博,系统能够自动进行数据清洗,算法采用成熟的聚类方法具有较高的稳定性和准确率。 在上述技术方案的基础上,本专利技术还可以做如下改进。 进一步,利用网络爬虫爬取微博实时数据,并写入数据库便于进行数据分析。 进一步,所述按照预定算法对第一预定时间段内的微博实时数据进行排序,筛选出特定时间段内的热门微博的具体操作为:对第一预定时间段内的微博实时数据分别按照转发量、评论量和热度进行排序,根据微博实时数据的转发量和评论量筛选出最热门的微博,对其进行跟踪。 进一步,将第二预定时间段内的由微博数据构成微博文本向量化,对向量化的微博文本进行聚类,选取各类中热度最大的微博作为监测到的异常微博的具体操作为: 步骤A:对爬取的微博文本进行数据清洗; 步骤B:从清洗后的微博文本中根据词增长率和TF-1DF值抽取突发词en ; 步骤C:将第二预定时间段内的每个微博文本向量化表示成突发词微博文本text—{θ?,θ2?...θπ); 其中,text表示突发词微博文本,en表示抽取的突发词,利用该公式将微博文本表示成突发词微博文本; 步骤D:对突发词微博文本进行聚类,选取各类中热度最大的微博作为监测到的异常微博。 进一步,所述步骤D中对突发词微博文本进行聚类,选取各类中热度最大的微博作为监测到的异常微博的具体操作为:利用k-means对突发词微博文本进行聚类,对每个类簇根据如下公式计算其异常值: hottweet=入 1*N MplyC_t+λ 2*Nretweetc_t 其中,队_。_和N_Mt&)Unt分别表示单条微博的评论数和转发数,λ I和λ 2为两个参数,且λ 1+ λ 2 = I。 本专利技术解决上述技术问题的另一技术方案如下:一种微博舆情监控系统,包括数据采集模块、热门微博检测模块、异常微博监控模块、数据库和数据显示模块; 所述数据采集模块,其用于爬取微博实时数据并写入数据库; 所述热门微博检测模块,其用于按照预定算法对第一预定时间段内的微博实时数据进行排序,筛选出第一预定时间段内的热门微博; 所述异常微博监控模块,其用于将第二预定时间段内的由微博数据构成的微博文本进行突发词抽取,进而进行向量化,对向量化的微博文本进行聚类,选取各类中异常值最大的微博作为监测到的异常微博;; 所述数据显示模块,其用于根据预设阈值显示相应条数的热门微博和异常微博。 在上述技术方案的基础上,本专利技术还可以做如下改进。 进一步,所述数据采集模块利用网络爬虫爬取微博实时数据,并写入数据库便于进行数据分析。 进一步,所述热门微博检测模块对第一预定时间段内的微博实时数据分别按照转发量、评论量和热度进行排序,根据微博实时数据的转发量和评论量筛选出最热门的微博,对其进行跟踪。 进一步,所述异常微博监控模块包括数据清洗单元、突发词抽取单元、微博向量化单元和微博聚类单元; 所述数据清洗单元,其用于对爬取的微博文本进行数据清洗; 所述突发词抽取单元,其用于从清洗后的微博文本中根据词增长率和TF-1DF值抽取突发词; 所述微博向量化单元,将第二预定时间段内的每个微博文本向量化表示成突发词微博文本 text = {el, e2,...en}; 其中,text表示突发词微博文本,en表示抽取的突发词,利用该公式将微博文本表示成突发词微博文本; 所述微博聚类单元,其用于对突发词微博文本进行聚类,选取各类中热度最大的微博作为监测到的异常微博。 进一步,所述微博聚类单元利用k-means对突发词文件进行聚类,对每个类簇根据如下公式计算其异常值: hottweet=入 1*N MplyC_t+λ 2*Nretweetc_t 其中,队_。_和N,—_t分别表示单条微博的评论数和转发数,λ I和λ 2为两个参数,且λ 1+ λ 2 = I。 【专利附图】【附图说明】 图1为本专利技术所述一种微博舆情监控系统框图; 图2为本专利技术所述监控异常微博的方法流程图。 附图中,各标号所代表的部件列表如下: 1、数据采集模块,2、热门微博检测模块,3、异常微博监控模块,4、数据库,5、数据显示模块,31、数据清洗单元,32、突发词抽取单元,33、微博向量化单元,34、微博聚类单元。 【具体实施方式】 以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。 如图1所示,一种微博舆情监控系统,包括数据采集模块1、热门微博检测模块2、异常微博监控模块3、数据库4和数据显示模块5 ;所述数据采集模块1,其用于爬取微博本文档来自技高网
...

【技术保护点】
一种微博舆情监控方法,其特征在于,包括如下步骤:爬取微博实时数据并写入数据库;按照预定算法对第一预定时间段内的微博实时数据进行排序,筛选出第一预定时间段内的热门微博;对第二预定时间段内的由微博数据构成的微博文本进行突发词抽取,进而进行向量化,对向量化的微博文本进行聚类,选取各类中异常值最大的微博作为监测到的异常微博;根据预设阈值显示相应条数的热门微博和异常微博。

【技术特征摘要】

【专利技术属性】
技术研发人员:姬东鸿王路路白旭
申请(专利权)人:北京牡丹电子集团有限责任公司数字电视技术中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1