一种基于微博的事件实时监测方法及系统技术方案

技术编号:10279517 阅读:117 留言:0更新日期:2014-08-02 21:12
本发明专利技术涉及一种基于微博的事件实时监测方法及系统,所述方法包括:异常事件检测步骤,输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件;地理位置定位步骤,在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。此外,还包括有相关事件推荐步骤和/或事件相关度分析步骤。本发明专利技术对用户所关心的事件进行实时监测,监控该事件在微博平台上的传播和发展趋势,能精准地挖掘出事件发生的异常时间点和地理位置,并推荐给用户其感兴趣的话题。

【技术实现步骤摘要】
一种基于微博的事件实时监测方法及系统
本专利技术涉及信息安全和数据挖掘领域,特别是涉及一种基于微博的事件实时监测方法及系统。
技术介绍
微博,即微博客(Micro-blog),作为Web2.0的产物,是一个基于用户关系信息分享、传播以及获取的平台,用户可以通过WEB、WAP等客户端组建个人社区,以最多140字左右的文字更新信息,并实现即时分享。微博作为一种新型的社交传播媒体,发展迅猛,具有传播速度快、互动性强、信息更新方便等特点,其已经对社会生活产生巨大影响,强势有力的成为我国主要传播媒介之一。比起传统媒体,微博更可能占据信息发布的制高点,这点在突发事件中表现尤为突出。例如2009年11月,西安发生4.4级地震,微博只用了不到I分钟就对该事件做了报道,而国家官方网站第一次发布该信息是在15分钟之后。可见,微博的出现拓宽了信息传播的渠道,对经济的发展,社会的进步,科技的普及起到了积极的作用。但是另一方面,随之产生的负面问题也越来越多,比如以下两个方面。1、反动、淫秽、迷信、暴力等有害信息在微博上传播,严重危害了国家和社会的稳定,侵蚀人民的思想。譬如恐怖分子在微博上呼吁打砸抢烧,煽动民族动乱等。2、社会突发事件经微博快速传播后,造成网络上的小道消息流传,容易引起公众的不理性判断和混乱行为,从而酿成严重后果,特别是经过实名大V账号转发。譬如突尼斯“茉莉花革命”,推手们通过微博推波助澜,最终导致政局动荡。如何有效利用社交媒体良好的信息传播特性,同时应对和解决其产生的负面影响?针对此问题,本专利技术提出了一种基于微博的事件实时监测方法及系统。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于微博的事件实时监测方法及系统,用于解决高效、实时地进行微博事件监测的问题。本专利技术解决上述技术问题的技术方案如下:一种基于微博的事件实时监测方法,包括:异常事件检测步骤:输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件;地理位置定位步骤:在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,所述异常事件检测步骤具体包括:步骤Al,输入事件关键词,获取与事件关键词相关的微博,并对获取的所有微博进行数据量化,产生一组数据,并初始化该组数据的平均值mean和方差meandev ;步骤A2,对于产生的一组数据中的点Ci,判断是否满足以下条件:本文档来自技高网...
一种基于微博的事件实时监测方法及系统

【技术保护点】
一种基于微博的事件实时监测方法,其特征在于,包括:异常事件检测步骤:输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件;地理位置定位步骤:在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。

【技术特征摘要】
1.一种基于微博的事件实时监测方法,其特征在于,包括: 异常事件检测步骤:输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件; 地理位置定位步骤:在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。2.根据权利要求1所述的事件实时监测方法,其特征在于,所述异常事件检测步骤具体包括: 步骤Al,输入事件关键词,获取与事件关键词相关的微博,并对获取的所有微博进行数据量化,产生一组数据,并初始化该组数据的平均值mean和方差meandev ; 步骤A2,对于产生的一组数据中的点Ci,判断是否满足以下条件: 3.根据权利要求2所述的事件实时监测方法,其特征在于,所述步骤A3中,当基于点Ci存在一个波峰区间时,该波峰区间的起点索引为i_l,终点索引需要先使用贪心算法得到伪终点索引,然后再通过对该伪终点索引进行修正而得到真正的终点索引。4.根据权利要求1所述的事件实时监测方法,其特征在于,所述地理位置定位步骤具体包括: 步骤BI,抽取每一条与异常事件相关的微博文本内容中的地理位置实体,并对抽取出的地理位置实体进行分析,获得事件发生的地理位置集合; 步骤B2,采用聚类的方式从事件发生的地理位置集合中筛选出群体性地理位置实体; 步骤B3,将筛选出的群体性地理位置实体转变为便于展示的信息格式。5.根据权利要求4所述的事件实时监测方法,其特征在于,所述步骤BI具体包括: 步骤B11,选取一条与异常事件相关的微博文本内容进行中文分词,并抽取其中所有的地理位置实体,同时记录事件的关键词与抽取的地理位置实体在微博文本中的位置索引;步骤B12,根据步骤Bll记录的位置索引,计算抽取到的地理位置实体与事件关键词之间的距离,保存与事件关键词最近的地理实体位置的距离; 步骤B13,对步骤Bll抽取到的每个地理位置实体附加权重,权重取值为事件关键词与该地理实体位置之间的距离; 步骤B14,根据实际的地理位置级别关系,整理步骤Bll抽取出的地理位置实体,只保留最细粒度的地理位置实体,且不改变步骤B13为其附加的权重; 步骤B15,从保留的最细粒度的地理位置实体中,选取事件发生的地理位置; 步骤B16,对每一条与异常事件相关的微博文本...

【专利技术属性】
技术研发人员:李凌云张鹏曹亚男乔治敖吉谭建龙郭莉
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1