当前位置: 首页 > 专利查询>武汉大学专利>正文

基于社交媒体的突发事件应急信息挖掘方法技术

技术编号:14311957 阅读:89 留言:0更新日期:2016-12-27 22:57
本发明专利技术公开了一种基于社交媒体的突发事件应急信息挖掘方法,包括步骤:S1采用开放平台API或网页爬虫采集社交媒体数据,社交媒体数据即文档集;S2使用MongoDB集群存储文档集;S3文档集预处理;S4利用LDA标注预处理后的文档集,获得已知样本;S5 已知样本各文档中所有词语构成词语特征集,各词语特征在文档中的词频即该词语特征在该文档中的权重;S6构建短文本实时分类模型;S7采用短文本分类模型对实时突发事件进行分类,预测突发事件的主题;S8根据分类后突发事件的社交媒体数据进行信息挖掘。本发明专利技术可自动、快速地实现社交媒体短文本的分类,从而提挖掘突发事件应急信息。

【技术实现步骤摘要】

本专利技术涉及社交媒体
,尤其涉及一种基于社交媒体的突发事件应急信息挖掘方法
技术介绍
突发事件是指突然发生,造成或可能造成严重社会危害,需采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。伴随着我国工业化、城市化进程不断加快,突发事件不断发生。与此同时,我国是世界上受自然灾害影响最为严重的国家之一,灾害种类多,发生频度高,每年因自然灾害造成的损失巨大。根据民政部国家减灾办发布的数据显示:仅2014年各类自然灾害共造成全国24353.7万人次受灾,601.7万人次紧急转移安置,235人失踪,1583人死亡,45万间房屋倒塌,354.2万间不同程度损坏,298.3万人次需紧急生活救助,农作物受灾面积24890.7千公顷,其中绝收3090.3千公顷,直接经济损失3373.8亿元。自然灾害仅作为突发事件其中的一类,便造成了大量的人员伤亡和巨额的经济损失。突发事件的危害可见一斑。如何尽可能地减少突发事件导致的损失是亟待解决的问题。一方面,从突发事件的起始阶段来看,提高预警能力是一个降低突发事件所带来危害的有效途径。它有助于从源头上遏止突发事件的发生,或者,减少因应对时间不足而导致更多的损失。然而,对于自然灾害、事故灾难等随机性大的突发事件来说,这点实现起来比较困难。另一方面,从突发事件的发展阶段来看,有效、及时地获取应急信息是减少突发事件引致损失的重要途径。一旦突发事件发生,需及时地获取突发事件应急信息,并相应地采取应急处置措施,以减少突发事件带来的损失和危害。所以,如何快速、及时、有效地获取突发事件应急信息是能否应对好突发事件的关键性问题。传统的突发事件应急信息是由官方或权威机构采集、整理、发布的。其缺点主要表现在:采集过程缺乏大众的参与和反馈,信息来源比较单一;采集时效性低,甚至在突发事件发生后一段时间内不能及时获取事件的任何信息,如重大自然灾害;信息传播方向为官方至大众,呈单向流动,缺少反馈和沟通。这些不足使得传统的突发事件应急信息难以满足及时、有效、合理处置突发事件的需求。随着移动设备的广泛普及和通信技术的高速发展,社交媒体正成为人们重要的网络社交工具。作为国内最大的社交媒体平台,新浪微博已在中国及190多个国家的华人社区积累了庞大的用户群体。截至2013年12月,新浪微博月活跃用户数量和日活跃用户数量分别达到1.291亿和6140万。社交媒体是人们自发地撰写、分享、评价、讨论、相互沟通的工具。利用这种工具,公众可以透过简短的文字和丰富的多媒体数据及时地讲述着身边的所见所闻和发表对于重大事件(如地震,城市内涝)的看法。作为用户生成内容(User Generated Content,UGC)的一部分,社交媒体数据包含文本、图片、视频以及地理位置等数据。除内容形式多样外,社交媒体数据的数量庞大,且传播速度快、覆盖广。仅在2013年12月,新浪微博共有超过28亿条内容被分享,包括22亿条带图片内容,8170万条带短视频内容,以及2150万条带歌曲内容。仅在2013年10至12月,新浪微博有超过1.2亿次签到,即用户通过移动设备在微博内容中添加了自己的地理位置。社交媒体越来越多地被看作是随人群移动的传感器,感知着发生在周边的事件以及远处的其他突发事件,并在网络中互相共享和沟通。一旦某地有突发事件发生,事发地的人们会第一时间通过文字、图片以及视频向互联网广播事件的状态。与此同时,处在事发地外围的人们在社交网络上看到相关报道或讲述后,会纷纷作出及时的响应,最后与事件相关的信息就会很快充斥着整个社交网络。突发事件信息以社交媒体数据的形式在社交网络中广泛传播。综上所述,社交媒体具有的自发性、及时性、广泛参与性、内容多样性正好弥补了传统突发事件应急信息的不足。面对海量的社交媒体数据,如何快速、及时、准确地从中挖掘出突发事件应急信息是需要研究的关键问题。
技术实现思路
针对现有技术存在的不足,本专利技术提出了一种基于社交媒体的突发事件应急信息挖掘方法。为解决上述技术问题,本专利技术采用如下的技术方案:基于社交媒体的突发事件应急信息挖掘方法,包括步骤:一、基于社交媒体的突发事件分类方法,包括步骤:S1采用开放平台API或网页爬虫采集社交媒体数据,社交媒体数据即文档集;S2使用MongoDB集群存储文档集;S3文档集预处理,包括文档去重、文档分词、文档去停用词和去掉词语稀少的文档;S4利用LDA标注预处理后的文档集,获得已知样本,本步骤进一步包括:4.1分别计算预处理后文档集中各文档主题,获得文档-主题概率矩阵和主题-词语概率矩阵;4.2遍历文档-主题概率矩阵,将超过主题概率阈值λ的概率所对应的文档及主题作为已知样本,其中主题概率阈值λ为经验值,已知样本中文档由一系列词语构成;S5已知样本各文档中所有词语构成词语特征集,各词语特征在文档中的词频即该词语特征在该文档中的权重;S6构建短文本实时分类模型,本步骤进一步包括:6.1采用词语特征集及其中各词语特征的权值训练SVM获得SVM分类器,采用格网搜索法枚举一系列SVM的模型参数;6.2采用K-折交叉验证法逐一验证各模型参数下的SVM分类器,将预报误差最小的模型参数作为最优模型参数,最优模型参数对应的SVM分类器即短文本实时分类模型;S7基于实时突发事件社交媒体数,采用短文本分类模型对实时突发事件进行分类,预测突发事件的主题。步骤S1中,采用开放平台API采集社交媒体数据,具体为:使用多个搜索中心点,以指定搜索半径进行缓冲区分析,使得缓冲区覆盖整个突发事件发生区域,从而获得突发事件发生区域的社交媒体数据。步骤S1中,采用网页爬虫采集社交媒体数据,具体为:采用定制爬虫,通过输入关键词、区域段、时间范围抓取社交媒体数据。二、一种基于社交媒体的突发事件应急信息挖掘方法,包括步骤:采用权利要求1所述方法对实时突发事件进行分类,根据分类后突发事件的社交媒体数据进行信息挖掘。所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括:根据分类后突发事件的社交媒体数据获得参与突发事件讨论的社交媒体用户数在时间上的变化趋势。所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括:根据分类后突发事件的社交媒体数据分析参与各主题突发事件的社交媒体用户数随时间的变化趋势。所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括:根据分类后突发事件的社交媒体数据分析各主题突发事件社交媒体数据发布的空间位置信息。所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括:根据分类后突发事件的社交媒体数据分析各主题突发事件社交媒体数据发布的空间位置信息,根据空间位置信息采用多层贪心聚类法对突发事件微博点进行聚类。所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括:根据分类后突发事件的社交媒体数据分析各主题突发事件社交媒体数据发布的空间位置信息,根据空间位置信息采用多层贪心聚类法对突发事件微博点进行聚类,从而获得热点密集区域,对热点密集区域进行核密度估计检测获得热点区域。和现有技术相比,本专利技术具有如下优点和有益效果:(1)支持实时、快速获取与突发事件相关的社交媒体数据;(2)可自动、快速地实现社交媒体短文本的分类,从而提取突发事件应急信息;(3)从时间、空间角度,分本文档来自技高网
...

【技术保护点】
基于社交媒体的突发事件分类方法,其特征是,包括步骤:S1采用开放平台API或网页爬虫采集社交媒体数据,社交媒体数据即文档集;S2使用MongoDB集群存储文档集;S3文档集预处理,包括文档去重、文档分词、文档去停用词和去掉词语稀少的文档;S4利用LDA标注预处理后的文档集,获得已知样本,本步骤进一步包括:4.1分别计算预处理后文档集中各文档主题,获得文档‑主题概率矩阵和主题‑词语概率矩阵;4.2遍历文档‑主题概率矩阵,将超过主题概率阈值λ的概率所对应的文档及主题作为已知样本,其中主题概率阈值λ为经验值,已知样本中文档由一系列词语构成;S5已知样本各文档中所有词语构成词语特征集,各词语特征在文档中的词频即该词语特征在该文档中的权重;S6构建短文本实时分类模型,本步骤进一步包括:6.1采用词语特征集及其中各词语特征的权值训练SVM获得SVM分类器,采用格网搜索法枚举一系列SVM的模型参数;6.2采用K‑折交叉验证法逐一验证各模型参数下的SVM分类器,将预报误差最小的模型参数作为最优模型参数,最优模型参数对应的SVM分类器即短文本实时分类模型;S7基于实时突发事件社交媒体数,采用短文本分类模型对实时突发事件进行分类,预测突发事件的主题。...

【技术特征摘要】
1.基于社交媒体的突发事件分类方法,其特征是,包括步骤:S1采用开放平台API或网页爬虫采集社交媒体数据,社交媒体数据即文档集;S2使用MongoDB集群存储文档集;S3文档集预处理,包括文档去重、文档分词、文档去停用词和去掉词语稀少的文档;S4利用LDA标注预处理后的文档集,获得已知样本,本步骤进一步包括:4.1分别计算预处理后文档集中各文档主题,获得文档-主题概率矩阵和主题-词语概率矩阵;4.2遍历文档-主题概率矩阵,将超过主题概率阈值λ的概率所对应的文档及主题作为已知样本,其中主题概率阈值λ为经验值,已知样本中文档由一系列词语构成;S5已知样本各文档中所有词语构成词语特征集,各词语特征在文档中的词频即该词语特征在该文档中的权重;S6构建短文本实时分类模型,本步骤进一步包括:6.1采用词语特征集及其中各词语特征的权值训练SVM获得SVM分类器,采用格网搜索法枚举一系列SVM的模型参数;6.2采用K-折交叉验证法逐一验证各模型参数下的SVM分类器,将预报误差最小的模型参数作为最优模型参数,最优模型参数对应的SVM分类器即短文本实时分类模型;S7基于实时突发事件社交媒体数,采用短文本分类模型对实时突发事件进行分类,预测突发事件的主题。2.如权利要求1所述的基于社交媒体的突发事件分类方法,其特征是:采用开放平台API采集社交媒体数据,具体为:使用多个搜索中心点,以指定搜索半径进行缓冲区分析,使得缓冲区覆盖整个突发事件发生区域,从而获得突发事件发生区域的社交媒体数据。3.如权利要求1所述的基于社交媒体的突发事件分类方法,其特征是:采用网页爬虫采集社交媒体数据,具体为:采用定制爬虫,通过输入关键词、区域段、时间范...

【专利技术属性】
技术研发人员:王艳东朱建奇王腾郭丰芹
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1