基于社交媒体的突发事件应急信息挖掘方法技术

技术编号：14311957 阅读：89 留言：0更新日期：2016-12-27 22:57

本发明专利技术公开了一种基于社交媒体的突发事件应急信息挖掘方法，包括步骤：S1采用开放平台API或网页爬虫采集社交媒体数据，社交媒体数据即文档集；S2使用MongoDB集群存储文档集；S3文档集预处理；S4利用LDA标注预处理后的文档集，获得已知样本；S5 已知样本各文档中所有词语构成词语特征集，各词语特征在文档中的词频即该词语特征在该文档中的权重；S6构建短文本实时分类模型；S7采用短文本分类模型对实时突发事件进行分类，预测突发事件的主题；S8根据分类后突发事件的社交媒体数据进行信息挖掘。本发明专利技术可自动、快速地实现社交媒体短文本的分类，从而提挖掘突发事件应急信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及社交媒体
，尤其涉及一种基于社交媒体的突发事件应急信息挖掘方法。
技术介绍
突发事件是指突然发生，造成或可能造成严重社会危害，需采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。伴随着我国工业化、城市化进程不断加快，突发事件不断发生。与此同时，我国是世界上受自然灾害影响最为严重的国家之一，灾害种类多，发生频度高，每年因自然灾害造成的损失巨大。根据民政部国家减灾办发布的数据显示：仅2014年各类自然灾害共造成全国24353.7万人次受灾，601.7万人次紧急转移安置，235人失踪，1583人死亡，45万间房屋倒塌，354.2万间不同程度损坏，298.3万人次需紧急生活救助，农作物受灾面积24890.7千公顷，其中绝收3090.3千公顷，直接经济损失3373.8亿元。自然灾害仅作为突发事件其中的一类，便造成了大量的人员伤亡和巨额的经济损失。突发事件的危害可见一斑。如何尽可能地减少突发事件导致的损失是亟待解决的问题。一方面，从突发事件的起始阶段来看，提高预警能力是一个降低突发事件所带来危害的有效途径。它有助于从源头上遏止突发事件的发生，或者，减少因应对时间不足而导致更多的损失。然而，对于自然灾害、事故灾难等随机性大的突发事件来说，这点实现起来比较困难。另一方面，从突发事件的发展阶段来看，有效、及时地获取应急信息是减少突发事件引致损失的重要途径。一旦突发事件发生，需及时地获取突发事件应急信息，并相应地采取应急处置措施，以减少突发事件带来的损失和危害。所以，如何快速、及时、有效地获取突发事件应急信息是能否应对好突发事件的...

【技术保护点】
基于社交媒体的突发事件分类方法，其特征是，包括步骤：S1采用开放平台API或网页爬虫采集社交媒体数据，社交媒体数据即文档集；S2使用MongoDB集群存储文档集；S3文档集预处理，包括文档去重、文档分词、文档去停用词和去掉词语稀少的文档；S4利用LDA标注预处理后的文档集，获得已知样本，本步骤进一步包括：4.1分别计算预处理后文档集中各文档主题，获得文档‑主题概率矩阵和主题‑词语概率矩阵；4.2遍历文档‑主题概率矩阵，将超过主题概率阈值λ的概率所对应的文档及主题作为已知样本，其中主题概率阈值λ为经验值，已知样本中文档由一系列词语构成；S5已知样本各文档中所有词语构成词语特征集，各词语特征在文档中的词频即该词语特征在该文档中的权重；S6构建短文本实时分类模型，本步骤进一步包括：6.1采用词语特征集及其中各词语特征的权值训练SVM获得SVM分类器，采用格网搜索法枚举一系列SVM的模型参数；6.2采用K‑折交叉验证法逐一验证各模型参数下的SVM分类器，将预报误差最小的模型参数作为最优模型参数，最优模型参数对应的SVM分类器即短文本实时分类模型；S7基于实时突发事件社交媒体数，采用短文本分类模...

【技术特征摘要】
1.基于社交媒体的突发事件分类方法，其特征是，包括步骤：S1采用开放平台API或网页爬虫采集社交媒体数据，社交媒体数据即文档集；S2使用MongoDB集群存储文档集；S3文档集预处理，包括文档去重、文档分词、文档去停用词和去掉词语稀少的文档；S4利用LDA标注预处理后的文档集，获得已知样本，本步骤进一步包括：4.1分别计算预处理后文档集中各文档主题，获得文档-主题概率矩阵和主题-词语概率矩阵；4.2遍历文档-主题概率矩阵，将超过主题概率阈值λ的概率所对应的文档及主题作为已知样本，其中主题概率阈值λ为经验值，已知样本中文档由一系列词语构成；S5已知样本各文档中所有词语构成词语特征集，各词语特征在文档中的词频即该词语特征在该文档中的权重；S6构建短文本实时分类模型，本步骤进一步包括：6.1采用词语特征集及其中各词语特征的权值训练SVM获得SVM分类器，采用格网搜索法枚举一系列SVM的模型参数；6.2采用K-折交叉验证法逐一验证各模型参数下的SVM分类器，将预报误差最小的模型参数作为最优模型参数，最优模型参数对应的SVM分类器即短文本实时分类模型；S7基于实时突发事件社交媒体数，采用短文本分类模型对实时突发事件进行分类，预测突发事件的主题。2.如权利要求1所述的基于社交媒体的突发事件分类方法，其特征是：采用开放平台API采集社交媒体数据，具体为：使用多个搜索中心点，以指定搜索半径进行缓冲区分析，使得缓冲区覆盖整个突发事件发生区域，从而获得突发事件发生区域的社交媒体数据。3.如权利要求1所述的基于社交媒体的突发事件分类方法，其特征是：采用网页爬虫采集社交媒体数据，具体为：采用定制爬虫，通过输入关键词、区域段、时间范...

【专利技术属性】
技术研发人员：王艳东，朱建奇，王腾，郭丰芹，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人