一种微博热点事件挖掘方法技术

技术编号：20329268 阅读：840 留言：0更新日期：2019-02-13 05:49

本发明专利技术涉及一种微博热点事件挖掘方法，属于数据处理技术领域。首先爬取微博数据，建立微博数据库；然后对爬取的微博数据进行预处理；接着对预处理后的微博数据进行命名实体识别；再根据预处理和命名实体识别后的结果，提取微博数据的实体和事件触发词，从而确定每一条微博所表达的事件，最后计算微博之间的相似度，分析相似度结果、发布人信息和发布时间，获取微博热点事件。本发明专利技术与现有技术相比，主要解决了微博的预处理过程中缺乏大量完备的训练语料以及命名实体识别环节中由于微博数据的不规范性，导致在识别实体的过程中会存在很大的误差，从而使得微博的事件抽取准确率低的现象，以提高微博热点事件挖掘的高效性。

全部详细技术资料下载

【技术实现步骤摘要】
一种微博热点事件挖掘方法
本专利技术涉及一种微博热点事件挖掘方法，属于数据处理

技术介绍
近年来，微博等社交媒体平台大量涌现，微博作为一种具有代表性的新型传播媒体，现在己经成为人们表达想法、分享信息、交流意见的一种最流行的网络工具，相比于正式的新闻文本，微博有利于更准确，更及时地提取更丰富的事件信息，通过对微博中热点事件的挖掘，我们可以及时了解国内外发生的大小事件，了解人们对各种事件的反应和看法，筛选出有用的信息，对于实时监控、风险评估分析以及决策支持等都有很好的辅助作用。一般地，由于微博数据具有信息更新速度快的特点，所以对于传统的微博预处理技术往往缺乏大量完备的训练语料；同时，由于每条微博篇幅短小，包含的信息量有限，所以对于传统的微博命名实体识别技术来说，难以充分融合大量相关信息，以上所述都会给微博热点事件的挖掘造成困难。
技术实现思路
本专利技术要解决的技术问题是针对现有技术的局限和不足，提供一种微博热点事件挖掘方法，主要解决了微博的预处理过程中缺乏大量完备的训练语料以及命名实体识别环节中由于微博数据的不规范性，导致在识别实体的过程中会存在很大的误差，从而使得微博的事件抽取准确率低的现象，以提高微博热点事件挖掘的高效性。本专利技术的技术方案是：一种微博热点事件挖掘方法，具体包括以下6个步骤：①爬取微博数据，建立微博数据库。②对爬取的微博数据进行预处理。③对预处理后的微博数据进行命名实体识别。④根据预处理和命名实体识别后的结果，提取微博数据的实体和事件触发词。⑤结合实体和触发词，确定每一条微博所表达的事件，计算微博之间的相似度。⑥分析相似度结果、发...

【技术保护点】
1.一种微博热点事件挖掘方法，其特征在于：①爬取微博数据，建立微博数据库。②对爬取的微博数据进行预处理。③对预处理后的微博数据进行命名实体识别。④根据预处理和命名实体识别后的结果，提取微博数据的实体和事件触发词。⑤结合实体和触发词，确定每一条微博所表达的事件，计算微博之间的相似度。⑥分析相似度结果、发布人信息和发布时间，获取微博热点事件。

【技术特征摘要】
1.一种微博热点事件挖掘方法，其特征在于：①爬取微博数据，建立微博数据库。②对爬取的微博数据进行预处理。③对预处理后的微博数据进行命名实体识别。④根据预处理和命名实体识别后的结果，提取微博数据的实体和事件触发词。⑤结合实体和触发词，确定每一条微博所表达的事件，计算微博之间的相似度。⑥分析相似度结果、发布人信息和发布时间，获取微博热点事件。2.根据权利要求1所述的微博热点事件挖掘方法，其特征在于：所述步骤①中建立微博数据库的过程为：根据微博的发布时间按照顺序爬取10万条微博数据，包括微博文本、发布人和发布时间；再将微博文本、发布人和发布时间写入本地数据库中。3.根据权利要求1所述的微博热点事件挖掘方法，其特征在于：所述步骤②中预处理包括对微博数据进行过滤、分词和词性标注。4.根据权利要求3所述的微博热点事件挖掘方法，其特征在于：所述对微博数据进行过滤的具体为：筛除微博文本字数少于5个字的微博、去除微博文本的标点符号以及表情符号；所述的分词的具体为：首先建立分词词典，取五分之一经过过滤后的微博文本进行分词，将分词结果加入分词词典，再取五分之一经过过滤后的微博文本进行分词，将分词结果加入分词词典，直至所有经过过滤后的微博文本进行分词；所述的词性标注是将经过分词后的微博数据标记词性。5....

【专利技术属性】
技术研发人员：龙华，吴睿，熊新，邵玉斌，杜庆治，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人