一种微博热点事件挖掘方法技术

技术编号:20329268 阅读:840 留言:0更新日期:2019-02-13 05:49
本发明专利技术涉及一种微博热点事件挖掘方法,属于数据处理技术领域。首先爬取微博数据,建立微博数据库;然后对爬取的微博数据进行预处理;接着对预处理后的微博数据进行命名实体识别;再根据预处理和命名实体识别后的结果,提取微博数据的实体和事件触发词,从而确定每一条微博所表达的事件,最后计算微博之间的相似度,分析相似度结果、发布人信息和发布时间,获取微博热点事件。本发明专利技术与现有技术相比,主要解决了微博的预处理过程中缺乏大量完备的训练语料以及命名实体识别环节中由于微博数据的不规范性,导致在识别实体的过程中会存在很大的误差,从而使得微博的事件抽取准确率低的现象,以提高微博热点事件挖掘的高效性。

【技术实现步骤摘要】
一种微博热点事件挖掘方法
本专利技术涉及一种微博热点事件挖掘方法,属于数据处理

技术介绍
近年来,微博等社交媒体平台大量涌现,微博作为一种具有代表性的新型传播媒体,现在己经成为人们表达想法、分享信息、交流意见的一种最流行的网络工具,相比于正式的新闻文本,微博有利于更准确,更及时地提取更丰富的事件信息,通过对微博中热点事件的挖掘,我们可以及时了解国内外发生的大小事件,了解人们对各种事件的反应和看法,筛选出有用的信息,对于实时监控、风险评估分析以及决策支持等都有很好的辅助作用。一般地,由于微博数据具有信息更新速度快的特点,所以对于传统的微博预处理技术往往缺乏大量完备的训练语料;同时,由于每条微博篇幅短小,包含的信息量有限,所以对于传统的微博命名实体识别技术来说,难以充分融合大量相关信息,以上所述都会给微博热点事件的挖掘造成困难。
技术实现思路
本专利技术要解决的技术问题是针对现有技术的局限和不足,提供一种微博热点事件挖掘方法,主要解决了微博的预处理过程中缺乏大量完备的训练语料以及命名实体识别环节中由于微博数据的不规范性,导致在识别实体的过程中会存在很大的误差,从而使得微博的事件抽取准确率低的现象,以提高微博热点事件挖掘的高效性。本专利技术的技术方案是:一种微博热点事件挖掘方法,具体包括以下6个步骤:①爬取微博数据,建立微博数据库。②对爬取的微博数据进行预处理。③对预处理后的微博数据进行命名实体识别。④根据预处理和命名实体识别后的结果,提取微博数据的实体和事件触发词。⑤结合实体和触发词,确定每一条微博所表达的事件,计算微博之间的相似度。⑥分析相似度结果、发布人信息和发布时间,获取微博热点事件。进一步地,步骤①所述的建立微博数据库的过程为:根据微博的发布时间按照顺序爬取10万条微博数据,包括微博文本、发布人和发布时间;再将微博文本、发布人和发布时间写入本地数据库中。进一步地,步骤②所述的预处理包括对微博数据进行过滤、分词和词性标注。进一步地,所述的对微博数据进行过滤的具体操作为:筛除微博文本字数少于5个字的微博、去除微博文本的标点符号以及表情符号;所述的分词的具体操作为:为获取更精确的面向微博文本的分词结果,首先建立分词词典,取五分之一经过过滤后的微博文本进行分词,将分词结果加入分词词典,再取五分之一经过过滤后的微博文本进行分词,将分词结果加入分词词典,以此类推,按照此方式将所有经过过滤后的微博文本进行分词;所述的词性标注是将经过分词后的微博数据标记词性,以便后续处理。进一步地,步骤③所述的命名实体识别是将微博文本中的实体,例如人名、地名、机构名、专有名词等识别出来。进一步地,所述的词性标注采用hanlp自然语言处理包实现,所述的命名实体识别采用半监督学习的方式,即将已经识别的实体数据输入到模型中,继续识别剩余微博文本中的实体,以此循环,不断将已经识别的实体数据输入到模型中来识别剩余微博文本中的实体。进一步地,步骤④所述的事件触发词为识别事件发生的具有指示性的词,通常为动词、名词、动名词和介词,通过所述的词性标注可得到词的词性,且上述四种词性选取的优先级从高到低为动词、名词、动名词、介词,若只存在一种词性,则取该词为事件触发词,若存在两个及以上词性,取优先级靠前的两个词为事件触发词,结合所述的实体和所述的事件触发词可得到微博所表达的事件。进一步地,步骤⑤所述的微博之间的相似度的计算公式为:其中A和B表示两个微博文本,Sim(A,B)表示A和B的相似度,ai和bi为A和B分别经过处理后得到的实体和事件触发词组成的词频向量中的第i个值。进一步地,步骤⑥所述的获取微博热点事件的具体方式为:遍历每一条微博,分析相似度结果、发布人信息和发布时间,若同时满足微博之间的相似度高于85%,发布人不同以及发布时间间隔在12个小时以内,则认定为同一事件,并统计该事件的微博条数,最后计算每一个事件的微博条数占总微博条数的比例,按照从高到低排序,即为微博热点事件。进一步地,所述的计算每一个事件的微博条数占总微博条数的比例的公式为:其中,K为某一个事件的微博条数占总微博条数的比例,W为某一个事件的微博条数,N为总微博条数。本专利技术的有益效果是:主要解决了微博的预处理过程中缺乏大量完备的训练语料以及命名实体识别环节中由于微博数据的不规范性,导致在识别实体的过程中会存在很大的误差,从而使得微博的事件抽取准确率低的现象,以提高微博热点事件挖掘的高效性。附图说明图1是本专利技术步骤流程图;图2是本专利技术步骤②流程图;图3是本专利技术步骤③~④流程图;图4是本专利技术步骤⑤~⑥流程图。具体实施方式下面结合附图和具体实施方式,对本专利技术作进一步说明。实施例1:如图1-4所示,一种微博热点事件挖掘方法,首先爬取微博数据,建立微博数据库;然后对爬取的微博数据进行预处理;接着对预处理后的微博数据进行命名实体识别;再根据预处理和命名实体识别后的结果,提取微博数据的实体和事件触发词,从而确定每一条微博所表达的事件,最后计算微博之间的相似度,分析相似度结果、发布人信息和发布时间,获取微博热点事件。具体步骤为:①爬取微博数据,建立微博数据库。②对爬取的微博数据进行预处理。③对预处理后的微博数据进行命名实体识别。④根据预处理和命名实体识别后的结果,提取微博数据的实体和事件触发词。⑤结合实体和触发词,确定每一条微博所表达的事件,计算微博之间的相似度。⑥分析相似度结果、发布人信息和发布时间,获取微博热点事件。进一步地,步骤①所述的建立微博数据库的过程为:根据微博的发布时间按照顺序爬取10万条微博数据,包括微博文本、发布人和发布时间;再将微博文本、发布人和发布时间写入本地数据库中。进一步地,步骤②所述的预处理包括对微博数据进行过滤、分词和词性标注。进一步地,所述的对微博数据进行过滤的具体操作为:筛除微博文本字数少于5个字的微博、去除微博文本的标点符号以及表情符号;所述的分词的具体操作为:为获取更精确的面向微博文本的分词结果,首先建立分词词典,取五分之一经过过滤后的微博文本进行分词,将分词结果加入分词词典,再取五分之一经过过滤后的微博文本进行分词,将分词结果加入分词词典,以此类推,按照此方式将所有经过过滤后的微博文本进行分词;所述的词性标注是将经过分词后的微博数据标记词性,以便后续处理。进一步地,步骤③所述的命名实体识别是将微博文本中的实体,例如人名、地名、机构名、专有名词等识别出来。进一步地,所述的词性标注采用hanlp自然语言处理包实现,所述的命名实体识别采用半监督学习的方式,即将已经识别的实体数据输入到模型中,继续识别剩余微博文本中的实体,以此循环,不断将已经识别的实体数据输入到模型中来识别剩余微博文本中的实体。进一步地,步骤④所述的事件触发词为识别事件发生的具有指示性的词,通常为动词、名词、动名词和介词,通过所述的词性标注可得到词的词性,且上述四种词性选取的优先级从高到低为动词、名词、动名词、介词,若只存在一种词性,则取该词为事件触发词,若存在两个及以上词性,取优先级靠前的两个词为事件触发词,结合所述的实体和所述的事件触发词可得到微博所表达的事件。进一步地,步骤⑤所述的微博之间的相似度的计算公式为:其中A和B表示两个微博文本,Sim(A,B)表示A和B的相似度,ai和bi本文档来自技高网...

【技术保护点】
1.一种微博热点事件挖掘方法,其特征在于:①爬取微博数据,建立微博数据库。②对爬取的微博数据进行预处理。③对预处理后的微博数据进行命名实体识别。④根据预处理和命名实体识别后的结果,提取微博数据的实体和事件触发词。⑤结合实体和触发词,确定每一条微博所表达的事件,计算微博之间的相似度。⑥分析相似度结果、发布人信息和发布时间,获取微博热点事件。

【技术特征摘要】
1.一种微博热点事件挖掘方法,其特征在于:①爬取微博数据,建立微博数据库。②对爬取的微博数据进行预处理。③对预处理后的微博数据进行命名实体识别。④根据预处理和命名实体识别后的结果,提取微博数据的实体和事件触发词。⑤结合实体和触发词,确定每一条微博所表达的事件,计算微博之间的相似度。⑥分析相似度结果、发布人信息和发布时间,获取微博热点事件。2.根据权利要求1所述的微博热点事件挖掘方法,其特征在于:所述步骤①中建立微博数据库的过程为:根据微博的发布时间按照顺序爬取10万条微博数据,包括微博文本、发布人和发布时间;再将微博文本、发布人和发布时间写入本地数据库中。3.根据权利要求1所述的微博热点事件挖掘方法,其特征在于:所述步骤②中预处理包括对微博数据进行过滤、分词和词性标注。4.根据权利要求3所述的微博热点事件挖掘方法,其特征在于:所述对微博数据进行过滤的具体为:筛除微博文本字数少于5个字的微博、去除微博文本的标点符号以及表情符号;所述的分词的具体为:首先建立分词词典,取五分之一经过过滤后的微博文本进行分词,将分词结果加入分词词典,再取五分之一经过过滤后的微博文本进行分词,将分词结果加入分词词典,直至所有经过过滤后的微博文本进行分词;所述的词性标注是将经过分词后的微博数据标记词性。5....

【专利技术属性】
技术研发人员:龙华吴睿熊新邵玉斌杜庆治
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1