基于语义扩展的微博突发事件检测方法及装置制造方法及图纸

技术编号:15704880 阅读:255 留言:0更新日期:2017-06-26 10:12
本发明专利技术提供一种基于语义扩展的微博突发事件检测方法及装置,本发明专利技术提供的基于语义扩展的微博突发事件检测方法包括:获取与待检测的微博突发事件对应的第一关键词;根据第一关键词和第一关键词关联的词向量文件,得到微博突发事件;其中,第一关键词关联的词向量文件是采用word2vec方法对训练集中的训练词语进行训练得到的,词向量文件包括第一关键词与其它训练词语之间的语义相似度。本发明专利技术的基于语义扩展的微博突发事件检测方法及装置,通过考虑文本的语义信息来扩展事件的关键词,并通过扩展后的关键词进行微博突发事件的检测,可以准确的检测微博突发事件,避免了将同一事件分成两个微博事件,并可以进行在线检测。

【技术实现步骤摘要】
基于语义扩展的微博突发事件检测方法及装置
本专利技术涉及微博技术,尤其涉及一种基于语义扩展的微博突发事件检测方法及装置。
技术介绍
微博的社会化特性及其可以被迅速、及时的传播,吸引了大量对信息实时性有高需求的网民。微博使得世界上的每一个人都能够成为信息源,并使之在全球传播,这就使得微博本身所承载的信息量大大增加。微博已经集合了海量的新闻、事件和信息,并且每天都在更新,每天都在流传,对现实的社会产生巨大的影响。尤其是在突发事件的信息传播上,微博更是超越了传统媒体,成为了信息快速传播的渠道。微博上的信息不仅发布及时,而且也是现实社会生活的缩影,挖掘微博上的信息有利于从不同角度分析现实世界的情况。因此,从海量的微博数据检测事件具有十分重要的意义。现有技术中的微博事件检测的方法可以分为两类,一类是针对特定事件的微博事件检测方法,一类是通用的微博事件检测方法。对于对特定事件的微博事件检测方法,通常需要对事件具有一定的先验知识,比如针对地震的微博事件检测,需要首先通过地震相关的关键词找出相关微博,然后对这部分微博进行分析,但是对于突发事件很难具有先验的信息,因此,该种微博事件检测方法具有很强的局本文档来自技高网...
基于语义扩展的微博突发事件检测方法及装置

【技术保护点】
一种基于语义扩展的微博突发事件检测方法,其特征在于,包括:获取与待检测的微博突发事件对应的第一关键词;根据所述第一关键词和所述第一关键词关联的词向量文件,得到微博突发事件;其中,所述第一关键词关联的词向量文件是采用word2vec方法对训练集中的训练词语进行训练得到的,所述词向量文件包括所述第一关键词与其它训练词语之间的语义相似度。

【技术特征摘要】
1.一种基于语义扩展的微博突发事件检测方法,其特征在于,包括:获取与待检测的微博突发事件对应的第一关键词;根据所述第一关键词和所述第一关键词关联的词向量文件,得到微博突发事件;其中,所述第一关键词关联的词向量文件是采用word2vec方法对训练集中的训练词语进行训练得到的,所述词向量文件包括所述第一关键词与其它训练词语之间的语义相似度。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一关键词和所述第一关键词关联的词向量文件,得到微博突发事件,包括:根据所述词向量文件获取与所述第一关键词语义相似度满足第一阈值的第二关键词;根据所述第一关键词和所述第二关键词,获取包含所述第一关键词和/或所述第二关键词的多个微博;根据所述多个微博,得到所述微博突发事件。3.根据权利要求1所述的方法,其特征在于,在所述根据所述第一关键词和所述第一关键词关联的词向量文件,得到微博突发事件之前,还包括:获取多个文本,并对各所述文本进行文本分词,得到所述训练词语;采用word2vec方法对所述训练词语进行训练,得到所述词向量文件。4.根据权利要求3所述的方法,其特征在于,在所述采用word2vec方法对所述训练词语进行训练,得到所述词向量文件之后,还包括:每隔预设周期更新所述词向量文件,得到更新后的词向量文件;相应地,所述根据所述第一关键词和所述第一关键词关联的词向量文件,得到微博突发事件,包括:根据所述更新后的词向量文件获取与所述第一关键词语义相似度满足第一阈值的第二关键词;根据所述第一关键词和所述第二关键词,获取包含所述第一关键词和/或所述第二关键词的多个微博;根据所述多个微博,得到所述微博突发事件。5.根据权利要求4所述的方法,其特征在于,所述每隔预设周期更新所述词向量文件,包括:每隔所述预设周期重新获取多个文本,并对各重新获取的文本进行文本分词,得到更新后的训练词语;采用word2vec方法对所述更新后的训练词语进行训练,得到所述更新后的词向量文件。6.根据权利要求2所述的方法,其特征在于,所述根据所述多个微博,得到所述微博突发事件,包括:获取所述多个微博被检测出来的检测时间;获取所述多个微博的相关度,将相关度位于前N名的N个微博作为所述微博突发事件的相关微博,并获取所述相关微博的摘要;获取各所述相关微博的属性,所述属性包括:微博中出现的地点以及参与者,并获...

【专利技术属性】
技术研发人员:胡春明吴博彭浩张日崇李建欣
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1