The present invention provides a method and apparatus, seismic thematic word mining from micro-blog included micro-blog micro-blog each text text contains words from seismic feature extraction, calculation of each feature in the feature words in the text where micro-blog's weight TF based on the formula of PDF; activity, the dissemination of micro-blog text based on the correspondence and coverage for each micro-blog text influence; and based on the weights of the feature words the micro-blog text influence and micro-blog in the text, the term's popularity, in descending order according to the popularity of the size of each character, the ranking feature words before the earthquake as a subject. The invention improves the accuracy of the popularity calculation of feature words, and increases the accuracy of extracting hot topic words from earthquake micro-blog text data.
【技术实现步骤摘要】
一种从微博中挖掘地震主题词的方法和装置
本专利技术涉及地震信息采集
,更具体地,涉及一种从微博中挖掘地震主题词的方法和装置。
技术介绍
在地震发生时,大量关于地震灾害的相关数据通过微博进行传播。如何从大量的微博文本中挖掘、提取出热门的地震主题信息,是一个需要解决的问题。而所获取的地震微博信息为中文短文本信息,且夹杂了大量新闻事实、重复转发等公众信息含量较低的信息,因此需要对于地震微博信息需要经过筛选整理,并且按照微博信息传播影响力的评价,提取出最能代表公众的主题词。词频-比例文档频率,即TermFrequencyProportionalDocumentFrequency(TF-PDF),是一种用于情报检索与文本挖掘的常用加权技术。对于热点话题的提取,代表热点话题的特征词汇应当在大量文档中频繁地出现。TF*PDF为在多个渠道多个文档中频繁出现的词汇分配更大的权重,反之亦然,是一种更适合于提取热点词汇的特征词权重计算方法。而现有的微博主题词提取方法针对地震微博信息热门主题词的挖掘,仍存在一些问题:1、忽略了地震新闻微博及其内容纯粹的转发的噪声影响;2、缺乏对能准确表示出地震信息的数量词、日期时间表示词组和地理位置表示词组的挖掘提取;3、缺乏每条微博文本潜在包含的活跃度、传播力、覆盖度的综合影响力对其包含的特征词影响的考虑;上述几个问题都会对主题词流行热度的计算造成影响,使挖掘地震主题词的结果缺乏准确性和高效性。
技术实现思路
本专利技术提供一种克服上述问题或者至少部分地解决上述问题的从微博中挖掘地震主题词的方法和装置。根据本专利技术的一个方面,提供一种从微博 ...
【技术保护点】
一种从微博中挖掘地震主题词的方法,其特征在于,包括:S1、对含有地震词汇的微博文本集中的每个微博文本提取特征词,基于TF‑PDF公式计算每个特征词在该特征词所在微博文本中的权重;S2、基于微博文本对应的活跃度、传播力以及覆盖度,获得每个微博文本的影响力;以及S3、基于各微博文本的影响力以及微博文本中各特征词的权重,获得各特征词的流行度,按照各特征词的流行度大小进行降序排列,将排名靠前的特征词作为地震主题词。
【技术特征摘要】
1.一种从微博中挖掘地震主题词的方法,其特征在于,包括:S1、对含有地震词汇的微博文本集中的每个微博文本提取特征词,基于TF-PDF公式计算每个特征词在该特征词所在微博文本中的权重;S2、基于微博文本对应的活跃度、传播力以及覆盖度,获得每个微博文本的影响力;以及S3、基于各微博文本的影响力以及微博文本中各特征词的权重,获得各特征词的流行度,按照各特征词的流行度大小进行降序排列,将排名靠前的特征词作为地震主题词。2.如权利要求1所述的方法,其特征在于,所述步骤S1之前还包括:采集一定时间范围内含有地震词汇的微博文本,构成微博文本集;以及将含有特定词汇、特定话题或特定标题的微博文本、具有媒体认证的博主发送的微博文本和单纯转发的微博文本从所述微博文本集中剔除;其中,所述特定词汇包括:中国地震台网、中国地震局、统计以及新华社快讯中的一种或多种;特定话题包括:最新消息、地震直播以及地震最新动态中的一种或多种;特定标题包括:地震快讯和快讯中的一种或多种。3.如权利要求2所述的方法,其特征在于,所述步骤S1包括:S1.1、对所述微博文本集中每个微博文本进行分词,并标注每个词汇的词性,基于不同正则表达式,对应提取每个微博文本中的不同词性的词汇组合;S1.2、从步骤S1.2得到的所有词汇组合中提取名词、动词、量词、数词以及时间词,作为所述特征词;以及S1.3、利用空间向量模型将微博文本表示为向量,所述特征词对应向量中的特征项,基于TF-PDF公式计算每个特征词在各微博文本中的权重;其中,所述词性至少包括名词、数词、量词、位置词、震级、时间词、日期词以及动词。4.如权利要求2所述的方法,其特征在于,所述步骤S2包括:基于微博文本的博主在该时间范围内,每天平均发微博数和转发评论数之和,获得该微博文本对应的活跃度;基于微博文本被转发评论和被评论数之和,获得该微博文本对应的传播力;基于微博文本的博主的活跃粉丝数,获得该微博文本对应的覆盖度;基于地震发生的时间,分别设置对应所述活跃度、传播力以及覆盖度的3个影响力参数;以及基于微博文本对应的活跃度、传播力、覆盖度以及3个影响力参数,获得每个...
【专利技术属性】
技术研发人员:张晓东,陈欣意,邹再超,李林,苏伟,刘峻明,朱德海,孙瑞志,
申请(专利权)人:中国农业大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。