一种从微博中挖掘地震主题词的方法和装置制造方法及图纸

技术编号:15691041 阅读:96 留言:0更新日期:2017-06-24 03:55
本发明专利技术提供一种从微博中挖掘地震主题词的方法和装置,方法包括:对含有地震词汇的微博文本集中的每个微博文本提取特征词,基于TF‑PDF公式计算每个特征词在该特征词所在微博文本中的权重;基于微博文本对应的活跃度、传播力以及覆盖度,获得每个微博文本的影响力;以及基于各微博文本的影响力以及微博文本中各特征词的权重,获得各特征词的流行度,按照各特征词的流行度大小进行降序排列,将排名靠前的特征词作为地震主题词。本发明专利技术提高了特征词流行度计算的准确度,增加了从地震微博文本数据中提取热门主题词的准确性。

Method and device for mining earthquake subject words from micro-blog

The present invention provides a method and apparatus, seismic thematic word mining from micro-blog included micro-blog micro-blog each text text contains words from seismic feature extraction, calculation of each feature in the feature words in the text where micro-blog's weight TF based on the formula of PDF; activity, the dissemination of micro-blog text based on the correspondence and coverage for each micro-blog text influence; and based on the weights of the feature words the micro-blog text influence and micro-blog in the text, the term's popularity, in descending order according to the popularity of the size of each character, the ranking feature words before the earthquake as a subject. The invention improves the accuracy of the popularity calculation of feature words, and increases the accuracy of extracting hot topic words from earthquake micro-blog text data.

【技术实现步骤摘要】
一种从微博中挖掘地震主题词的方法和装置
本专利技术涉及地震信息采集
,更具体地,涉及一种从微博中挖掘地震主题词的方法和装置。
技术介绍
在地震发生时,大量关于地震灾害的相关数据通过微博进行传播。如何从大量的微博文本中挖掘、提取出热门的地震主题信息,是一个需要解决的问题。而所获取的地震微博信息为中文短文本信息,且夹杂了大量新闻事实、重复转发等公众信息含量较低的信息,因此需要对于地震微博信息需要经过筛选整理,并且按照微博信息传播影响力的评价,提取出最能代表公众的主题词。词频-比例文档频率,即TermFrequencyProportionalDocumentFrequency(TF-PDF),是一种用于情报检索与文本挖掘的常用加权技术。对于热点话题的提取,代表热点话题的特征词汇应当在大量文档中频繁地出现。TF*PDF为在多个渠道多个文档中频繁出现的词汇分配更大的权重,反之亦然,是一种更适合于提取热点词汇的特征词权重计算方法。而现有的微博主题词提取方法针对地震微博信息热门主题词的挖掘,仍存在一些问题:1、忽略了地震新闻微博及其内容纯粹的转发的噪声影响;2、缺乏对能准确表示出地震信息的数量词、日期时间表示词组和地理位置表示词组的挖掘提取;3、缺乏每条微博文本潜在包含的活跃度、传播力、覆盖度的综合影响力对其包含的特征词影响的考虑;上述几个问题都会对主题词流行热度的计算造成影响,使挖掘地震主题词的结果缺乏准确性和高效性。
技术实现思路
本专利技术提供一种克服上述问题或者至少部分地解决上述问题的从微博中挖掘地震主题词的方法和装置。根据本专利技术的一个方面,提供一种从微博中挖掘地震主题词的方法,包括:S1、对含有地震词汇的微博文本集中的每个微博文本提取特征词,基于TF-PDF公式计算每个特征词在该特征词所在微博文本中的权重;S2、基于微博文本对应的活跃度、传播力以及覆盖度,获得每个微博文本的影响力;以及S3、基于各微博文本的影响力以及微博文本中各特征词的权重,获得各特征词的流行度,按照各特征词的流行度大小进行降序排列,将排名靠前的特征词作为地震主题词。根据本专利技术的另一个方面,提供一种从微博中挖掘地震主题词的装置,包括:权重计算单元,用于对含有地震词汇的微博文本集中的每个微博文本提取特征词,基于TF-PDF公式计算每个特征词在该特征词所在微博文本中的权重;影响力计算单元,基于微博文本对应的活跃度、传播力以及覆盖度,获得每个微博文本的影响力;以及主题词获取单元,基于各微博文本的影响力以及微博文本中各特征词的权重,获得各特征词的流行度,按照各特征词的流行度大小进行降序排列,将排名靠前的特征词作为地震主题词。本申请提出一种挖掘微博文本的地震主题词的方法和装置,从公众视角、以微博为数据源,通过综合考虑基于TF-PDF公式获得的特征词的权重以及微博文本的影响力,获得地震主题词,提高了特征词流行度计算的准确度,增加了从地震微博文本数据中提取热门主题词的准确性,为地震信息传播、地震防灾减灾等研究的信息分析提供了重要数据源和分析方法的补充,具有极强的实用意义。附图说明图1为根据本专利技术实施例的从微博中挖掘地震主题词的流程图;图2为现有技术中含有标题的微博的截图;图3为现有技术中含有话题的微博的截图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。图1示出了本专利技术实施例的一种从微博中挖掘地震主题词的流程图,如图1可知,本方法包括:S1、对含有地震词汇的微博文本集中的每个微博文本提取特征词,基于TF-PDF公式计算每个特征词在该特征词所在微博文本中的权重;S2、基于微博文本对应的活跃度、传播力以及覆盖度,获得每个微博文本的影响力;以及S3、基于各微博文本的影响力以及微博文本中各特征词的权重,获得各特征词的流行度,按照各特征词的流行度大小进行降序排列,将排名靠前的特征词作为地震主题词。本申请提出一种挖掘微博文本的地震主题词的方法和装置,从公众视角、以微博为数据源,通过综合考虑基于TF-PDF公式获得的特征词的权重以及微博文本的影响力,获得地震主题词,提高了特征词流行度计算的准确度,增加了从地震微博文本数据中提取热门主题词的准确性,为地震信息传播、地震防灾减灾等研究的信息分析提供了重要数据源和分析方法的补充,具有极强的实用意义。以“地震”为关键词搜索得到的微博文本中,微博内容多是事实描述,不含人们自身的感受,其微博数据产生于由地震台网中心、媒体或个人转发等,这些信息对于地震微博分析意义较小,但它们发布的数量和转发量均比较多。本专利技术认为这些新闻微博对于地震微博信息分析有消极影响,因此对地震新闻微博及其转发进行识别,并在识别提取之后将其从数据集中清洗过滤掉。在一个实施例中,所述步骤S1之前还包括:采集一定时间范围内含有地震词汇的微博文本,构成微博文本集;以及将含有特定词汇、特定话题或特定标题的微博文本、具有媒体认证的博主发送的微博文本和单纯转发的微博文本从所述微博文本集中剔除。在微博的发布规则中,约定俗成地规定:标题显示在【】符号中,图2示出了专利技术人随机从微博上截图的关于含有标题的微博的示意图,从图2中可以明显看出,该微博的标题“地震快讯”容纳在【】符号中。话题显示在两个#符号中,图3示出了专利技术人随机从微博上截图的含有话题的微博示意图,图3中可以明显看出,该微博的话题“地震快讯”容纳在两个#号之间。通过检索微博中是否含有【】符号或##符号,就可以获得该微博的话题或标题。在一个实施例中,需要剔除的微博包括以下几类:(1)包含“【地震快讯】”、“【快讯】”等的微博;(2)包含“#最新消息#”、“#地震快讯#”、“#地震直播#”、“#地震最新动态#”等的微博;(3)包含“中国地震台网”、“中国地震局”、“新华社快讯”、“统计”等词汇的微博;(4)单纯转发以上三类微博的微博。之所以要删除以下微博,是因为本专利技术更多是从微博信息中挖掘提取公众表达的地震热词,而新闻类信息及其大量纯粹的转发,会影响公众本身信息的表达。当微博文本中如果存在繁体字,会对微博进行分词解析形成困难,造成分词结果的错误,所以,在一个实施例中,在对微博文本进行分词之前,必须进行繁体转简体的操作。在一个实施例中,应用.NET框架的VisualStudioInternationalPack类库中的ChineseConverter.dll将繁体中文汉字转换为简体中文汉字。在一个实施例中,所述步骤S1包括:S1.1、对所述微博文本集中每个微博文本进行分词,并标注每个词汇的词性;基于不同正则表达式,对应提取每个微博文本中的不同词性的词汇组合。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串,我们可以达到如下的目的:1.给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);2.可以通过正则表达式,从字符串中获取我们想要的特定部分。表1示出了本专利技术实施例中的词性标注表,包含了不同词性的代码信息、举例以及备注信息。表1词性标注表S1.2、从步骤S1.2得到的所有词汇组合中提取本文档来自技高网...
一种从微博中挖掘地震主题词的方法和装置

【技术保护点】
一种从微博中挖掘地震主题词的方法,其特征在于,包括:S1、对含有地震词汇的微博文本集中的每个微博文本提取特征词,基于TF‑PDF公式计算每个特征词在该特征词所在微博文本中的权重;S2、基于微博文本对应的活跃度、传播力以及覆盖度,获得每个微博文本的影响力;以及S3、基于各微博文本的影响力以及微博文本中各特征词的权重,获得各特征词的流行度,按照各特征词的流行度大小进行降序排列,将排名靠前的特征词作为地震主题词。

【技术特征摘要】
1.一种从微博中挖掘地震主题词的方法,其特征在于,包括:S1、对含有地震词汇的微博文本集中的每个微博文本提取特征词,基于TF-PDF公式计算每个特征词在该特征词所在微博文本中的权重;S2、基于微博文本对应的活跃度、传播力以及覆盖度,获得每个微博文本的影响力;以及S3、基于各微博文本的影响力以及微博文本中各特征词的权重,获得各特征词的流行度,按照各特征词的流行度大小进行降序排列,将排名靠前的特征词作为地震主题词。2.如权利要求1所述的方法,其特征在于,所述步骤S1之前还包括:采集一定时间范围内含有地震词汇的微博文本,构成微博文本集;以及将含有特定词汇、特定话题或特定标题的微博文本、具有媒体认证的博主发送的微博文本和单纯转发的微博文本从所述微博文本集中剔除;其中,所述特定词汇包括:中国地震台网、中国地震局、统计以及新华社快讯中的一种或多种;特定话题包括:最新消息、地震直播以及地震最新动态中的一种或多种;特定标题包括:地震快讯和快讯中的一种或多种。3.如权利要求2所述的方法,其特征在于,所述步骤S1包括:S1.1、对所述微博文本集中每个微博文本进行分词,并标注每个词汇的词性,基于不同正则表达式,对应提取每个微博文本中的不同词性的词汇组合;S1.2、从步骤S1.2得到的所有词汇组合中提取名词、动词、量词、数词以及时间词,作为所述特征词;以及S1.3、利用空间向量模型将微博文本表示为向量,所述特征词对应向量中的特征项,基于TF-PDF公式计算每个特征词在各微博文本中的权重;其中,所述词性至少包括名词、数词、量词、位置词、震级、时间词、日期词以及动词。4.如权利要求2所述的方法,其特征在于,所述步骤S2包括:基于微博文本的博主在该时间范围内,每天平均发微博数和转发评论数之和,获得该微博文本对应的活跃度;基于微博文本被转发评论和被评论数之和,获得该微博文本对应的传播力;基于微博文本的博主的活跃粉丝数,获得该微博文本对应的覆盖度;基于地震发生的时间,分别设置对应所述活跃度、传播力以及覆盖度的3个影响力参数;以及基于微博文本对应的活跃度、传播力、覆盖度以及3个影响力参数,获得每个...

【专利技术属性】
技术研发人员:张晓东陈欣意邹再超李林苏伟刘峻明朱德海孙瑞志
申请(专利权)人:中国农业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1