一种微博关键事件获取方法和装置制造方法及图纸

技术编号:10534685 阅读:77 留言:0更新日期:2014-10-15 13:34
本发明专利技术公开了一种微博关键事件获取方法,包括:根据预设条件搜索微博;根据搜索到的微博提取热词;根据提取的热词,提取每个热词对应的每天的关键事件,并生成相应的事件标题;统计每个热词的每日热度值,保存每个热词的每日热度值排名前N位的日期,并保存对应的关键事件的事件标题,所述N为预设值。本发明专利技术还公开了一种微博关键事件获取装置。通过本发明专利技术能够实现微博关键时间点的关键事件的获取。

【技术实现步骤摘要】
一种微博关键事件获取方法和装置
本专利技术涉及微博搜索技术,特别是指一种微博关键事件获取方法和装置。
技术介绍
网络即时通讯(IM,InstantMessenger)工具发展到今天已经被大多数的网民所接受,成为用户必不可少的通信工具,不仅在平时的休闲娱乐中,而且在用户的工作中得到广泛的使用。特别是微博,由于其信息传递效率非常高,已经成为主流的IM工具。微博的用户群庞大,微博传递的信息量也非常巨大。基于这巨大的信息量,可以统计出一段时间内网民关注度较高的事件和词语等。目前有两种统计关注度较高的事件和词语的方式:一是、根据关键词的搜索频次的时间趋势可统计得到热词;对每日每条微博采用切词工具切词,统计出每日每个热词的词频,据此可绘制出热词的时间趋势图。其中,所述的热词即为关注度高的关键词。一是,根据关键词的搜索频次的时间趋势可统计得到热词;获取重要官方媒体发布的每日微博或文章,统计出每日微博或文章标题中包含特定热词的微博或文章数量,该数值就是当天该热词的关注热度,据此可绘制出一段时间内特定热词的时间趋势图。上述技术方案存在问题有:一、上述方案中,由于微博内容出现的随机性会有大量的噪音热词。二、根据微博转评数及浏览数确定的关键事件有可能是跟对应热词不相关的,也就是说带有指定热词的热门微博或文章并不一定是围绕该热词展开的;三、上述两种方案只能统计出一段时间内热词的时间趋势图,而无法获取关键时间点发生的关键事件。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种微博关键事件获取方法和装置,以实现微博系统中关键时间点的关键事件的获取。为达到上述目的,本专利技术的技术方案是这样实现的:一种微博关键事件获取方法,该方法包括:根据预设条件搜索微博;根据搜索到的所述微博提取热词;根据所述热词,提取每个热词对应的每天的关键事件,并生成相应的事件标题;统计每个所述热词的每日热度值,保存每个所述热词的每日热度值排名前N位的日期,并保存对应的所述关键事件的事件标题,所述N为预设值。较佳的,所述预设条件包括微博用户和微博发表时间;所述微博发表时间指示为预设的第一时间段和预设的第二时间段;所述微博用户指示为微博注册用户;所述根据预设条件搜索微博为:搜索所述微博注册用户在所述预设的第一时间段和预设的第二时间段发表的微博。较佳的,所述根据搜索到的微博提取热词,包括:采用切词工具对搜索到的所述微博的文本内容进行切词;对切词后所述微博的文本内容中的各个词语进行词性标注;选择候选词性,并统计属于所述候选词性的词语的词频,将词频达到阈值的词语确定为候选词;对所述候选词进行热度值计算,将热度值大于阈值的所述候选词作为热词。较佳的,所述统计属于候选词性的词语的词频,将词频达到阈值的词语确定为候选词,包括:统计每个属于候选词性的词语在所述预设的第一时间段和预设的第二时间段内出现的次数,将所述出现的次数达到预设次数的属于候选词性的词语作为候选词;或者,统计每个属于候选词性的词语在所述预设的第一时间段和预设的第二时间段内出现的天数,当一天中至少M篇微博包含属于候选词性的词语时统计为一天,将所述出现的天数达到预设天数的属于候选词性的词语作为候选词,所述M为预设值。较佳的,所述对候选词进行热度值H计算为:H=w1*f1(A1)+w2*f2(A1/A2)+w3*f3(B1)+w4*f4(B1/B2);所述A1为候选词在所述第一时间段内出现的天数,当一天中至少M篇微博包含候选词时统计为一天;所述M为预设值;所述A2为候选词在所述第二时间段内出现的天数,当一天中至少M篇微博包含特定候选词时统计为一天;所述M为预设值;所述B1为所述预设的第一时间段内包含候选词的所有微博的总转评数;所述B2为所述预设的第二时间段内包含候选词的所有微博的总转评数;所述w1、w2、w3、w4分别为所述A1、A2、B1、B2的权重;所述f1、f2、f3、f4分别为将所述A1、A2、B1、B2归约到0-1的函数。较佳的,对候选词进行热度值计算,将热度值大于阈值的候选词作为热词之后,该方法还包括:按照预设的分类,对包含特定热词的微博采用分类工具进行分类,基于分类结果计算所述特定热词的信息熵,将所述信息熵高于阈值的热词作为噪音热词进行过滤;所述特定热词对应的所述分类结果包括:各个分类对应的包含所述特定热词的微博条数。较佳的,所述特定热词的信息熵H采用如下公式计算:H=-∑p(i)logp(i)(i=1,2,..n),其中,所述p(i)=si/S,所述S为包含所述特定热词的微博总条数;si为第i个分类对应的包含所述特定热词的微博条数。较佳的,所述根据热词,提取每个热词对应的每天的键事件包括:将包含特定热词的、且在特定日内微博热度值最高的微博作为所述特定热词对应的特定日的关键事件;所述特定日属于所述预设的第一件时间段或预设的第二时间段。较佳的,所述微博热度值O1采用如下公式计算:O1=w5*f5+w6*f6;其中:所述w5为C的权重;所述w6为D的权重;所述f5为C归约到0-1的函数;所述f6为D归约到0-1的函数;所述C为包含特定热词的特定微博在特定日的转评数;D为包含特定热词的特定微博在特定日的内容聚焦度。较佳的,所述每日热度值O2采用如下公式计算:O2=w7*f7+w8*f8;其中,所述w7为E的权重;所述w8为F的权重;所述f7为E归约到0-1的函数;所述f8为F归约到0-1的函数;所述E为所述特定日包含热定热词的微博数;F为特定日包含特定热词的微博的总转评数。较佳的,该方法还包括:根据所述特定热词的每日热度值排名前N位的日期以及对应的关键事件的事件标题,绘制关键事件时间脉络曲线图,所述N为预设值。一种微博关键事件获取装置,包括:搜索模块,用于根据预设条件搜索微博;热词提取模块,用于根据搜索到的所述微博提取热词;关键事件提取模块,用于根据所述热词,提取每个热词对应的每天的关键事件,并生成相应的事件标题;关键时间获取模块,用于统计每个所述热词的每日热度值,保存每个所述热词的每日热度值排名前N位的日期,并保存对应的所述关键事件的事件标题,所述N为预设值。较佳的,所述预设条件包括微博用户和微博发表时间;所述微博发表时间指示为预设的第一时间段和预设的第二时间段;所述微博用户指示为微博注册用户;所述搜索模块,还用于搜索所述微博注册用户在所述预设的第一时间段和预设的第二时间段发表的微博。较佳的,所述热词提取模块,还用于采用切词工具对搜索到的所述微博的文本内容进行切词,对切词后所述微博的文本内容中的各个词语进行词性标注;还用于选择候选词性,并统计属于所述候选词性的词语的词频,将词频达到阈值的词语确定为候选词,对所述候选词进行热度值计算,将热度值大于阈值的所述候选词作为热词。较佳的,所述热词提取模块,还用于按照预设的分类,对包含特定热词的微博采用分类工具进行分类,基于分类结果计算所述特定热词的信息熵,将所述信息熵高于阈值的热词过滤;所述特定热词对应的所述分类结果包括:各个分类对应的包含所述特定热词的微博条数。较佳的,所述关键事件提取模块,还用于将包含特定热词的、且在特定日内微博热度值最高的微博作为所述特定热词对应的特定日的关键事件;所述特定日属于所述预设的第一件时间段或预设的第二时间段。本专利技术所提供的一本文档来自技高网...
一种微博关键事件获取方法和装置

【技术保护点】
一种微博关键事件获取方法,其特征在于,该方法包括:根据预设条件搜索微博;根据搜索到的所述微博提取热词;根据所述热词,提取每个热词对应的每天的关键事件,并生成相应的事件标题;统计每个所述热词的每日热度值,保存每个所述热词的每日热度值排名前N位的日期,并保存对应的所述关键事件的事件标题,所述N为预设值。

【技术特征摘要】
1.一种微博关键事件获取方法,其特征在于,该方法包括:根据预设条件搜索微博;根据搜索到的所述微博提取热词;在根据搜索到的所述微博提取热词的过程中,统计每个属于候选词性的词语在预设的第一时间段和预设的第二时间段内出现的次数,将所述出现的次数达到预设次数的属于候选词性的词语作为候选词;或者,统计每个属于候选词性的词语在预设的第一时间段和预设的第二时间段内出现的天数,当一天中至少M篇微博包含属于候选词性的词语时统计为一天,将所述出现的天数达到预设天数的属于候选词性的词语作为候选词,所述M为预设值;根据所述热词,提取每个热词对应的每天的关键事件,并生成相应的事件标题;统计每个所述热词的每日热度值,保存每个所述热词的每日热度值排名前N位的日期,并保存对应的所述关键事件的事件标题,所述N为预设值。2.根据权利要求1所述微博关键事件获取方法,其特征在于,所述预设条件包括微博用户和微博发表时间;所述微博发表时间指示为所述预设的第一时间段和预设的第二时间段;所述微博用户指示为微博注册用户;所述根据预设条件搜索微博为:搜索所述微博注册用户在所述预设的第一时间段和预设的第二时间段发表的微博。3.根据权利要求1所述微博关键事件获取方法,其特征在于,所述根据搜索到的微博提取热词的过程中,所述方法还包括:采用切词工具对搜索到的所述微博的文本内容进行切词;对切词后所述微博的文本内容中的各个词语进行词性标注;选择候选词性,以通过所述统计每个属于候选词性的词语在预设的第一时间段和预设的第二时间段内出现的次数或者出现的天数得到所述候选词;对所述候选词进行热度值计算,将热度值大于阈值的所述候选词作为热词。4.根据权利要求3所述微博关键事件获取方法,其特征在于,所述对候选词进行热度值H计算为:H=w1*f1(A1)+w2*f2(A1/A2)+w3*f3(B1)+w4*f4(B1/B2);所述A1为候选词在所述第一时间段内出现的天数,当一天中至少M篇微博包含候选词时统计为一天;所述A2为候选词在所述第二时间段内出现的天数,当一天中至少M篇微博包含特定候选词时统计为一天;所述B1为所述预设的第一时间段内包含候选词的所有微博的总转评数;所述B2为所述预设的第二时间段内包含候选词的所有微博的总转评数;所述w1、w2、w3、w4分别为所述A1、A2、B1、B2的权重;所述f1、f2、f3、f4分别为将所述A1、A2、B1、B2归约到0-1的函数。5.根据权利要求1或4所述微博关键事件获取方法,其特征在于,对候选词进行热度值计算,将热度值大于阈值的候选词作为热词之后,该方法还包括:按照预设的分类,对包含特定热词的微博采用分类工具进行分类,基于分类结果计算所述特定热词的信息熵,将所述信息熵高于阈值的热词作为噪音热词进行过滤;所述特定热词对应的所述分类结果包括:各个分类对应的包含所述特定热词的微博条数。6.根据权利要求5所述微博关键事件获取方法,其特征在于,所述特定热词的信息熵H采用如下公式计算:其中,所述p(i)=si/S,所述S为包含所述特定热词的微博总条数;si为第i个分类对应的包含所述特定热词的微博条数。7.根据权利要求6所述微博关键事件获取方法,其特征在于,所述根据热词,提取每个热词对应的每天的键事件包括:将包含特定热词的、且在特定日内微博热度值最高的微博作为所述特定热词对应的特定日的关键事件;所述特定日属于所...

【专利技术属性】
技术研发人员:阳云李维刚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1