一种推送微博的方法及装置制造方法及图纸

技术编号:8413148 阅读:111 留言:0更新日期:2013-03-14 02:09
本发明专利技术公开了一种推送微博的方法及装置,用以解决现有技术中反映某些热点舆情的微博不能被及时的推送给相应用户的问题。该方法确定在设定时间间隔内接收到的各微博中的关键词,据此确定关键词集合,并根据每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,针对得到的聚类关键词集合,当热点舆情库中不存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合时,将与该聚类关键词相关的微博推送给相关用户。上述方法由于在聚类时无需预先设定聚类的个数,因此不会遗漏该设定时间间隔内的任何热点舆情关键词集合,可以将反映热点舆情的微博及时的推送给相应用户。

【技术实现步骤摘要】

本专利技术涉及通信
,尤其涉及一种推送微博的方法及装置
技术介绍
近年来,伴随着互联网的普及,网络媒体已经被公认为是继报纸、广播、电视之后的“第四媒体”,网络已经成为反映社会热点舆情的主要载体之一,特别是借助微博的兴起与发展,通过微博即时、快速传播、便捷的特点,进一步推动了网络舆情的发展,微博上的舆情也成为了网络舆情中最具影响力的一种。通过微博,用户既可以将自己发现的舆情发布到微博上,也可以将其他用户发布的微博进行转发,对于一些可以引起大量用户关注的热点舆情,一旦将其在微博上发布,则短时间内该微博就会被大量用户转发、关注。因此,相关部门和企业均已经开始重视微博中·反映的热点舆情,以根据热点舆情进行及时的应对。例如,将病危婴儿送往医院的信息发布到微博上,该微博会在短时间内被大量转发,以引起交管部门的关注,交管部门则及时采取为该婴儿所在的车辆进行开路等相应对策,以保证婴儿可以被及时的送到医院。然而,由于微博的信息量十分巨大,仅依靠人工的方法确定海量微博中所反映的热点舆情是非常困难的,因此,如何确定海量微博中所反映的热点舆情成为一个亟待解决的问题。在现有技术中,主要是采用基于k-means算法的文本聚类技术来确定海量微博中所反映的热点舆情,并将反映该热点舆情的至少一条微博推送给相应用户,该用户具体可以是相关部门或相关企业等用户。基于k-means算法的文本聚类需要预先设定聚类的个数,也即需要预先设定海量微博中所反映的热点舆情的数量,才能根据k-means算法对这些海量微博进行文本聚类。得到的每个聚类就是反映每个热点舆情的微博聚类,也即确定的热点舆情的数量就是预先设定的聚类的个数。然而,海量微博中所反映的热点舆情的数量往往是不可预估的。如果预先设定的聚类的个数过少,就会遗漏微博中反映的某些热点舆情,导致反映遗漏的热点舆情的微博不能被及时的推送给相应用户。
技术实现思路
本专利技术实施例提供一种推送微博的方法及装置,用以解决现有技术中反映某些热点舆情的微博不能被及时的推送给相应用户的问题。本专利技术实施例提供的一种推送微博的方法,包括接收在设定时间间隔内发布的各微博,确定接收到的各微博中的关键词;根据确定出的各关键词,采用设定方法确定关键词集合,并确定采用所述设定方法所能确定出的所有关键词集合,其中,所述设定方法为在各关键词中任意选择两个关键词构成一个关键词集合;根据确定出的各关键词集合中每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,得到各聚类关键词集合;针对得到的每个聚类关键词集合,判断热点舆情库中是否存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合,当不存在时,在接收到的各微博中,选择与该聚类关键词集合相关的微博推送给相关用户,并将该聚类关键词集合作为热点舆情关键词集合保存在所述热点舆情库中。本专利技术实施例提供的一种推送微博的装置,包括接收分词模块,用于接收在设定时间间隔内发布的各微博,确定接收到的各微博中的关键词;关键词集合确定模块,用于根据确定出的各关键词,采用设定方法确定关键词集合,并确定采用所述设定方法所能确定出的所有关键词集合,其中,所述设定方法为在各关键词中任意选择两个关键词构成一个关键词集合;·增量聚类模块,用于根据确定出的各关键词集合中每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,得到各聚类关键词集合;判断推送模块,用于针对得到的每个聚类关键词集合,判断热点舆情库中是否存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合,当不存在时,在接收到的各微博中,选择与该聚类关键词集合相关的微博推送给相关用户,并将该聚类关键词集合作为热点舆情关键词集合保存在所述热点舆情库中。本专利技术实施例提供一种推送微博的方法及装置,该方法确定在设定时间间隔内接收到的各微博中的关键词,采用在各关键词中任选两个关键词构成关键词集合的方法确定关键词集合,并根据每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,针对得到的聚类关键词集合,当热点舆情库中不存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合时,将与该聚类关键词相关的微博推送给相关用户。通过上述方法,得到的聚类关键词集合就是该设定时间间隔内发布的各微博所反映的热点舆情对应的热点舆情关键词集合,而由于在聚类时无需预先设定聚类的个数,因此不会遗漏该设定时间间隔内的任何热点舆情关键词集合,可以将反映热点舆情的微博及时的推送给相应用户。附图说明图I为本专利技术实施例提供的推送微博的过程;图2为本专利技术实施例提供的推送微博的装置结构示意图。具体实施例方式本专利技术实施例提供一种推送微博的方法及装置,该方法确定在设定时间间隔内接收到的各微博中的关键词,采用在各关键词中任选两个关键词构成关键词集合的方法确定关键词集合,并根据每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,针对得到的聚类关键词集合,当热点舆情库中不存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合时,将与该聚类关键词相关的微博推送给相关用户。通过上述方法,得到的聚类关键词集合就是该设定时间间隔内发布的各微博所反映的热点舆情对应的热点舆情关键词集合,而由于在聚类时无需预先设定聚类的个数,因此不会遗漏该设定时间间隔内的任何热点舆情关键词集合,可以将反映热点舆情的微博及时的推送给相应用户。下面结合说明书附图,对本专利技术实施例进行详细描述。图I为本专利技术实施例提供的推送微博的过程,具体包括以下步骤SlOl :接收在设定时间间隔内发布的各微博,确定接收到的各微博中的关键词。 在本专利技术实施例中,服务器在每个设定时间间隔结束时,确定在当前时间间隔内接收到的各微博中包含的关键词。其中,该设定时间间隔可以根据需要进行设定,例如设定为2个小时。在确定接收到的各微博中包含的关键词时,可以对接收到的各微博进行分词处理,并在通过分词处理得到的各分词中,确定指定类型的分词,作为确定出的关键词。具体的,可以在通过分词处理得到的各分词中,先去掉停用词,再针对剩余的每个分词,将该分词分别与预先保存的指定类型的分词词库中的分词进行匹配,如果匹配成功,则说明该分词是该指定类型的分词,将该分词确定为关键词。其中,指定类型包括名词类型、动词类型、形容词类型等分词类型。S102:根据确定出的各关键词,采用设定方法确定关键词集合,并确定采用该设定方法所能确定出的所有关键词集合。其中,该设定方法为在各关键词中任意选择两个关键词构成一个关键词集合。例如,假设在步骤SlOl中确定出的该设定时间间隔内接收到的各微博中包含的关键词为关键词X、关键词Y、关键词Z,则服务器采用任意选择两个关键词构成一个关键词集合的方法,所能确定出的关键词集合为{关键词X,关键词Y}、{关键词Y,关键词Z}、{关键词X,关键词Z}共3个关键词集合。S103 :根据确定出的各关键词集合中每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,得到各聚类关键词集合。具体的,服务器在对各关键词集合进行增量聚类时,可以先按照一定规则对各关键词进行排序,并按照排序的先后顺序,依次针对每个关键词集合执行下本文档来自技高网
...

【技术保护点】
一种推送微博的方法,其特征在于,包括:接收在设定时间间隔内发布的各微博,确定接收到的各微博中的关键词;根据确定出的各关键词,采用设定方法确定关键词集合,并确定采用所述设定方法所能确定出的所有关键词集合,其中,所述设定方法为:在各关键词中任意选择两个关键词构成一个关键词集合;根据确定出的各关键词集合中每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,得到各聚类关键词集合;针对得到的每个聚类关键词集合,判断热点舆情库中是否存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合,当不存在时,在接收到的各微博中,选择与该聚类关键词集合相关的微博推送给相关用户,并将该聚类关键词集合作为热点舆情关键词集合保存在所述热点舆情库中。

【技术特征摘要】

【专利技术属性】
技术研发人员:伏圣国
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1