【技术实现步骤摘要】
本专利技术涉及网络信息挖掘
,特别是涉及一种微博子话题演化分析方法及装置。
技术介绍
微博客等互联网应用的出现,降低了互联网的进入门槛,使得广大网民更容易的使用网络,发出内心的声音。互联网络在传达民情民意方面的优势逐步显现出来,继传统的报纸、广播、电视之后,成为第四媒体,并在表达民众心声、反应社会舆论方面发挥极其重要的作用。热点话题作为广大网民关注的热点、讨论的焦点,反应一定时间周期内网络舆论的中心,是广大网民对现实社会生活中存在问题的集中反应。另外,热点话题会随着新的事件、新的焦点的出现,并且在广大网民、特别是意见领袖的参与或别有用心的人推波助澜下,会迅速传播并不断发生演化,话题的中心会发生变化,形成不同的子话题。子话题既可以指话题讨论过程中的不同侧面、不同中心,又可以指随着话题发展产生的新事件。子话题发现属于话题检测与跟踪技术,目前的技术主要是针对新闻等传统媒体,基于文本相似度来发现子话题,但是因为微博文本内容短小,一条微博信息包含的有效特征较少,而且每个特征仅出现一次或几次,仅仅通过文本相似度来衡量效果较差,传统的子话题发现技术对于微博文本不适用。专 ...
【技术保护点】
一种微博子话题演化分析方法,其特征在于,包括:通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类,以根据聚类结果生成相应的子话题;根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系。
【技术特征摘要】
1.一种微博子话题演化分析方法,其特征在于,包括:通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类,以根据聚类结果生成相应的子话题;根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系。2.根据权利要求1所述的方法,其特征在于,所述通过改进的最近邻方法对当前时间窗口中的每个微博话题的特征进行聚类包括:针对每个微博话题,从所有特征样本中选择互信息最大且大于预设阈值D的一对特征样本中的任一个作为初始聚类样本;利用所述初始聚类样本聚类产生一个簇后,如果新特征样本与所述簇的互信息大于所述预设阈值D,且所述新特征样本与所述簇的互信息大于其他特征样本与所述簇的互信息,将所述新特征样本聚入所述簇;其中,所述新特征样本与所述簇的互信息等于所述新特征样本与所述簇的已有特征样本之间的互信息的平均值。3.根据权利要求1所述的方法,其特征在于,所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系之前,所述方法还包括:计算当前窗口的话题与上一窗口的话题之间的话题相似性;根据所述话题相似性筛选出当前窗口的话题中的持续性话题;所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系包括:根据当前时间窗口中子话题与上一时间窗口中子话题的相似性,在所述持续性话题中确定子话题的演化关系。4.根据权利要求3所述的方法,其特征在于,所述计算当前窗口的话题与上一窗口的话题之间的话题相似性包括:根据特征相似性和作者相似性,计算当前窗口的话题与上一窗口的话题之间的话题相似性。5.根据权利要求1所述的方法,其特征在于,所述根据当前时间窗口中子话题与上一时间窗口中子话题的相似性确定子话题的演化关系包括:根据特征相似性,计算当前窗口的每个子话题与上一窗口的每个子话题之间的相似性;当两个子话题SubTi和SubTj的相似性大于第一阈值时,确定子话题SubTj是对子话题SubTi的继承;当两个子话题SubTi和SubTj的相似性在所述第一阈值和所述第二阈值之间时,确定子话题SubTj是子话题SubTi的转移;当两个子话题SubTi和SubTj的相似性小于所述第二阈值时,确定子话题S...
【专利技术属性】
技术研发人员:贺敏,云晓春,周勇林,王丽宏,包秀国,徐杰,程学旗,刘悦,杜攀,赵立永,杨建武,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。