【技术实现步骤摘要】
社交网络突发事件的多维度评估方法
本专利技术属于大数据处理
,尤其是涉及一种社交网络突发事件的多维度评估方法。
技术介绍
社交网络在人们的生活中扮演着越来越重要的角色,比如微博,国内最大的两大微博平台新浪和腾讯的注册人数早已超过5亿。CNNIC第33次中国互联网络发展状况调查统计报告截至2013年12月,我国微博用户规模为2.81亿,网民中微博使用率为45.5%。对于突发事件或者说热点事件来说,微博的影响规模和传播速度超越了普通博客和传统的新闻媒体。2008年5月12日,中国四川汶川发生大地震,Twitter在约14时35分33秒披露首条消息。包括临武瓜农事件、校车超载事故,以及2014年4月起在全国产生巨大影响的“幼童香港小便事件”也是通过微博平台在社会人群中迅速传播,进而引起广泛讨论,微博已经成为不可小觑的舆论平台。微博能够及时反映舆论情况,及时地从微博获取实时信息,判断突发事件,找到相关微博具有重大的意义。目前从大量微博中检测突发事件的方式多种多样,比如采用基于聚类的方法、采用主题模型的方法等来实现突发事件的检测。并在检测得到社交网络中的突发事件后,由于每个突发事件由多个关键词组成,从而可以将检测得到的突发事件以其包含的关键词集合的形式进行呈现,以使用户获知检测到的各个突发事件。上述方案中,尤其是在检测得到多个突发事件时,将多个突发事件分别以其包含的关键词集合的形式进行无差异化评估,仅简单地呈现出各突发事件包含的关键词集合,使得用户无法及时获知当前最热点的事件或者每个事件的主题,造成较差用户体验。
技术实现思路
针对上述存在的问题,本专利技术提供一 ...
【技术保护点】
一种社交网络突发事件的多维度评估方法,其特征在于,包括:获取突发热词共现图;其中,所述突发热词共现图的节点集包括各突发热词节点以及分别与每个突发热词节点存在共现关系的各共现词节点,所述突发热词共现图的边集包括所述各突发热词节点与所述各突发热词节点分别对应的共现词节点间的边;其中,所述突发热词共现图为对关键词共现图进行突发热词检测后得到的,所述关键词共现图根据所述社交网络中的待处理数据文本中包含的共现关键词得到,所述共现关键词是指同时出现在同一个数据文本中的关键词;对所述突发热词共现图进行预设图聚类算法处理,得到各个聚类结果,每个聚类结果中包含的关键词节点构成一个突发事件,所述关键词节点包括所述突发热词节点和所述共现词节点;分别计算每个突发事件中的各关键词节点的预设度量指标的值,根据所述预设度量指标的值确定所述每个突发事件的重要性度量值;根据所述每个突发事件的重要性度量值差异化呈现所述每个突发事件。
【技术特征摘要】
1.一种社交网络突发事件的多维度评估方法,其特征在于,包括:获取突发热词共现图;其中,所述突发热词共现图的节点集包括各突发热词节点以及分别与每个突发热词节点存在共现关系的各共现词节点,所述突发热词共现图的边集包括所述各突发热词节点与所述各突发热词节点分别对应的共现词节点间的边;其中,所述突发热词共现图为对关键词共现图进行突发热词检测后得到的,所述关键词共现图根据所述社交网络中的待处理数据文本中包含的共现关键词得到,所述共现关键词是指同时出现在同一个数据文本中的关键词;对所述突发热词共现图进行预设图聚类算法处理,得到各个聚类结果,每个聚类结果中包含的关键词节点构成一个突发事件,所述关键词节点包括所述突发热词节点和所述共现词节点;分别计算每个突发事件中的各关键词节点的预设度量指标的值,根据所述预设度量指标的值确定所述每个突发事件的重要性度量值;根据所述每个突发事件的重要性度量值差异化呈现所述每个突发事件;其中,所述根据所述预设度量指标的值确定所述每个突发事件的重要性度量值,包括:对所述每个突发事件中的各关键词节点的预设度量指标的值进行排序,确定每个突发事件中指标值较大的预设数量的关键词节点,所述预设数量的取值为大于或等于1的整数;根据预设的指标值与得分的对应关系,计算每个突发事件中的所述预设数量的关键词节点的指标值对应的得分数,根据所述得分数确定对应的突发事件的重要性度量值;所述根据所述每个突发事件的重要性度量值差异化呈现所述每个突发事件,包括:根据所述每个突发事件的重要性度量值确定所述每个突发事件的呈现颜色和所包含关键词节点的字体大小显示等级;分别针对所述每个突发事件,根据所述每个突发事件中各关键词节点的所述预设度量指标的指标值大小,确定所述各关键词节点在对应的突发事件中的呈现形式,所述呈现形式包括字体大小、关联的边的宽度。2.根据权利要求1所述的方法,其特征在于,所述预设度量指标包括以下指标中的一种:居间中心性、接近中心性、带权度、带权出度、带权入度。3.根据权利要求1或2所述的方法,其特征在于,所述获取突发热词共现图,包括:依次获取待处理数据,所述待处理数据中包括至少一个数据文本;依次对所述至少一个数据文本中的每个数据文本进行分词处理,得到由每个数据文本中包含的关键词作为节点,每个数据文本中的所述关键词间的共现关系作为边的所述关键词共现图;根据到达当前检测时刻时所述关键图共现图中每条边每个到来时刻的出现次数以及所述每条边的每个到来时刻对应的衰减权重,确定当前检测时刻所述每条边的边频率;确定所述关键词共现图中的每个节点的邻节点集合,并根据分别与所述邻节点集合中的每个邻节点间边的边频率,确定当前检测时刻所述每个节点的节点活动频率;根据每个节点在不同检测时刻对应的节点活动频率,确定每个节点的活动频率变化程度;确定所述关键词共现图中节点的活动频率变化程度大于预设程度阈值的节点为突发热词节点,与所述突发热词节点存在共现关系的节点为所述突发热词节点的共现词节点,得到由各突发热词节点和各突发热词节点分别对应的共现词节点,以及各突发热词节点与各突发热词节点分别对应的共现词节点间的边组成的所述突发热词共现图。4.根据权利要求3所述的方法,其特征在于,所述根...
【专利技术属性】
技术研发人员:张日崇,于伟仁,胡春明,卢忠宇,李雪,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。