社交网络突发事件的多维度评估方法技术

技术编号:11466836 阅读:67 留言:0更新日期:2015-05-17 19:14
本发明专利技术提供一种社交网络突发事件的多维度评估方法,包括:获取突发热词共现图;对所述突发热词共现图进行预设图聚类算法处理,得到各个聚类结果,每个聚类结果中包含的关键词节点构成一个突发事件,所述关键词节点包括所述突发热词节点和所述共现词节点;分别计算每个突发事件中的各关键词节点的预设度量指标的值,根据所述预设度量指标的值确定所述每个突发事件的重要性度量值;根据所述每个突发事件的重要性度量值差异化呈现所述每个突发事件。根据反映了各突发事件不同重要程度的重要性度量值来确定各突发事件的差异化表现形式。通过该差异化表现,使得用户能够直观、明显便捷地获知当前社交网络中最为重要的事件。

【技术实现步骤摘要】
社交网络突发事件的多维度评估方法
本专利技术属于大数据处理
,尤其是涉及一种社交网络突发事件的多维度评估方法。
技术介绍
社交网络在人们的生活中扮演着越来越重要的角色,比如微博,国内最大的两大微博平台新浪和腾讯的注册人数早已超过5亿。CNNIC第33次中国互联网络发展状况调查统计报告截至2013年12月,我国微博用户规模为2.81亿,网民中微博使用率为45.5%。对于突发事件或者说热点事件来说,微博的影响规模和传播速度超越了普通博客和传统的新闻媒体。2008年5月12日,中国四川汶川发生大地震,Twitter在约14时35分33秒披露首条消息。包括临武瓜农事件、校车超载事故,以及2014年4月起在全国产生巨大影响的“幼童香港小便事件”也是通过微博平台在社会人群中迅速传播,进而引起广泛讨论,微博已经成为不可小觑的舆论平台。微博能够及时反映舆论情况,及时地从微博获取实时信息,判断突发事件,找到相关微博具有重大的意义。目前从大量微博中检测突发事件的方式多种多样,比如采用基于聚类的方法、采用主题模型的方法等来实现突发事件的检测。并在检测得到社交网络中的突发事件后,由于每个突发事件由多个关键词组成,从而可以将检测得到的突发事件以其包含的关键词集合的形式进行呈现,以使用户获知检测到的各个突发事件。上述方案中,尤其是在检测得到多个突发事件时,将多个突发事件分别以其包含的关键词集合的形式进行无差异化评估,仅简单地呈现出各突发事件包含的关键词集合,使得用户无法及时获知当前最热点的事件或者每个事件的主题,造成较差用户体验。
技术实现思路
针对上述存在的问题,本专利技术提供一种社交网络突发事件的多维度评估方法,用以实现差异化地评估社交网络中检测得到的各突发事件,以提高用户体验的目的。本专利技术提供了一种社交网络突发事件的多维度评估方法,包括:获取突发热词共现图;其中,所述突发热词共现图的节点集包括各突发热词节点以及分别与每个突发热词节点存在共现关系的各共现词节点,所述突发热词共现图的边集包括所述各突发热词节点与所述各突发热词节点分别对应的共现词节点间的边;其中,所述突发热词共现图为对关键词共现图进行突发热词检测后得到的,所述关键词共现图根据所述社交网络中的待处理数据文本中包含的共现关键词得到,所述共现关键词是指同时出现在同一个数据文本中的关键词;对所述突发热词共现图进行预设图聚类算法处理,得到各个聚类结果,每个聚类结果中包含的关键词节点构成一个突发事件,所述关键词节点包括所述突发热词节点和所述共现词节点;分别计算每个突发事件中的各关键词节点的预设度量指标的值,根据所述预设度量指标的值确定所述每个突发事件的重要性度量值;根据所述每个突发事件的重要性度量值差异化呈现所述每个突发事件。本专利技术提供的社交网络突发事件的多维度评估方法,在获得包含有各待处理数据文本中的突发热词以及与各突发热词分别共现连接的各共现词的热词共现图之后,基于该热词共现图进行突发事件检测,以得到各突发事件。对于每个突发事件,根据其包含的关键词集合中的各关键词的预设指标的指标值得到其重要性度量值,从而根据反映了各突发事件不同重要程度的多维重要性度量值来确定各突发事件的差异化表现形式。通过该差异化评估,使得用户能够直观、明显便捷地获知当前社交网络中最为重要的事件。附图说明图1为本专利技术社交网络突发事件的多维度评估方法实施例一的流程图;图2为本专利技术社交网络突发事件的多维度评估方法实施例二的流程图;图3为实施例二中关键词共现图的示意图;图4为实施例二中突发热词共现图的示意图。具体实施方式图1为本专利技术社交网络突发事件的多维度评估方法实施例一的流程图,如图1所示,该方法包括:步骤101、获取突发热词共现图;其中,所述突发热词共现图Gk(t)的节点集包括各突发热词节点以及分别与每个突发热词节点存在共现关系的各共现词节点,所述突发热词共现图的边集包括所述各突发热词节点与所述各突发热词节点分别对应的共现词节点间的边;其中,所述突发热词共现图为对关键词共现图进行突发热词检测后得到的,所述关键词共现图根据所述社交网络中的待处理数据文本中包含的共现关键词得到,所述共现关键词是指同时出现在同一个数据文本中的关键词。本实施例中的社交网络比如可以是微博、论坛等社交网络,本实施例中的所述待处理数据文本相应的比如可以是微博数据文本。值得说明的是,本实施例中主要是针对文本类型的数据信息进行处理,称之为数据文本。微博数据具有数据质量低、文本短、用语非正式、非事件噪音文本多等特点。为了能够准确检测出众多微博数据文本中所包含的突发事件,即在很短时间段内被广泛讨论、传播的热点事件,首先,需要从各个数据文本中确定共现关键词,其中,共现关键词是指同时出现在同一个数据文本中的关键词,即同一个数据文本中的关键词存在共现关系。本实施例中,社会网络比如微博中的一个事件被表示成一组紧密相关的关键词集合。但是实际上,尽管描述一件事件的数据文本多种多样,但是其核心的关键词会有一致的倾向。对于突发事件来说,其核心关键词在使用量上会有突发性特征。因此,本实施例中使用关键词与关键词的共现关系,建模关键词与关键词之间的关联关系。具体地,首先构建关键词共现图,简单来说,该关键词共现图用G(t)代表,其中的节点集合中包括各数据文本中的关键词,即由关键词节点构成节点集合,各关键词节点之间的共现关系作为边集合中的边。具体的构建过程将在后面的实施例中详细描述,此处不做详细说明。为了检测出社交网络中当前检测时刻时存在的各突发事件,本实施例需要在上述关键词共现图G(t)的基础上,通过突发热词检测来检测出关键词共现图用G(t)中的突发热词,从而得到由各突发热词和分别与每个突发热词具有共现连接关系的共现词作为节点的突然热词共现图Gk(t)。突然热词共现图Gk(t)中包含了对突发事件检测最具有意义的各个节点以及节点间的连接边,对于突发热词检测的过程将在后面的实施例中详细描述。步骤102、对所述突发热词共现图进行预设图聚类算法处理,得到各个聚类结果,每个聚类结果中包含的关键词节点构成一个突发事件,所述关键词节点包括所述突发热词节点和所述共现词节点。本实施例中,可以采用图聚类处理算法来对突发热词共现图Gk(t)进行聚类处理,以得到与每个聚类结果对应的突发事件,比如模块(modularity)聚类算法。可选的,在步骤101得到上述热词共现图之后,还可以包括如下步骤:步骤201、对所述突发热词共现图进行过滤去噪处理,得到去噪后的突发热词共现图。其中,所述过滤去噪处理包括:过滤掉所述突发热词共现图中边频率小于预设边频率阈值的边;过滤掉所述突发热词共现图中邻节点数不大于预设数量阈值的节点,所述节点包括所述突发热词共现图中的突发热词节点和共现词节点。为了得到关联关系更强的突发事件检测结果,在进行突发事件检测的步骤之前,还可以采用噪音过滤方式在每个检测周期对突发热词共现图Gk(t)进行去噪处理。具体来说,对于突发热词共现图Gk(t)中的每个突发热词节点,其维护有其突发程度信息即ZValue的值,当前检测时间t,共现词节点集合以及与每个共现词节点间的边的边频率值。这些信息将在后续实施例中详细介绍。因此,基于这些信息,一方面,过滤掉突发热词共现图Gk(t)中边频率小本文档来自技高网...
社交网络突发事件的多维度评估方法

【技术保护点】
一种社交网络突发事件的多维度评估方法,其特征在于,包括:获取突发热词共现图;其中,所述突发热词共现图的节点集包括各突发热词节点以及分别与每个突发热词节点存在共现关系的各共现词节点,所述突发热词共现图的边集包括所述各突发热词节点与所述各突发热词节点分别对应的共现词节点间的边;其中,所述突发热词共现图为对关键词共现图进行突发热词检测后得到的,所述关键词共现图根据所述社交网络中的待处理数据文本中包含的共现关键词得到,所述共现关键词是指同时出现在同一个数据文本中的关键词;对所述突发热词共现图进行预设图聚类算法处理,得到各个聚类结果,每个聚类结果中包含的关键词节点构成一个突发事件,所述关键词节点包括所述突发热词节点和所述共现词节点;分别计算每个突发事件中的各关键词节点的预设度量指标的值,根据所述预设度量指标的值确定所述每个突发事件的重要性度量值;根据所述每个突发事件的重要性度量值差异化呈现所述每个突发事件。

【技术特征摘要】
1.一种社交网络突发事件的多维度评估方法,其特征在于,包括:获取突发热词共现图;其中,所述突发热词共现图的节点集包括各突发热词节点以及分别与每个突发热词节点存在共现关系的各共现词节点,所述突发热词共现图的边集包括所述各突发热词节点与所述各突发热词节点分别对应的共现词节点间的边;其中,所述突发热词共现图为对关键词共现图进行突发热词检测后得到的,所述关键词共现图根据所述社交网络中的待处理数据文本中包含的共现关键词得到,所述共现关键词是指同时出现在同一个数据文本中的关键词;对所述突发热词共现图进行预设图聚类算法处理,得到各个聚类结果,每个聚类结果中包含的关键词节点构成一个突发事件,所述关键词节点包括所述突发热词节点和所述共现词节点;分别计算每个突发事件中的各关键词节点的预设度量指标的值,根据所述预设度量指标的值确定所述每个突发事件的重要性度量值;根据所述每个突发事件的重要性度量值差异化呈现所述每个突发事件;其中,所述根据所述预设度量指标的值确定所述每个突发事件的重要性度量值,包括:对所述每个突发事件中的各关键词节点的预设度量指标的值进行排序,确定每个突发事件中指标值较大的预设数量的关键词节点,所述预设数量的取值为大于或等于1的整数;根据预设的指标值与得分的对应关系,计算每个突发事件中的所述预设数量的关键词节点的指标值对应的得分数,根据所述得分数确定对应的突发事件的重要性度量值;所述根据所述每个突发事件的重要性度量值差异化呈现所述每个突发事件,包括:根据所述每个突发事件的重要性度量值确定所述每个突发事件的呈现颜色和所包含关键词节点的字体大小显示等级;分别针对所述每个突发事件,根据所述每个突发事件中各关键词节点的所述预设度量指标的指标值大小,确定所述各关键词节点在对应的突发事件中的呈现形式,所述呈现形式包括字体大小、关联的边的宽度。2.根据权利要求1所述的方法,其特征在于,所述预设度量指标包括以下指标中的一种:居间中心性、接近中心性、带权度、带权出度、带权入度。3.根据权利要求1或2所述的方法,其特征在于,所述获取突发热词共现图,包括:依次获取待处理数据,所述待处理数据中包括至少一个数据文本;依次对所述至少一个数据文本中的每个数据文本进行分词处理,得到由每个数据文本中包含的关键词作为节点,每个数据文本中的所述关键词间的共现关系作为边的所述关键词共现图;根据到达当前检测时刻时所述关键图共现图中每条边每个到来时刻的出现次数以及所述每条边的每个到来时刻对应的衰减权重,确定当前检测时刻所述每条边的边频率;确定所述关键词共现图中的每个节点的邻节点集合,并根据分别与所述邻节点集合中的每个邻节点间边的边频率,确定当前检测时刻所述每个节点的节点活动频率;根据每个节点在不同检测时刻对应的节点活动频率,确定每个节点的活动频率变化程度;确定所述关键词共现图中节点的活动频率变化程度大于预设程度阈值的节点为突发热词节点,与所述突发热词节点存在共现关系的节点为所述突发热词节点的共现词节点,得到由各突发热词节点和各突发热词节点分别对应的共现词节点,以及各突发热词节点与各突发热词节点分别对应的共现词节点间的边组成的所述突发热词共现图。4.根据权利要求3所述的方法,其特征在于,所述根...

【专利技术属性】
技术研发人员:张日崇于伟仁胡春明卢忠宇李雪
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1