社交数据流上的实时事件检测制造技术

技术编号:30211524 阅读:16 留言:0更新日期:2021-09-29 09:19
根据一方面,一种用于在社交数据流上的事件检测的方法包括:接收在消息传递平台上交换的消息流;以及从所述消息流中检测事件,其可以包括:在第一时间段内检测趋向实体的第一群集组;在第二时间段内检测趋向实体的第二群集组;以及通过将所述第二群集组与所述第一群集组链接来生成群集链,其中所述群集链表示在所述第一时间段和所述第二时间段内的所述检测到的事件。该方法包括将所述事件作为所述群集链存储在消息传递平台上的存储器装置中。链存储在消息传递平台上的存储器装置中。链存储在消息传递平台上的存储器装置中。

【技术实现步骤摘要】
【国外来华专利技术】社交数据流上的实时事件检测
[0001]本申请要求于2019年1月29日提交的名称为“Real

Time Event Detection on Social Data Streams(社交数据流上的实时时间检测)”的美国临时申请No.62/798,388的优先权,其公开内容整体并入本文。

技术介绍

[0002]社交网络正迅速成为用于讨论围绕现实世界事件发生的事情的主要媒介。一些传统方法可以涉及确定在给定的时间实例—例如时间点分析—在社交媒体平台上讨论了什么事件。然而,这些传统方法可能无法考虑事件的演变,且可能容易受到通常在大规模社交媒体网络中产生的大量数据集或主题计数的记忆问题的影响。

技术实现思路

[0003]本文中公开了针对随时间追踪事件的事件检测的技术、方法和系统,其包括将事件建模为群集链,例如随时间链接的群集组的列表。例如,消息传递系统可以从在消息传递平台上交换的消息的消息流中周期性地标识趋向实体。从消息流中标识趋向实体可以被称为突发检测。在一些示例中,消息流相对大(例如每秒超过5K条消息)。趋向实体可以是以异常高的速率或以高于阈值条件的速率出现在消息流中的实体。在一些示例中,趋向实体可以是单词、短语、散列标签、标识符(例如用户标识符、消息标识符等)、web资源(例如URL)和/或是指特定对象的任何内容。消息传递系统可以周期性地对趋向实体执行基于相似度的聚类操作以检测一个或多个群集组,其中每个群集组包括被确定为彼此类似(例如与大于阈值水平的相似度值相关联)的两个或更多个趋向实体。
[0004]具体地,消息传递系统可以从第一时间段接收检测到的趋向实体且对来自第一时间段的趋向实体执行基于相似度的聚类操作以检测一个或多个群集组。然后,消息传递系统可以从第二时间段接收检测到的趋向实体且对来自第二时间段的趋向实体执行基于相似度的聚类操作以检测一个或多个后续群集组。如果确定来自第二时间段的群集组的主题类似于来自第一时间段的群集组的主题,那么这些群集组(跨不同时间段)被链接在一起,从而形成群集链。通过随时间(且实时地或基本上实时地)连续地(例如周期性地)检测和链接群集组,用于描述在事件的生命周期期间的不同点处在消息传递系统上的事件的术语可能由群集链捕获。如此,与使用静态事件检测(例如从数据的快照检测事件)的一些传统方法相比,消息传递系统所提供的事件检测是动态的,以便考虑到在消息传递系统上讨论什么的动态性质。
[0005]在一些示例中,突发检测操作独立于聚类操作(例如可由单独的CPU和存储器装置执行)执行。通过将突发检测操作与聚类操作分离,一些聚类操作(或所有聚类操作)可以与突发检测操作并行执行,这可以提高事件检测的速度(特别是针对处置大量数据的社交媒体平台)。此外,这些组件是独立可扩展的,这可以提高事件检测的速度且增加消息传递系统的灵活性,以调整于突发检测和实体聚类的变化处理负载,且能够实时追踪事件。
[0006]消息传递平台可以将数字数据传输给客户端应用以在该客户端应用的用户界面
中呈现关于事件的信息。关于事件的信息可以包括来自群集链的信息。群集链信息可以标识一个或多个事件且标识来自群集链的一个或多个趋向实体。在一些示例中,群集链信息被包括在客户端应用的趋势部分中。例如,趋势部分可以标识趋向实体(或话题)的列表。在一个具体示例中,散列标签“#bucks”可以是趋向的且被包括作为由群集链表示的事件的一部分。群集链还可以标识被链接到包括散列标签“#bucks”的群集组的另一群集组内的实体“Giannis”。趋势部分可以标识相关术语“Giannis”(和来自群集链的其他相关术语)以及趋向实体“#bucks”。
[0007]消息传递平台可以将数字数据传输给客户端应用以呈现消息的时间线。时间线可以包括来自与连接图中的用户的账户具有关系的账户的消息流。在一些示例中,对时间线进行排名,且消息的排名可以(部分地)基于检测到的事件。例如,事件可以包括标识事件的检测到的开始时间和事件的检测到的结束时间的事件元数据。时间线管理器可以接收事件,该事件标识跨属于该事件(或群集链)的不同群集组的趋向实体。时间线管理器可以确定在事件持续期间(例如在检测到的开始时间与检测到的结束时间之间)要被呈现为用户的时间线的一部分的消息是否包括来自群集链的趋向实体。如果该消息包括在事件持续期间作为群集链的一部分的趋向实体,那么时间线管理器可以在用户的时间线的排名内提升(或升高)该消息。
[0008]在一些示例中,时间线包括宣传的内容,该内容可以包括广告消息。类似于根据连接图要递送的消息,如果在事件持续期间宣传的消息包括来自群集链的趋向实体,那么该宣传的消息可以在时间线的排名中被提升。在一些示例中,消息传递平台包括广告堆叠引擎,该广告堆叠引擎被配置成确定宣传消息的定价。在一些示例中,如果在事件持续期间宣传的内容包括一个或多个趋向实体,那么广告堆叠引擎可以增加其对宣传的内容的定价。在一些示例中,群集链信息被包括作为被返回给用户的搜索结果的一部分。例如,用户可以提交查询搜索,且搜索管理器可以使用群集链来扩展搜索结果以包括其他相关实体。
[0009]根据一方面,一种用于在社交数据流上的事件检测的方法包括:通过消息传递平台接收在消息传递平台上交换的消息流;以及通过消息传递平台从消息流中检测事件。检测步骤包括:在第一时间段内检测趋向实体的第一群集组;在第二时间段内检测趋向实体的第二群集组;以及通过将第二群集组与第一群集组链接来生成群集链,其中该群集链表示在第一时间段和第二时间段内的检测到的事件。第一群集组包括被标识为彼此类似的至少两个趋向实体。第二群集组包括被标识为彼此类似的至少两个趋向实体。方法包括通过消息传递平台将事件作为群集链存储在消息传递平台上的存储器装置中。在一些示例中,可以向系统或非暂时性计算机可读介质提供这些操作。
[0010]根据一些方面,一种方法、系统或非暂时性计算机可读介质可以包括以下特征中的一个或多个(或其任何组合)。方法可以包括通过消息传递平台将数字数据传输给客户端应用以在客户端应用的用户界面中呈现关于事件的信息,其中关于事件的信息包括来自群集链的信息。关于事件的信息标识来自第一群集组的第一趋向实体和来自第二群集组的第二趋向实体,该第二趋向实体不同于第一趋向实体。方法可以包括对群集链内的群集组进行排名,包括基于与每个相应群集组相关联的实体的流行度对第一群集组和第二群集组进行排名。方法可以包括:从消息流中提取实体;获得从趋势检测器服务派生的趋向实体列表;以及基于从趋势检测器服务派生的趋向实体列表从提取的实体中标识趋向实体。方法
可以包括:将群集标识符分配给第一群集组;以及响应于第二群集组被链接到第一群集组,将该第一群集组的群集标识符分配给第二群集组。检测第一群集组可以包括:基于与第一时间段的趋向实体相关联的相似度值生成相似度图,其中该相似度图包括表示第一时间段内的趋向实体的节点和表示相似度值的边;以及根据聚类算法对相似度图进行划分以检测第一群集组。方法可以包括:基于时间窗口内趋向实体当中的频率计数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于在社交数据流上的事件检测的方法,所述方法包括:通过消息传递平台接收在消息传递平台上交换的消息流;通过所述消息传递平台从所述消息流中检测事件,包括:在第一时间段内检测趋向实体的第一群集组,所述第一群集组包括被标识为彼此类似的至少两个趋向实体;在第二时间段内检测趋向实体的第二群集组,所述第二群集组包括被标识为彼此类似的至少两个趋向实体;以及通过将所述第二群集组与所述第一群集组链接来生成群集链,所述群集链表示在所述第一时间段和所述第二时间段内的所检测到的事件;以及通过所述消息传递平台将所述事件作为所述群集链存储在所述消息传递平台上的存储器装置中。2.根据权利要求1所述的方法,进一步包括:通过所述消息传递平台将数字数据传输给客户端应用,以在所述客户端应用的用户界面中呈现关于所述事件的信息,所述关于所述事件的信息包括来自所述群集链的信息。3.根据权利要求2所述的方法,其中,所述关于所述事件的信息标识来自所述第一群集组的第一趋向实体和来自所述第二群集组的第二趋向实体,所述第二趋向实体不同于所述第一趋向实体。4.根据权利要求1所述的方法,进一步包括:基于与每个相应群集组相关联的趋向实体的流行度对所述第一群集组和所述第二群集组进行排名,其中所述群集链包括排名的群集组的列表。5.根据权利要求1所述的方法,进一步包括:在所述第一时间段内标识多个趋向实体,其中所述第一群集组在所述第一时间段内从所述多个趋向实体中被检测到;以及在所述第二时间段内标识多个趋向实体,其中所述第二群集组在所述第二时间段内从所述多个趋向实体中被检测到。6.根据权利要求1所述的方法,进一步包括:将群集标识符分配给所述第一群集组;以及响应于所述第二群集组被链接到所述第一群集组,将所述第一群集组的所述群集标识符分配给所述第二群集组。7.根据权利要求1所述的方法,其中,检测所述第一群集组包括:基于与所述第一时间段的多个趋向实体相关联的相似度值生成相似度图,所述相似度图包括表示所述多个趋向实体的节点和用所述相似度值注释的边;以及根据聚类算法对所述相似度图进行划分以检测所述第一群集组。8.根据权利要求7所述的方法,进一步包括:基于时间窗口内所述多个趋向实体当中的频率计数和同现来计算所述相似度值;以及基于相似度阈值对所述相似度图进行过滤,以使得具有小于所述相似度阈值的相似度值的边从所述相似度图中被去除,其中过滤后的相似度图根据所述聚类算法被划分以检测所述第一群集组。9.根据权利要求1所述的方法,其中,所述第二群集组基于最大加权二分匹配被链接到
所述第一群集组。10.一种用于检测实时事件的消息传递系统,所述消息传递系统包括:消息传递平台,所述消息传递平台被配置成通过网络向计算装置交换消息;以及客户端应用,所述客户端应用被配置成与所述消息传递平台通信以发送和接收消息,其中,所述消息传递平台被配置成:在第一时间段内检测趋向实体的第一群集组,所述第一群集组包括被标识为彼此类似的至少两个趋向实体;在第二时间段内检测趋向实体的第二群集组,所述第二群集组包括被标识为彼此类似的至少两个趋向实体;基于多个趋向实体在所述第一群集组与所述第二群集组之间被共享,通过将所述第二群集组与所述第一群集组链接来生成群集链,所述群集链表示在所述第一时间段和所述第二时间段内的所检测到的事件;以及将事件作为所述群集链存储在所述消息传递平台上的存储器装置中,所述群集链可被检索以用于未来的群集链接。11.根据权利要求10所述的消息传递系统,其中,所述消息传递平台被配置成将数字数据传输给所述客户端应用以在所述客户端应用的用户界面中呈现关于所述事件的信息,所述关于所述事件的信息包括来自所述群集链的信息,所述来自所述群集链的信息在趋势部分、时间线或被返回给所述客户端应用的搜索结果的一部分中被呈现。12.根据权利要求10所述的消息传递系统,其中,所述消息传递平台被配置成基于与每个群集组相关联的聚合流行度度量来对所述第一群集组和所述第二群集组进行排名。13.根据权利要求10所述的消息传递系统,其中,所述消息传递平台被配置成:从趋势检测器服务中获得所述第一时间段内的趋向实体列表;从在所述消息传递平台上交换的消息流中提取实体;以及使用所述趋向实体列表过滤所提取的实体以获得所述第一时间段内的多个趋向实体,其中所述第一群集组被在所述第一时间段内使用所述多个趋向...

【专利技术属性】
技术研发人员:马特乌斯
申请(专利权)人:推特股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1