【技术实现步骤摘要】
【国外来华专利技术】社交数据流上的实时事件检测
[0001]本申请要求于2019年1月29日提交的名称为“Real
‑
Time Event Detection on Social Data Streams(社交数据流上的实时时间检测)”的美国临时申请No.62/798,388的优先权,其公开内容整体并入本文。
技术介绍
[0002]社交网络正迅速成为用于讨论围绕现实世界事件发生的事情的主要媒介。一些传统方法可以涉及确定在给定的时间实例—例如时间点分析—在社交媒体平台上讨论了什么事件。然而,这些传统方法可能无法考虑事件的演变,且可能容易受到通常在大规模社交媒体网络中产生的大量数据集或主题计数的记忆问题的影响。
技术实现思路
[0003]本文中公开了针对随时间追踪事件的事件检测的技术、方法和系统,其包括将事件建模为群集链,例如随时间链接的群集组的列表。例如,消息传递系统可以从在消息传递平台上交换的消息的消息流中周期性地标识趋向实体。从消息流中标识趋向实体可以被称为突发检测。在一些示例中,消息流相对大(例如每秒超过5K条消息)。趋向实体可以是以异常高的速率或以高于阈值条件的速率出现在消息流中的实体。在一些示例中,趋向实体可以是单词、短语、散列标签、标识符(例如用户标识符、消息标识符等)、web资源(例如URL)和/或是指特定对象的任何内容。消息传递系统可以周期性地对趋向实体执行基于相似度的聚类操作以检测一个或多个群集组,其中每个群集组包括被确定为彼此类似(例如与大于阈值水平的相似度值相关联)的两个或更多个趋向实体。
[ ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于在社交数据流上的事件检测的方法,所述方法包括:通过消息传递平台接收在消息传递平台上交换的消息流;通过所述消息传递平台从所述消息流中检测事件,包括:在第一时间段内检测趋向实体的第一群集组,所述第一群集组包括被标识为彼此类似的至少两个趋向实体;在第二时间段内检测趋向实体的第二群集组,所述第二群集组包括被标识为彼此类似的至少两个趋向实体;以及通过将所述第二群集组与所述第一群集组链接来生成群集链,所述群集链表示在所述第一时间段和所述第二时间段内的所检测到的事件;以及通过所述消息传递平台将所述事件作为所述群集链存储在所述消息传递平台上的存储器装置中。2.根据权利要求1所述的方法,进一步包括:通过所述消息传递平台将数字数据传输给客户端应用,以在所述客户端应用的用户界面中呈现关于所述事件的信息,所述关于所述事件的信息包括来自所述群集链的信息。3.根据权利要求2所述的方法,其中,所述关于所述事件的信息标识来自所述第一群集组的第一趋向实体和来自所述第二群集组的第二趋向实体,所述第二趋向实体不同于所述第一趋向实体。4.根据权利要求1所述的方法,进一步包括:基于与每个相应群集组相关联的趋向实体的流行度对所述第一群集组和所述第二群集组进行排名,其中所述群集链包括排名的群集组的列表。5.根据权利要求1所述的方法,进一步包括:在所述第一时间段内标识多个趋向实体,其中所述第一群集组在所述第一时间段内从所述多个趋向实体中被检测到;以及在所述第二时间段内标识多个趋向实体,其中所述第二群集组在所述第二时间段内从所述多个趋向实体中被检测到。6.根据权利要求1所述的方法,进一步包括:将群集标识符分配给所述第一群集组;以及响应于所述第二群集组被链接到所述第一群集组,将所述第一群集组的所述群集标识符分配给所述第二群集组。7.根据权利要求1所述的方法,其中,检测所述第一群集组包括:基于与所述第一时间段的多个趋向实体相关联的相似度值生成相似度图,所述相似度图包括表示所述多个趋向实体的节点和用所述相似度值注释的边;以及根据聚类算法对所述相似度图进行划分以检测所述第一群集组。8.根据权利要求7所述的方法,进一步包括:基于时间窗口内所述多个趋向实体当中的频率计数和同现来计算所述相似度值;以及基于相似度阈值对所述相似度图进行过滤,以使得具有小于所述相似度阈值的相似度值的边从所述相似度图中被去除,其中过滤后的相似度图根据所述聚类算法被划分以检测所述第一群集组。9.根据权利要求1所述的方法,其中,所述第二群集组基于最大加权二分匹配被链接到
所述第一群集组。10.一种用于检测实时事件的消息传递系统,所述消息传递系统包括:消息传递平台,所述消息传递平台被配置成通过网络向计算装置交换消息;以及客户端应用,所述客户端应用被配置成与所述消息传递平台通信以发送和接收消息,其中,所述消息传递平台被配置成:在第一时间段内检测趋向实体的第一群集组,所述第一群集组包括被标识为彼此类似的至少两个趋向实体;在第二时间段内检测趋向实体的第二群集组,所述第二群集组包括被标识为彼此类似的至少两个趋向实体;基于多个趋向实体在所述第一群集组与所述第二群集组之间被共享,通过将所述第二群集组与所述第一群集组链接来生成群集链,所述群集链表示在所述第一时间段和所述第二时间段内的所检测到的事件;以及将事件作为所述群集链存储在所述消息传递平台上的存储器装置中,所述群集链可被检索以用于未来的群集链接。11.根据权利要求10所述的消息传递系统,其中,所述消息传递平台被配置成将数字数据传输给所述客户端应用以在所述客户端应用的用户界面中呈现关于所述事件的信息,所述关于所述事件的信息包括来自所述群集链的信息,所述来自所述群集链的信息在趋势部分、时间线或被返回给所述客户端应用的搜索结果的一部分中被呈现。12.根据权利要求10所述的消息传递系统,其中,所述消息传递平台被配置成基于与每个群集组相关联的聚合流行度度量来对所述第一群集组和所述第二群集组进行排名。13.根据权利要求10所述的消息传递系统,其中,所述消息传递平台被配置成:从趋势检测器服务中获得所述第一时间段内的趋向实体列表;从在所述消息传递平台上交换的消息流中提取实体;以及使用所述趋向实体列表过滤所提取的实体以获得所述第一时间段内的多个趋向实体,其中所述第一群集组被在所述第一时间段内使用所述多个趋向...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。