使用上下文信号的局部异常检测制造技术

技术编号:17960081 阅读:33 留言:0更新日期:2018-05-16 05:33
至少部分基于上下文信号来推断第一上下文中的测量的期望值。上下文信号可以包括(i)具有与期望值相同的类型并且(ii)与不同于第一上下文的第二上下文相关联(例如,上下文可以包括地理区域)的实际值,或者上下文信号可以包括(i)具有与期望值的类型不同的类型并且(ii)与第一上下文或不同于第一上下文的第二上下文相关联的实际值。如果期望值与第一上下文的实际值之间的差值大于阈值差值,则认为这个条件为异常。检测到的异常可以用于确定对于用户社区可能是重要的或者用户社区感兴趣的事件。

Local anomaly detection using context signals

The expected value of measurement in the first context is infered, at least in part, based on context signals. The context signal may include (I) having the type that is the same as the expected value and (II) associated with a second context different from the first context (for example, a context may include a geographical area), or a context signal may include (I) having a type different from the expected value type and (II) with the first context or not. The actual value associated with the second context of the first context. If the difference between the expected value and the actual value of the first context is greater than the threshold difference, the condition is considered abnormal. The detected anomalies can be used to identify events that may be important to the user community or user community.

【技术实现步骤摘要】
【国外来华专利技术】使用上下文信号的局部异常检测
技术介绍
异常可以被表征为偏离规范的事物(或不正常的事物)。在一些情况下,数据中的异常可以指示令人惊讶或有趣的事件。例如,车祸的目击者可以在事故发生之后不久使用他们的移动设备将车祸发布到社交媒体服务。由社交媒体服务收集的数据(在这种情况下为用户帖子)可以包括有关车祸的信息,并且因此数据可以因为偏离规范而异常。检测数据中的这种异常可以导致有用的见解,诸如在主要新闻媒体对车祸进行报道之前标识车祸。因此,异常检测适用于各种下游应用,并且需要改进异常检测。
技术实现思路
很多事件可以被表征为时间序列y(t),其中y是事物的测量并且t是时间。因此,时间序列由一系列数据点组成,每个数据点表示在时间间隔ΔT期间的测量值。例如,测量值可以是微博帖子(例如,)的数目、车辆的数目、销售项目的数目、911呼叫的数目或任何其他合适的测量。如果y(t)的实际值与正常条件下的y(t)的期望值相比非常大或小,则发生异常。在正常条件下的y(t)的期望值在本文中被称为“期望值”,称为本文中描述了用于至少部分基于上下文信号来准确推断测量的期望值并且使用期望值来自动检测异常的技术和系统。如果与y(t)的实际值之间的差值大于阈值差值(即,如果在时间t,其中X表示某个阈值),则认为这个条件是异常。使用一个或多个上下文信号来推断测量的期望值允许检测本地化到特定上下文的异常,诸如有限的地理区域内的异常。本文中公开的异常检测技术的一个示例应用用于确定可能对于用户社区是重要的或者用户社区感兴趣的真实世界事件。例如,特定地理区域内的异常可以指示特定地理区域中的重大真实世界事件,诸如车祸、森林火灾、体育比赛等。在一些实施例中,用于推断第一上下文的期望值的上下文信号可以包括(i)具有与期望值相同的类型并且(ii)与不同于第一上下文的第二上下文相关联的实际值。“上下文”的一个说明性示例是位置(或地理区域)。使用这种类型的上下文作为示例,系统可以至少部分基于(i)具有与期望值相同的类型并且(ii)与不同于第一地理区域的第二地理区域相关联的实际值来推断第一地理区域的期望值。换言之,与第二地理区域相关联的实际值可以规定由系统推断的第一地理区域的期望值。在一些实施例中,用于推断第一上下文的期望值的上下文信号可以包括(i)具有与期望值的类型不同的类型并且(ii)与第一上下文或不同于第一上下文的第二上下文相关联的实际值。继续其中上下文是地理区域的以上示例,系统可以推断第一地理区域的第一类型的期望值(例如,秃鹰目击(sighting)的数目),其中推断至少部分基于不同类型的实际值(例如,斑点猫头鹰目击的数目),其中不同类型的实际值可以与第一地理区域或不同于第一地理区域的第二地理区域相关联。换言之,一种类型的实际值(例如,斑点猫头鹰目击的数目)可以规定另一种类型的期望值(例如,秃鹰目击的数目)。在推断期望值之后,可以通过将给定上下文的期望值与给定上下文的实际值相比较来执行异常检测过程以确定被称为预测误差的差值。基于预测误差,系统可以确定发生了异常。本文中讨论的很多示例涉及检测包括地理标签的微博帖子(例如,地理标签的)的数据中的异常,但是这些技术和系统不限于此,如下面将更详细地描述的。因此,贯穿本公开的大部分内容的示例重点在于从在时间间隔内接收的来自特定地理区域的异常大或小的数目的地理标签的微博帖子来自动检测特定地理区域的异常。由于所接收的一些微博帖子可以涉及在真实世界中发布本地事件的目击者,所以本文中公开的异常检测技术可以用于标识本地化到特定地理区域的这些类型的事件。值得注意,本文中描述的用于从微博帖子检测本地事件的技术不依赖于检查微博帖子内的文本以便检测指示本地事件的异常。相反,它足以检测来自特定地理区域的微博帖子的数目的异常尖峰。与依赖于文本分析来从微博数据中检测事件的现有的事件检测系统相比,在从微博帖子检测事件时省略文本分析的这种做法降低了从微博数据检测本地事件所涉及的整体计算成本和复杂度。然而,应当理解,如本文中描述的,一些后处理技术(即,在检测到异常之后执行的步骤)可以包括分析数据的基础内容。提供本“
技术实现思路
”是为了以简化的形式介绍将在以下“具体实施方式”中进一步描述的一些概念。本“
技术实现思路
”并非旨在标识所要求保护的主题的关键特征或必要特征,也并非旨在用于限制所要求保护的主题的范围。附图说明参考附图描述详细描述。在这些图中,附图标记的最左边的数字表示附图标记首次出现的图。不同图中的相同附图标记指示相似或相同的项目。图1是用于基于一个或多个上下文信号来推断测量的期望值并且使用期望值来自动检测数据中的异常的示例技术的示意图。图2是根据另一实施例的用于推断测量的期望值的示例技术的示意图。图3示出了用于实现本文中描述的技术和系统的示例环境。图4示出了用于使用层级三角网格(HTM)来离散化地理区域的示例技术。图5示出了用于将时间离散化为彼此偏移的两组时间离散化的示例技术。图6示出了特定地理区域的测量值的示例部分时间序列。图7是离散化地理区域并且选择要在其中检测异常的地理区域的示例过程的流程图。图8是将空间和时间离散化为相应离散化层级并且组合空间和时间离散化以创建空时离散化的示例过程的流程图。图9是使用二元分类器从检测到的异常中确定事件的示例过程的流程图。图10是使用标准化的预测误差来检测异常的示例过程的流程图。图11是向用户通知本地事件的示例过程的流程图。具体实施方式图1是用于基于一个或多个上下文信号来推断测量的期望值并且使用期望值来自动检测数据中的异常的示例技术的示意图。图1示出了诸如数据库等数据存储库100,数据存储库100保持可以使用过程102来从中检测异常的收集到的数据。数据存储库100中的数据可以涉及可以被测量和表征为时间序列y(t)的任何事情,其中y是从数据中获取的测量并且t是时间。因此,数据存储库100可以包括构成时间序列y(t)的一系列数据点的存储的y(t)值104。应当理解,存储的y(t)值104可以表示任何可测量的因素或事件。例如,存储的y(t)值104可以表示但不限于从警察部门记录中获取的犯罪的数目、从微博服务中获取的微博帖子(例如,)的数目、从交通部门获取的被观察到正在道路网络上行进的车辆的数目、从天气记录中获取的观察到的龙卷风的数目、冠蓝鸦目击的数目、销售给消费者的物品(例如,商品或服务)的数目、从紧急调度系统获取的紧急(例如,911)呼叫的数目、或任何其他合适的测量。为了简单起见,在本公开的大部分内容中将存储的y(t)值104描述为表示由微博服务在时间间隔内接收的微博帖子的数目。微博帖子的示例是使用作为微博服务的因为数据存储库100中的数据随着时间被收集,所以数据存储库100还可以包括与其中的数据相关联的时间信息106,诸如时间戳。时间信息106允许创建数据的时间序列y(t)。此外,数据存储库100可以包括与其中的数据相关联的上下文108,上下文108允许将存储的y(t)值106分类为上下文108之一。上下文108可以从上下文信息中导出,诸如可以从地理标签的微博帖子中获取的地理位置。此外,上下文108可以用于确定数据中的邻近关系。本文中使用的上下文108的一个说明性示例是地理区域,但是应当理解,上下文108不限于本文档来自技高网
...
使用上下文信号的局部异常检测

【技术保护点】
一种计算机实现的方法,包括:至少部分基于第一实际值来推断针对第一上下文的期望值,所述第一实际值:(i)具有与所述期望值相同的类型,以及(ii)与不同于所述第一上下文的第二上下文相关联;通过将所述期望值与第二实际值相比较来确定预测误差,所述第二实际值:(i)具有与所述期望值相同的所述类型,以及(ii)与所述第一上下文相关联;以及至少部分基于所述预测误差来确定所述第一上下文中已经发生了异常。

【技术特征摘要】
【国外来华专利技术】2015.09.16 US 14/856,4611.一种计算机实现的方法,包括:至少部分基于第一实际值来推断针对第一上下文的期望值,所述第一实际值:(i)具有与所述期望值相同的类型,以及(ii)与不同于所述第一上下文的第二上下文相关联;通过将所述期望值与第二实际值相比较来确定预测误差,所述第二实际值:(i)具有与所述期望值相同的所述类型,以及(ii)与所述第一上下文相关联;以及至少部分基于所述预测误差来确定所述第一上下文中已经发生了异常。2.根据权利要求1所述的计算机实现的方法,还包括训练机器学习的推断函数,以根据至少所述第一实际值来推断针对所述第一上下文的所述期望值,其中推断所述期望值包括利用所述机器学习的推断函数。3.根据权利要求1所述的计算机实现的方法,还包括:确定所述预测误差的标准偏差;通过将所述预测误差除以所述标准偏差来对所述预测误差进行标准化,以获取标准化的预测误差;以及将所述标准化的预测误差与预定阈值相比较,其中确定所述第一上下文中已经发生了所述异常包括:确定所述标准化的预测误差超过所述预定阈值。4.根据权利要求1所述的计算机实现的方法,其中所述第一上下文包括第一地理区域,并且所述第二上下文包括位于距所述第一地理区域的预定距离内的第二地理区域,所述方法还包括:至少部分基于所述异常来确定所述第一地理区域中的事件。5.根据权利要求4所述的计算机实现的方法,还包括:将所述事件指定为候选事件;以及使用机器学习的二元分类器来确定所述候选事件是真实事件。6.根据权利要求5所述的计算机实现的方法,还包括:访问与用户相关联的常设查询;确定所述真实事件的属性满足所述常设查询;以及向与所述用户相关联的客户端设备传输所述真实事件的通知。7.根据权利要求5所述的计算机实现的方法,还包括:创建所述真实事件的文本摘要;以及导致所述文本摘要在位于所述第一地理区域内的公共空间中的公共显示器上的呈现。8.根据权利要求1所述的计算机实现的方法,其中所述第一上下文包括第一地理区域,并且所述第二上下文包括第二地理区域,所述方法还包括:将初始地理区域离散化为多个地理区域,所述多个地理区域包括所述第一地理区域和所述第二地理区域;对于所述多个地理区域中的每个地理区域,构建包括随着时间绘制的多个数据点的时间序列,每个数据点表示在时...

【专利技术属性】
技术研发人员:J·C·克鲁姆E·J·霍维茨J·K·沃尔克
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1