System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及机器学习时间序列异常检测。
技术介绍
1、时间序列数据中的异常检测具有广泛的应用,诸如信用卡欺诈检测、网络安全中的入侵检测或工业中的故障诊断。在时间序列中存在两种主要类型的异常。第一种类型的异常与噪声、错误或不想要的数据有关,这对于数据分析通常不是感兴趣的。这些类型的异常通常应当被删除或校正以改善数据质量并且生成可以由其他数据挖掘算法使用的更干净的数据集。例如,消除传感器传输错误以获得更准确的预料。第二类型的异常与一些感兴趣的事件有关。近年来,尤其是在时间序列数据的领域,许多研究人员旨在检测和分析不寻常但有趣的现象。欺诈检测是检测和分析异常本身作为主要目标的常见示例。
技术实现思路
1、本公开的一个方面提供了一种用于提供机器学习时间序列异常检测的方法。计算机实现的方法在由数据处理硬件执行时使数据处理硬件执行操作。该操作包括从用户接收时间序列异常检测查询。时间序列异常检测查询请求数据处理硬件确定时间序列数据值集合中的一个或多个异常。操作包括使用时间序列数据值集合中的每个时间序列数据值来训练一个或多个模型。对于时间序列数据值集合中的每个相应时间序列数据值,操作包括使用经训练的一个或多个模型来确定相应时间序列数据值的预期数据值,并且确定相应时间序列数据值的预期数据值与相应时间序列数据值之间的差。对于时间序列数据值集合中的每个相应时间序列数据值,操作还包括确定相应时间序列数据值的预期数据值与相应时间序列数据值之间的差满足阈值,并且响应于确定相应时间序列数据值的预期数据值与相应时间
2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,使用经训练的一个或多个模型来确定相应时间序列数据值的预期数据值包括:使用经训练的一个或多个模型将时间序列数据值集合中的每个时间序列数据值分解为多个分量。在这些实施方式中的一些实施方式中,使用经训练的一个或多个模型来确定相应时间序列数据值的预期数据值进一步包括聚合多个分量中的两个或更多个分量。在这些实施方式中的一些实施方式中,一个或多个模型包括用于多个分量中的每个分量的单独模型。可选地,多个分量包括趋势分量、假日效应分量、季节性分量和阶跃变化分量中的一个或多个。
3、在一些示例中,阈值基于从用户接收的异常概率。时间序列异常检测查询可以包括单个结构化查询语言(sql)查询。在一些实施方式中,单个sql查询请求数据处理硬件确定多个时间序列数据值集合中的一个或多个异常数据值。可选地,所述一个或多个模型中的至少一个包括自回归整合移动平均模型。
4、操作可以进一步包括使用经训练的一个或多个模型来预测未来时间序列数据值。在预测未来时间序列数据值之后,操作可以进一步包括接收与未来时间序列数据值相关联的附加时间序列数据值,并且确定未来时间序列数据值与附加时间序列数据值之间的差。操作还可进一步包括确定未来时间序列数据值与附加时间序列数据值之间的差满足阈值。响应于确定未来时间序列数据值与附加时间序列数据值之间的差满足阈值,操作进一步包括确定附加时间序列数据值是异常的并且向用户报告异常的附加时间序列数据值。在一些示例中,时间序列数据值集合包括单变量时间序列数据值集合。
5、本公开的另一方面提供了一种用于机器学习时间序列异常检测的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储在数据处理硬件上执行时使数据处理硬件执行操作的指令。操作包括从用户接收时间序列异常检测查询。时间序列异常检测查询请求数据处理硬件确定时间序列数据值集合中的一个或多个异常。操作包括使用时间序列数据值集合中的每个时间序列数据值来训练一个或多个模型。对于时间序列数据值集合中的每个相应时间序列数据值,操作包括使用经训练的一个或多个模型来确定相应时间序列数据值的预期数据值,并且确定相应时间序列数据值的预期数据值与相应时间序列数据值之间的差。对于时间序列数据值集合中的每个相应时间序列数据值,操作还包括确定相应时间序列数据值的预期数据值与相应时间序列数据值之间的差满足阈值,并且响应于确定相应时间序列数据值的预期数据值与相应时间序列数据值之间的差满足阈值,确定相应时间序列数据值是异常的。操作包括向用户报告异常的相应时间序列数据值。
6、该方面可以包括以下可选特征中的一个或多个。在一些实施方式中,使用经训练的一个或多个模型来确定相应时间序列数据值的预期数据值包括:使用经训练的一个或多个模型将时间序列数据值集合中的每个时间序列数据值分解为多个分量。在这些实施方式中的一些实施方式中,使用经训练的一个或多个模型来确定相应时间序列数据值的预期数据值进一步包括聚合多个分量中的两个或更多个分量。在这些实施方式中的一些实施方式中,一个或多个模型包括用于多个分量中的每个分量的单独模型。可选地,多个分量包括趋势分量、假日效应分量、季节性分量和阶跃变化分量中的一个或多个。
7、在一些示例中,阈值基于从用户接收的异常概率。时间序列异常检测查询可以包括单个结构化查询语言(sql)查询。在一些实施方式中,单个sql查询请求数据处理硬件确定多个时间序列数据值集合中的一个或多个异常数据值。可选地,所述一个或多个模型中的至少一个包括自回归整合移动平均模型。
8、操作可以进一步包括使用经训练的一个或多个模型来预测未来时间序列数据值。在预测未来时间序列数据值之后,操作可以进一步包括接收与未来时间序列数据值相关联的附加时间序列数据值,并且确定未来时间序列数据值与附加时间序列数据值之间的差。操作还可进一步包含确定未来时间序列数据值与附加时间序列数据值之间的差满足阈值。响应于确定未来时间序列数据值与附加时间序列数据值之间的差满足阈值,操作进一步包括确定附加时间序列数据值是异常的并且向用户报告异常的附加时间序列数据值。在一些示例中,时间序列数据值集合包括单变量时间序列数据值集合。
9、在附图和以下描述中阐述了本公开的一个或多个实施方式的细节。根据说明书和附图以及权利要求书,其他方面、特征和优点将是显而易见的。
本文档来自技高网...【技术保护点】
1.由数据处理硬件(144)执行的计算机实现的方法(400),其使得所述数据处理硬件(144)执行包括以下的操作:
2.根据权利要求1所述的方法(400),其中,使用所述经训练的一个或多个模型(212)确定所述相应时间序列数据值(152)的所述预期数据值(152E)包括使用所述经训练的一个或多个模型(212)将所述时间序列数据值(152)集合中的每个时间序列数据值(152)分解成多个分量(220)。
3.根据权利要求2所述的方法(400),其中,使用所述经训练的一个或多个模型(212)确定所述相应时间序列数据值(152)的所述预期数据值(152E)还包括聚合所述多个分量(220)中的两个或更多个分量(220)。
4.根据权利要求2或权利要求3所述的方法(400),其中,所述一个或多个模型(212)包括用于所述多个分量(220)中的每个分量(220)的单独模型(212)。
5.根据权利要求2-4中任一项所述的方法(400),其中,所述多个分量(220)包括趋势分量(220)、假日效应分量(220)、季节性分量(220)和阶跃变化分量(
6.根据权利要求1-5中任一项所述的方法(400),其中,所述阈值(314)基于从所述用户(12)接收的异常概率。
7.根据权利要求1-5中任一项所述的方法(400),其中,所述时间序列异常检测查询(20)包括单个结构化查询语言SQL查询。
8.根据权利要求7所述的方法(400),其中,所述单个SQL查询请求所述数据处理硬件(144)确定多个时间序列数据值(152)集合中的一个或多个异常数据值(152A)。
9.根据权利要求1-5中任一项所述的方法(400),其中,所述一个或多个模型(212)中的至少一个包括自回归整合移动平均模型。
10.根据权利要求1-5中任一项所述的方法(400),其中,所述操作还包括:
11.根据权利要求1-5中任一项所述的方法(400),其中,所述时间序列数据值(152)集合包括单变量时间序列数据值(152)集合。
12.一种系统(100),包括:
13.根据权利要求12所述的系统(100),其中,使用所述经训练的一个或多个模型(212)确定所述相应时间序列数据值(152)的所述预期数据值(152E)包括使用所述经训练的一个或多个模型(212)将所述时间序列数据值(152)集合中的每个时间序列数据值(152)分解成多个分量(220)。
14.根据权利要求13所述的系统(100),其中,使用所述经训练的一个或多个模型(212)确定所述相应时间序列数据值(152)的所述预期数据值(152E)还包括聚合所述多个分量(220)中的两个或更多个分量(220)。
15.根据权利要求13或权利要求14所述的系统(100),其中,所述一个或多个模型(212)包括用于所述多个分量(220)中的每个分量的单独模型(212)。
16.根据权利要求13-15中任一项所述的系统(100),其中,所述多个分量(220)包括趋势分量(220)、假日效应分量(220)、季节性分量(220)和阶跃变化分量(220)中的一个或多个。
17.根据权利要求12-16中任一项所述的系统(100),其中,所述阈值(314)基于从所述用户(12)接收的异常概率。
18.根据权利要求11-17中任一项所述的系统(100),其中,所述时间序列异常检测查询(20)包括单个结构化查询语言SQL查询。
19.根据权利要求18所述的系统(100),其中,所述单个SQL查询请求所述数据处理硬件(144)确定多个时间序列数据值(152)集合中的一个或多个异常数据值(152A)。
20.根据权利要求11-19中任一项所述的系统(100),其中,所述一个或多个模型(212)中的至少一个包括自回归整合移动平均模型。
21.根据权利要求11-20中任一项所述的系统(100),其中,所述操作还包括:
22.根据权利要求11-21中任一项所述的系统(100),其中,所述时间序列数据值(152)集合包括单变量时间序列数据值(152)集合。
...【技术特征摘要】
【国外来华专利技术】
1.由数据处理硬件(144)执行的计算机实现的方法(400),其使得所述数据处理硬件(144)执行包括以下的操作:
2.根据权利要求1所述的方法(400),其中,使用所述经训练的一个或多个模型(212)确定所述相应时间序列数据值(152)的所述预期数据值(152e)包括使用所述经训练的一个或多个模型(212)将所述时间序列数据值(152)集合中的每个时间序列数据值(152)分解成多个分量(220)。
3.根据权利要求2所述的方法(400),其中,使用所述经训练的一个或多个模型(212)确定所述相应时间序列数据值(152)的所述预期数据值(152e)还包括聚合所述多个分量(220)中的两个或更多个分量(220)。
4.根据权利要求2或权利要求3所述的方法(400),其中,所述一个或多个模型(212)包括用于所述多个分量(220)中的每个分量(220)的单独模型(212)。
5.根据权利要求2-4中任一项所述的方法(400),其中,所述多个分量(220)包括趋势分量(220)、假日效应分量(220)、季节性分量(220)和阶跃变化分量(220)中的一个或多个。
6.根据权利要求1-5中任一项所述的方法(400),其中,所述阈值(314)基于从所述用户(12)接收的异常概率。
7.根据权利要求1-5中任一项所述的方法(400),其中,所述时间序列异常检测查询(20)包括单个结构化查询语言sql查询。
8.根据权利要求7所述的方法(400),其中,所述单个sql查询请求所述数据处理硬件(144)确定多个时间序列数据值(152)集合中的一个或多个异常数据值(152a)。
9.根据权利要求1-5中任一项所述的方法(400),其中,所述一个或多个模型(212)中的至少一个包括自回归整合移动平均模型。
10.根据权利要求1-5中任一项所述的方法(400),其中,所述操作还包括:
11.根据权利要求1-5中任一项所述的方法(400),其中,所述时间序列数据值(152)集合包括单变量时间序列数据值(...
【专利技术属性】
技术研发人员:刘家尚,程曦,申伟杰,阿米尔·霍马蒂,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。