【技术实现步骤摘要】
一种基于时序向量检索的数据异常检测方法及系统
[0001]本专利技术涉及异常检测领域,具体涉及一种基于时序向量检索的数据异常检测方法及系统。
技术介绍
[0002]异常检测是一种重要的技术,异常检测可以找到与“主体数据分布”不同的异常值,比如从信用卡交易中找出诈骗案例,从正常的网络数据流中找出入侵,在正常案例中找到罕见病患者,有非常广泛的商业应用价值。对于互联网企业,有大量的系统、不断的产生数据,尤其是时序数据,对时序数据进行异常检测,是很有价值的工作,目前常用的异常检测方法,有基于统计学的,有基于神经网络的,有基于聚类的。
[0003]上述这些传统异常检测方法,对于规则波动的时序数据,有很好的表现。但是对于有周末效应和节假日效应的时序数据,在周末或节假日经常会产生误报。其中,周末效应或节假日效应,是指有些时序数据,周末或节假日的表现和工作日不一样。
技术实现思路
[0004]本专利技术实施例提供一种基于时序向量检索的数据异常检测方法及系统,基于时序数据的向量检索文件,可以快速的对时序数据进行异常检测 ...
【技术保护点】
【技术特征摘要】
1.一种基于时序向量检索的数据异常检测方法,其特征在于,包括:获取预设时间段内基于时序的第一预设数量时间点的指标数据,对基于时序的第一预设数量时间点的指标数据进行处理,在向量引擎中通过处理后的指标数据构建向量索引文件,形成基于时序的向量检索引擎;获取待检测时间点的指标数据,对待检测时间点的指标数据进行量化处理并向量化,得到待检测指标向量数据;将待检测指标向量数据放入基于时序的向量检索引擎,通过基于时序的向量检索引擎检索待检测指标向量数据与向量索引文件的相似度;根据待检测指标向量数据与向量索引文件的相似度检索判定待检测指标向量数据对应的指标数据是否为异常数据。2.根据权利要求1所述的基于时序向量检索的数据异常检测方法,其特征在于,所述对基于时序的第一预设数量时间点的指标数据进行处理,在向量引擎中通过处理后的指标数据构建向量索引文件,形成基于时序的向量检索引擎,具体包括:针对每个时间点的指标数据,自该时间点起向前获取第二预设数量时间点的指标数据,按照时间顺序将第二预设数量时间点的指标数据形成数值列,将所形成的数值列作为该时间点指标的初始向量;其中,该时间点指标的初始向量的维度等于第二预设数量,所述第二预设数量小于第一预设数量;将该时间点指标的初始向量内第一维度的指标数据的量化值设为1,将其他维度的指标数据与第一维度的指标数据的比值作为该维度相应的量化值;通过指标各维度的量化值形成该时间点指标的量化向量;将每个时间点指标的量化向量作为一行并基于时序进行排列,组成基于时序的指标向量数据集;通过向量引擎faiss将基于时序的指标向量数据集创建成向量索引文件,将向量索引文件作为faiss的检索向量得到基于时序的向量检索引擎。3.根据权利要求2所述的基于时序向量检索的数据异常检测方法,其特征在于,所述针对每个时间点的指标数据,自该时间点起向前获取第二预设数量时间点的指标数据,具体包括:如果自该时间点向前获取的指标数据不满足第二预设数量,则舍弃该时间点的指标数据;所述基于时序向量检索的数据异常检测方法,还包括:采用faiss自带的检索方法对所创建的向量索引文件内的向量进行遍历检索;当所创建的向量索引文件内的向量不存在孤立向量、且向量索引文件内的向量相应的业务未出现异常,则判定所创建的向量索引文件成功;其中,孤立向量是指所创建的向量索引文件内、与faiss自带的检索方法内的现有向量之间的距离大于预设检验阈值的向量。4.根据权利要求1所述的基于时序向量检索的数据异常检测方法,其特征在于,所述获取待检测时间点的指标数据,对待检测时间点的指标数据进行量化处理并向量化,得到待检测指标向量数据,具体包括:获取待检测时间点的指标数据,自该时间点起向前获取第三预设数量的基于时序的指标数据,形成该待检测时间点指标的初始向量;
将该待检测时间点指标的初始向量内的第一维度的指标数据的量化值设为1,将其他维度的指标数据与第一维度的指标数据的比值作为维度相应的量化值;通过指标各维度的量化值形成该待检测时间点指标的量化向量,作为所述待检测指标向量数据。5.根据权利要求4所述的基于时序向量检索的数据异常检测方法,其特征在于,所述将待检测指标向量数据放入基于时序的向量检索引擎,通过基于时序的向量检索引擎检索待检测指标向量数据与向量索引文件的相似度,具体包括:通过向量检索引擎检索待检时间点指标的量化向量与基于时序的向量检索引擎内的向量索引文件内各向量的距离,将检索待检时间点指标的量化向量与基于时序的向量检索引擎内的向量索引文件内各向量的距离作为待检测指标向量数据与向量索引文件的相似度;所述根据待检测指标向量数据与向量索引文件的相似度检索判定待检测指标向量数据对应的指标数据是否为异常数据,具体包括:当待检测时间点指标的量化向量与向量索引文件内距离最近的向量之间的距离不小于预设距离阈值时,判定该待检测时间点指标的量化向量相应的指标数据为异常数据;针对异常数据发出报警;当待检测时间点指标的量化向量与向量索引文件内距离最近的向量之间的距离小于预设距离阈值时,判定该待检测时间点指标的量化向量相应的指标数据为正常数据;并将该待检测时间点指标的量化向量加入到向量索引文件;在所述针对异常数据发出报警之后,还包括:确认异常数据所对应的业务是否发生异常,当所对应的业务未发生异常时,则判定异常数据为误报,将误报的待检测时间点指标的量化向量加入到向量索引文件以更新向量索引文件。6.一种基于时序向量检索的数据异常检测系统,其...
【专利技术属性】
技术研发人员:杨忠伟,
申请(专利权)人:微梦创科网络科技中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。