当前位置: 首页 > 专利查询>山东大学专利>正文

一种数据库异常事件缺失数据填充方法及系统技术方案

技术编号:22260929 阅读:44 留言:0更新日期:2019-10-10 14:04
本发明专利技术公开了一种数据库异常事件缺失数据填充方法及系统,所述方法包括:实时接收数据流并进行监测,基于预设的异常事件判断条件判断是否有异常事件发生;当发生异常事件时,将该异常事件对应的数据进行存储,每一个异常事件单独存储;在每一个异常事件中均维护历史数据窗口,在进行每一处缺失数据预测前,均滑动至该缺失数据之前,基于历史数据窗口相应的样本点训练分层时序记忆网络,得到该处缺失数据的预测值。本发明专利技术基于数据的短期分布状态并预测缺失数据,精确度更高。

A method and system for filling missing data of abnormal events in database

【技术实现步骤摘要】
一种数据库异常事件缺失数据填充方法及系统
本专利技术属于大数据领域,尤其涉及一种数据库异常事件缺失数据填充方法及系统。
技术介绍
现代超大规模数据库领域技术的发展,使得大数据背景下的各个行业数据朝着更高的时间采样率和更完整的数据集方向发展成为可能,也给各领域的科学发展注入了新的活力。其中,实时大数据分析技术对规模巨大的实时产生数据进行分析,利用深度学习等数据处理技术快速完成分析,达到近似实时的效果,更及时地反应数据的价值和意义。如在时序天文领域中,天文学家使用实时天文数据处理系统对相机阵采集的星星数据实时分析,实现异常光变现象的预警,用于探知宇宙的变化和对已有物理模型的验证,进而形成重大的天文科学发现。在现有的实时超大规模数据处理方法中,通常根据实体的连续变化规律和不同时刻的数值记录对数据进行划分,把同一实体基于某一属性的一次完整的变化过程定义为一个事件。这种分析方法在实践场景中往往会受到一些限制:①受数据采集设备运行中断、数据通道阻塞等影响,实时数据采集出现间断,连续的事件一分为二,造成异常判定误差;②实时数据采集间断造成数据丢失,事件完整性降低,给数据处理系统原有的分析过程带来困难,特别是高信噪比的关键数据丢失,大幅影响数据分析的处理结果;③依靠行业专家的领域知识对数据间断人工分析,处理时间较为滞后,对稍纵即逝的实时数据现象难以精确捕捉。现有的缺失数据填充方法一般用于处理离线数据集,难以实时监测数据流并迅速输出填充结果;另一些基于聚类的填充方法利用整个数据集对缺失值进行预测,计算过程具有一定的时延。
技术实现思路
为克服上述现有技术的不足,本专利技术提供了一种数据库异常事件缺失数据填充方法及系统,基于特征属性自动区分异常事件,并将每个事件分别存储,在同一事件范围内,基于历史数据对缺失数据进行预测。为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:一种数据库异常事件缺失数据填充方法,包括如下步骤:实时接收数据流并进行监测,基于预设的异常事件判断条件判断是否有异常事件发生;当发生异常事件时,将该异常事件对应的数据进行存储,每一个异常事件单独存储;在每一个异常事件中均维护两个滑动窗口:历史数据窗口和预测窗口;在进行每一处缺失数据预测前,均滑动至当前缺失数据之前,并且,历史数据窗口的尺度大于预测窗口;对于每一处缺失数据,基于历史数据窗口相应的样本点训练分层时序记忆网络,得到该处缺失数据相应的预测模型;将预测窗口相应的样本点作为该预测模型的输入,得到缺失数据的预测值;将预测值写入数据库。一个或多个实施例提供了一种数据库异常事件缺失数据填充系统,包括:异常事件判断模块,实时接收数据流并进行监测,基于预设的异常事件判断条件判断是否有异常事件发生;异常事件存储模块,当发生异常事件时,将该异常事件对应的数据进行存储,每一个异常事件单独存储;缺失值预测模块,在每一个异常事件中均维护历史数据窗口,在进行每一处缺失数据预测前,均滑动至该缺失数据之前,基于历史数据窗口相应的样本点训练分层时序记忆网络,得到该处缺失数据的预测值。一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的数据库异常事件缺失数据填充方法。一个或多个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的数据库异常事件缺失数据填充方法。以上一个或多个技术方案存在以下有益效果:(1)本专利技术从实时流数据中识别单位事件并构建二维事件数据链表,使得原始数据集更加完整,同一事件内的各时刻数据形成规则结构,便于时间窗口的建立和间隔缺失数据的填充,缺失值的预测精度更高;(2)本专利技术采用了分层时序记忆网络学习缺失值的训练模型,并对预测值进行了可信度估计,填充结果更为可靠;(3)本专利技术以时间窗口内每一个时刻历史值的可预测属性作为特征,若某个时间段事件内的触发变量属性值发生变化,但其数值变化较为剧烈(不围绕均值上下波动),则用历史数据均值作为缺失预测值不准确,本方法使用短期窗口的历史数据训练一个保留数据短期趋势的分层记忆网络,使网络输出的缺失数据符合短期变化规律而不受长期历史数据影响,因而预测结果更为准确。附图说明构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。图1为本专利技术一个或多个实施例的一种超大规模数据库缺失数据填充方法及装置总体流程图;图2为本专利技术一个或多个实施例的单位事件识别方法流程示意图;图3为本专利技术一个或多个实施例的基于分层时序记忆算法的数值预测及填充装置的流程示意图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。名词解释:链表:链表(LinkedList)是一种物理存储单元上非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。链表由一系列结点(链表中每一个元素称为结点)组成,结点可以在运行时动态生成。每个结点包括两个部分:一个是存储数据元素的数据域,另一个是存储下一个结点地址的指针域。相比于线性表顺序结构,操作复杂,但查找一个节点或访问特定编号的节点需要的时间复杂度是O(1)。分层时序记忆:分层时序记忆(HTM,HierarchicalTemporalMemory)是一种由JeffHawkins等人提出的基于人脑皮质结构的神经网络模型,其内部结构为分层的神经元阵列。用于训练网络的数据会先被编码成稀疏表示的向量或矩阵的形式,然后进入网络,经过空间采样(spatialpooling)和时序采样(temporalpooling)等步骤,改变网络内部神经元的激活状态,从而影响网络对于下一个时刻数据的预测值。分层时序记忆最大的优势在于其学习和预测过程是同时进行的,因此非常适合用于面向高时间本文档来自技高网
...

【技术保护点】
1.一种数据库异常事件缺失数据填充方法,其特征在于,包括如下步骤:实时接收数据流并进行监测,基于预设的异常事件判断条件判断是否有异常事件发生;当发生异常事件时,将该异常事件对应的数据进行存储,每一个异常事件单独存储;在每一个异常事件中均维护历史数据窗口,在进行每一处缺失数据预测前,均滑动至该缺失数据之前,基于历史数据窗口相应的样本点训练分层时序记忆网络,得到该处缺失数据的预测值。

【技术特征摘要】
1.一种数据库异常事件缺失数据填充方法,其特征在于,包括如下步骤:实时接收数据流并进行监测,基于预设的异常事件判断条件判断是否有异常事件发生;当发生异常事件时,将该异常事件对应的数据进行存储,每一个异常事件单独存储;在每一个异常事件中均维护历史数据窗口,在进行每一处缺失数据预测前,均滑动至该缺失数据之前,基于历史数据窗口相应的样本点训练分层时序记忆网络,得到该处缺失数据的预测值。2.如权利要求1所述的一种数据库异常事件缺失数据填充方法,其特征在于,所述异常事件判断条件为:判断选定的触发变量的值是否超出设定范围。3.如权利要求2所述的一种数据库异常事件缺失数据填充方法,其特征在于,每一个异常事件均采用一个二维链表存储,所述二维链表的头结点存储触发变量数据;当监测到异常事件发生时,基于触发变量,匹配当前事件与已建立的二维链表,若匹配成功,将当前发生的异常事件相应的数据连接在链表尾部,若匹配失败,则新建链表。4.如权利要求1所述的一种数据库异常事件缺失数据填充方法,其特征在于,在每一个异常事件中还维护预测窗口,且预测窗口的尺度小于历史数据窗口,在进行每一处缺失数据预测前,均滑动至该缺失数据之前;在得到缺失数据预测值后,基于预测窗口相应的样本点对预测值进行可信度验证。5.如权利要求4所述的一种数据库异常事件缺失数据填充方法,其特征在于,所述可信度验证包括:对于预测窗口内每一个样本,将该样本时刻的特征与分层时序记忆网络对于该样本时刻的预测值作对比,得到预测缺失数据的可信度:其中π(xt-1)为分层时序记忆网络对该样本时刻数据预测值的稀疏向量表示形式,α(xt...

【专利技术属性】
技术研发人员:崔立真房志坚郭伟鹿旭东
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1