一种数据流两阶段早期分类方法技术

技术编号:35784484 阅读:11 留言:0更新日期:2022-12-01 14:31
本发明专利技术公开了一种数据流两阶段早期分类方法,包括以下步骤:获取异常数据流,对所述异常数据流进行标签定义,获取历史序列;对所述历史序列构建分类模型,进行两个阶段的分类处理,获取结果标签。本发明专利技术有效的在实时流场景中对数据进行连续分类,同时兼顾了分类的早期性和准确性,经过实验,该两阶段模型比单层分类的准确性有所提升;同时,该分类模型也可以应用到许多场景,为相关下游任务提供帮助。为相关下游任务提供帮助。为相关下游任务提供帮助。

【技术实现步骤摘要】
一种数据流两阶段早期分类方法


[0001]本专利技术属于通信
,尤其涉及一种数据流两阶段早期分类方法。

技术介绍

[0002]随着大数据的发展,数据流在金融、工业、物联网等领域的应用逐渐增长,对于数据流的实时采集和分析工作也受到了越来越多的关注。数据流是实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息。
[0003]在一些应用场景下,我们不仅关注能够实时流分类的准确性,同时还希望能够尽早的进行分类。例如,在处理预测性维护或异常检测用例时,越早的识别实时流的分类,就能够越及时的进行干涉。
[0004]针对数据流的早期分类方法目前还没有出现系统的问题定义,与本专利技术提出的数据流早期分类方法相近的问题有早期时间序列分类问题与数据流的分类问题。
[0005]早期时间序列分类方法的目标是尽快将一个标签分配给整个时间序列,相比之下,数据流可以给一个数据流分配多个类标签,因此现有的早期时间序列分类方法不适用于数据流的早期分类。
[0006]数据流的分类方法,利用到了数据流的实时窗口特性,除了使用常规的时间序列分类方法之外,更多的研究把重心放在流数据中可能产生的概念漂移问题以及流数据面对的时间效率问题,没有考虑到分类的早期性问题。所以,本专利技术提出一个数据流两阶段早期分类方法,能够应用于关注早期性的数据流分类问题中,帮助我们有效解决问题。

技术实现思路

[0007]对于数据流早期分类问题,本专利技术针对异常分类检测领域提出一种典型场景:在正常情况下,数据流的值会在目标值上下波动,一旦数据偏离正常状态达到一类异常状态时,分类器的目标是尽早地在实时监测的过程中识别出该分类状态,并且及时在后续对这类异常状态分类做出响应。
[0008]本专利技术的目的在于提出一种数据流两阶段早期分类方法,该方法能够有效解决上述提出的问题,弥补早期时间序列分类和数据流分类的不足,在数据流场景下对于当前状态做出早期有效分类。
[0009]为实现上述目的,本专利技术提供了一种数据流两阶段早期分类方法,包括:获取异常数据流,对所述异常数据流进行标签定义,获取历史序列;
[0010]对所述历史序列构建分类模型,进行两个阶段的分类处理,获取结果标签。
[0011]可选的,所述标签定义具体包括:设定所述异常数据流的阈值,将所述异常数据流进行标签分类,获取若干标签类型,组合为历史序列。
[0012]可选的,所述若干标签类型包括:强上超样本标签、上超样本标签、正常样本标签、下超样本标签和强下超样本标签。
[0013]可选的,所述分类模型包括:第一阶段的分类模型和第二阶段的分类模型;所述第
一阶段的分类模型包括第一特征提取模型和第一分类器;所述第二阶段的分类模型包括第二特征提取模型和第二分类器。
[0014]可选的,所述两个阶段的分类处理包括:在所述第一阶段的分类模型中输入n条所述异常数据流进行特征提取,获取第一结果,将所述第一结果暂时存放到第一分类器中;对所述第二阶段的分类模型输入m条所述异常数据流进行特征提取,获得第二结果,根据所述第一结果和所述第二结果两次分类获取结果标签。
[0015]可选的,所述第一分类器采用随机森林模型进行分类,分类的基本单元是决策树,每棵决策树都是一个分类器,对于一个输入样本,N棵树会有N个分类结果,所述随机森林模型集成了所有的分类结果进行投票,将投票次数最多的类别作为最终的输出。
[0016]可选的,所述第二分类器采用LSTM循环神经网络模型进行分类,根据交叉熵损失函数将异常数据流采用小批次梯度下降进行训练,将训练后的数据流进行随机梯度下降对所述训练后的数据流进行微调,聚合若干个时间步的信息,输入全连接层,获得标签类型的概率。
[0017]可选的,所述LSTM循环神经网络模型还利用深度网络的特征筛选功能自动提取重要的特征,所述LSTM循环神经网络模型利用遗忘门与输出门控制每个时间步上特征的流通与损失,获取早期时间步长对未来时间点的影响。
[0018]本专利技术技术效果:本专利技术公开了一种数据流两阶段早期分类方法,利用未来数据给予当前时间步标签,采用随机森林和LSTM充分提取历史数据的特征,可以有效的在实时流场景中对数据进行连续分类,同时兼顾了分类的早期性和准确性,便于后续及时在对这类异常状态分类做出响应。经过实验,该两阶段模型比单层分类的准确性有所提升;同时,该分类模型也可以应用到许多场景,为相关下游任务提供帮助。
附图说明
[0019]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0020]图1为本专利技术实施例数据流两阶段早期分类方法的流程示意图;
[0021]图2为本专利技术实施例数据流正常趋势示意图;
[0022]图3为本专利技术实施例数据流异常趋势示意图;
[0023]图4为本专利技术实施例分类模型总体设计示意图;
[0024]图5为本专利技术实施例分类模型输入输出示意图;
[0025]图6为本专利技术实施例LSTM循环神经网络模型示意图。
具体实施方式
[0026]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0027]需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0028]如图1

6所示,本实施例中提供一种数据流两阶段早期分类方法,包括:获取异常
数据流,对所述异常数据流进行标签定义,获取历史序列;
[0029]对所述历史序列构建分类模型,进行两个阶段的分类处理,获取结果标签。
[0030]进一步优化方案,所述标签定义具体包括:设定所述异常数据流的阈值,将所述异常数据流进行标签分类,获取若干标签类型,组合为历史序列。
[0031]进一步优化方案,所述若干标签类型包括:强上超样本标签、上超样本标签、正常样本标签、下超样本标签和强下超样本标签。
[0032]进一步优化方案,所述分类模型包括:第一阶段的分类模型和第二阶段的分类模型;所述第一阶段的分类模型包括第一特征提取模型和第一分类器;所述第二阶段的分类模型包括第二特征提取模型和第二分类器。
[0033]进一步优化方案,所述两个阶段的分类处理包括:在所述第一阶段的分类模型中输入n条所述异常数据流进行特征提取,获取第一结果,将所述第一结果暂时存放到第一分类器中;对所述第二阶段的分类模型输入m条所述异常数据流进行特征提取,获得第二结果,根据所述第一结果和所述第二结果两次分类获取结果标签。
[0034]进一步优化方案,所述第一分类器采用随机森林模型进行分类,分类的基本单元是决策树,每棵决策树都是一个分类器,对于一个输入样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据流两阶段早期分类方法,其特征在于,包括以下步骤:获取异常数据流,对所述异常数据流进行标签定义,获取历史序列;对所述历史序列构建分类模型,进行两个阶段的分类处理,获取结果标签。2.如权利要求1所述的数据流两阶段早期分类方法,其特征在于,所述标签定义具体包括:设定所述异常数据流的阈值,将所述异常数据流进行标签分类,获取若干标签类型,组合为历史序列。3.如权利要求2所述的数据流两阶段早期分类方法,其特征在于,所述若干标签类型包括:强上超样本标签、上超样本标签、正常样本标签、下超样本标签和强下超样本标签。4.如权利要求1所述的数据流两阶段早期分类方法,其特征在于,所述分类模型包括:第一阶段的分类模型和第二阶段的分类模型;所述第一阶段的分类模型包括第一特征提取模型和第一分类器;所述第二阶段的分类模型包括第二特征提取模型和第二分类器。5.如权利要求4所述的数据流两阶段早期分类方法,其特征在于,所述两个阶段的分类处理包括:在所述第一阶段的分类模型中输入n条所述异常数据流进行特征提取,获取第一结果,将所述第一结果暂时存放到第一分类器中;对所...

【专利技术属性】
技术研发人员:刘熠珺张沛凯史可彭世钊马振武翟守明商延航史晓慧汪卫
申请(专利权)人:济南永信新材料科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1