当前位置: 首页 > 专利查询>上海大学专利>正文

一种融合元学习和预训练的概念漂移主动检测方法技术

技术编号:35775538 阅读:8 留言:0更新日期:2022-12-01 14:19
本发明专利技术公开了一种融合元学习和预训练的概念漂移主动检测方法,包括一种离线预训练框架、元检测器学习方法和基于流式主动学习算法,离线预训练框架通过在预训练数据集上离线学习每种概念漂移的特点来学习检测概念漂移,并识别出漂移的类型;元检测器学习方法将预训练阶段转化为小样本学习问题,并将各种概念漂移类表示为单个原型;基于流式的主动学习算法通过使元检测器适应流中的底层分布来更新元检测器中的各个原型。本发明专利技术通过已知漂移模型来进行分类,根据各概念漂移的错误率提取元特征,通过将各种概念漂移类表示为相应的原型,在检测阶段,元检测器通过一个简单的基于流式的主动学习进行微调,以适应真实的数据流,具有效果直观的特点。有效果直观的特点。有效果直观的特点。

【技术实现步骤摘要】
一种融合元学习和预训练的概念漂移主动检测方法


[0001]本专利技术涉及概念漂移检测
,具体为一种融合元学习和预训练的概念漂移主动检测方法。

技术介绍

[0002]在机器学习领域,概念漂移是指预测目标的统计属性会随着时间以不可预知的方式变化的一种现象。为了克服概念漂移现象,涌现出了越来越多的检测概念漂移的机制。一般来说,这些方法都遵循着一个框架,其中包括4个阶段:阶段1,数据检索,目的是从数据流中检索数据块;阶段2,数据建模,目的是提取检索到的数据并提取关键特征。这个阶段的重点是减少样本量或样本维度,以满足存储和在线学习的需求;阶段3,检验统计量计算,旨在衡量新旧数据之间的差异程度。这种类型的计算形成了假设检验的检验统计量,并量化了概念漂移的程度;阶段4,假设检验,旨在使用假设检验来评估新旧数据之间的变化的统计学意义,如果没有阶段4,在阶段3中获得的测试统计量对于漂移检测是没有意义的,因为它们不能确定漂移置信区间,也就是说,变化有可能不是由概念漂移而是噪声或随机样本选择偏差引起的。
[0003]然而,由于漂移检测的准确性是由假设检验确定的,所以这个框架面临着两个缺点:第一,对于假设检验方法,应根据数据类型和特点,选择正确的假设检验方法。但是,由于数据流不是一次性提供所有数据的,因此很难选择最合适的假设,从而影响了检测概念漂移的准确性。第二,虽然概念漂移可以分为四种类型,但现有的方法只能识别是否发生了概念漂移,而无法识别发生了哪种类型的概念漂移。其原因是,虽然数据分布的变化可以用平均错误率等测试统计数据来表示,但测试统计数据不能表示数据分布的变化模式,即无法捕获相邻时间戳上的概念漂移之间的关系,因此,设计一种效果直观的一种融合元学习和预训练的概念漂移主动检测方法是很有必要的。

技术实现思路

[0004]本专利技术的目的在于提供一种融合元学习和预训练的概念漂移主动检测方法,以解决上述
技术介绍
中提出的问题。
[0005]为了达到上述目的,本专利技术提供如下技术方案:
[0006]一种融合元学习和预训练的概念漂移主动检测方法,包括一种离线预训练框架、元检测器学习方法和基于流式的主动学习算法,所述离线预训练框架通过在预训练数据集上离线学习每种概念漂移的特点来学习检测概念漂移,并识别出概念漂移的类型;所述元检测器学习方法将预训练阶段转化为小样本学习问题,并将各种概念漂移类型表示为单个原型;所述基于流式的主动学习算法通过使元检测器适应流中的底层分布来更新元检测器中的各个原型;本方法通过对数据流中元特征的提取,从原型神经网络中生成元检测器并对元检测器进行更新,其中,元特征提取采用两个窗口的平均错误率之间的差距作为元特征。
[0007]从原型神经网络中生成元检测器是通过学习将数据流映射到嵌入空间的神经网络,并提取各种该类型漂移类别的原型作为嵌入支持数据流的平均向量,通过选择最近的概念漂移原型,对嵌入数据流执行概念漂移检测,而元检测器的更新则是采用了使用真实样本的漂移类型来进行更新的技术。
[0008]进一步地,所述离线预训练框架的运行方法具体包括以下步骤:
[0009]步骤A:对于每种类型的概念漂移,首先利用MOA生成含有该类型概念漂移数据流的工具包生成数量为N的数据流,并对数据流内的样本数量m进行统计,根据每个窗口大小n计算窗口数量l,其中
[0010]步骤B:将两个窗口之间的平均错误率差距表示为Gap
i
,其中Gap
i
=l

1;
[0011]步骤C:将预训练中的训练样本表示为其中其中表示对应的概念漂移类型;其中,i表示第i个样本;R表示实数域;R
l
表示样本的特征为l个。
[0012]步骤D:将具有N个数据流的原始数据集从表示为g:{X
×
y}
N
×
m
,映射到数据集,映射到数据集X表示原始数据样本;y表示样本的真实标签。
[0013]步骤E:基于数据集R
N
×
l
表示形状为N
×
l的实数矩阵。利用原型网络进行训练生成元检测器。
[0014]进一步地,所述步骤E中,元检测器的生成方法包括以下步骤:
[0015]步骤E1:嵌入一个典型的原型网络生成元检测器,建立小样本学习模型;
[0016]步骤E2:基于支持数据集使用可学习参数θ对应的原型网络f
θ
:R
N

R
M
将流数据X
i
映射到嵌入空间f
θ
(X
i
),并将单个k类原型表示为c
k
作为嵌入空间中所在支持集的平均值,k为数据标签;R
N
表示长度为N的实数向量;R
M
表示长度为M的实数向量。
[0017]步骤E3:对流数据X
i
中的数据选定查询点X,并通过嵌入空间中找到一段距离上最近的原型c
k
,对查询点进行分类,并计算分类结果,对查询点进行分类,并计算分类结果表示真实样本映射后的估计样本。
[0018]步骤E4:分类完成后,选择以负对数似然函数作为训练目标,对原型网络进行优化。
[0019]进一步地,所述步骤E2中,嵌入空间中所在支持集的平均值c
k
的计算公式为:
[0020][0021]其中,S
k
表示标签为k的流数据集,并引入距离度量函数d:R
M
×
R
M

R;X
i
表示第i个真实数据样本;y
i
表示第i个样本的真实标签。
[0022]进一步地,所述步骤E3中,分类结果的计算公式具体如下:
[0023][0024]其中,c
k'
表示除c
k
外的其他原型;在训练阶段,通过计算每个概念漂移类的支持样本的均值,对每个随机事件选择对应数量的数据流样本,用来表示嵌入空间中所在支持集的平均值c
k
,并基于度量函数计算查询集中每个数据流样本与不同原型表示c
k
的距离,并对原型网络的训练损失进行分析,完成原型网络的优化。
[0025]进一步地,所述元检测器进行更新的方法包括以下步骤:
[0026]步骤S1:收集数据样本W
i
={e
t

n
,

,e
i
},其中e
t
表示在时间戳t处得到的错误率;e
i
表示第i个时间戳;n表示时间戳t向前倒退n个时间点。
[0027]步骤S2:对收集到的样本进行筛选,计算出该样本属于C类的概率P(C),其中并计算该样本对应的分类熵H(C)。
[0028]进一步地,所述步骤S1中,引入时间戳的作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合元学习和预训练的概念漂移主动检测方法,包括一种离线预训练框架、元检测器学习方法和基于流式的主动学习算法,其特征在于:所述离线预训练框架通过在预训练数据集上离线学习每种概念漂移的特点来学习检测概念漂移,并识别出概念漂移的类型;所述元检测器学习方法将预训练阶段转化为小样本学习问题,并将各种概念漂移类型表示为单个原型;所述基于流式的主动学习算法通过使元检测器适应流中的底层分布来更新元检测器中的各个原型;本方法通过对数据流中元特征的提取,从原型神经网络中生成元检测器并对元检测器进行更新,其中,元特征提取采用两个窗口的平均错误率之间的差距作为元特征。2.根据权利要求1所述的融合元学习和预训练的概念漂移主动检测方法,其特征在于:所述离线预训练框架的运行方法具体包括以下步骤:步骤A:对于每种类型的概念漂移,首先利用MOA生成含有该类型概念漂移数据流的工具包生成数量为N的数据流,并对数据流内的样本数量m进行统计,根据每个窗口大小n计算窗口数量l,其中步骤B:将两个窗口之间的平均错误率差距表示为Gap
i
,其中Gap
i
=l

1;步骤C:将预训练中的训练样本表示为G
i
:其中其中表示对应的概念漂移类型;其中,i表示第i个样本;R表示实数域;R
l
表示样本的特征为l个。步骤D:将具有N个数据流的原始数据集从表示为g:{X
×
y}
N
×
m
,映射到数据集G:,映射到数据集G:X表示原始数据样本;y表示样本的真实标签。步骤E:基于数据集G:R
N
×
l
表示形状为N
×
l的实数矩阵。利用原型网络进行训练生成元检测器。3.根据权利要求2所述的融合元学习和预训练的概念漂移主动检测方法,其特征在于:所述步骤E中,元检测器的生成方法包括以下步骤:步骤E1:嵌入一个典型的原型网络生成元检测器,建立小样本学习模型;步骤E2:基于支持数据集G:使用可学习参数θ对应的原型网络f
θ
:R
N

R
M
将流数据X
i
映射到嵌入空间f
θ
(X
i
),并将单个k类原型表示为c
k
作为嵌入空间中所在支持集的平均值,k为数据标签;R
N
表示长度为N的实数向量;R
M
表示长度为M的实数向量。步骤E3:对流数据X
i

【专利技术属性】
技术研发人员:余航孙一平
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1