【技术实现步骤摘要】
一种混合在线数据流场景下的半监督算法
[0001]本专利技术涉及在线学习和半监督学习
,具体为一种混合在线数据流场景下的半监督算法。
技术介绍
[0002]从双重流输入的在线学习是最近兴起的一种新的数据流分析范式。与传统的在线学习不同的是,这种新的学习范式只能处理驻留在固定特征空间的数据流,努力建立与流数据和流特征有关的增量模型。这允许一个更灵活的学习环境,在这个环境中,新的特征可以任意出现并加入模型训练过程,而预先存在的特征可能在不同的时间跨度中变得不可观察或从模型中消失。
[0003]在这种灵活性的学习范式下,各种领域的应用开始以双流的形式对其数据进行建模。例如,考虑到一个人群感应应用,其中移动用户集体提交他们的数据来训练一个增量模型,检测当地的空气污染。双重流的特性从人群感应的数据流中体现出来
‑‑
新的用户带着升级的或全新的设备(如手机、传感器套件)加入感应工作,将产生新的特征,而任何离开的用户(或一些设备由于网络问题导致掉线)都会引起特征的不可观察性。为了从这样的数据流中学习,以前的研究中常见的做法是建立特征之间的相关性,这样增量模型可以1)使用有根据的猜测初始化任何新特征的学习系数,当这些新特征没有被足够的数据实例描述时,用一个跳跃性的开始加速收敛;2)运用未观察到的特征的重建信息,利用其学习系数,通过在线集合提高预测性能。
[0004]首先,增量模型是在完全监督下训练的,这意味着每个到达的数据实例都必须有一个类别标签。不幸的是,由于有限的人力和时间被大量和高速的数据 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种混合在线数据流场景下的半监督算法,其特征在于,包括以下步骤:S1、任意数据流构建所包括的数据类型有序数值、离散值、二值、连续值;S2、潜在空间学习利用GC模型从观测空间缺失中学习各个不同变量之间的边缘分布特征,并通过在线最大期望Online
‑
EM,找到观测空间缺失中缺失值的填充值;所包括的内容有:1)定义在线混合数据场景下的GC模型:其中,cutoff(.)为截断函数,z∈R是连续正态,累积分布函数CDF为Fz和潜在空间向量为z
t
:=g
‑1(x
t
)=(g
‑1(x
C
),cutoff
‑
1(x
D
));2)缺失数据空间重构其中,z
O
是x
O
观测空间所对应的潜在空间,z
M
是z
O
中对应的缺失分布空间,Σ
M,O
和Σ
O,O
表示相关性Σ的子矩阵,其行和列分别对应于(x
M
,x
O
)和(x
O
,x
O
)的特征指数,为最大估计函数;3)Online
‑
EM参数评估定义其中Φ是一个标准的正态CDF,F
i
对应于第i个特征的真实但未知的CDF;其中,规模H=|B|/(|B|+1)保证了一个有限的输出,B为在线混合数据流的缓冲区大小;对于离散特征,将截止点S
i
定义为的一个特例,即用第i个特征的概率质量替换其样本平均值,定义如下:其中,x
t
[i]表示第t个输入的第i个(离散)特征;为了消除歧义,将Σ
(t
‑
1)
表示为前一轮获得的经验相关性,将Σ表示为本轮要近似的目标;在当前回合的目标,对数似然函数表示为:
其中,Σ
(0)
初始化为一个初始矩阵;S3、几何结构学习;采用两个指标来描述每个到达的实例x
t
的特征;即局部密度ρ
t
和距离δ
t
,定义为:,定义为:其中,d(x
t
,x
i
)衡量x
t
和x
i
在重建的通用特征空间U
t
中的欧氏距离,d
cut
是自适应调整的截止距离;S4、集成算法让y
Z
=<f
Z
,z
t
>表示对x
t
的潜在表示进行的预测;集合预测为的潜在表示进行的预测;集合预测为其中α1+α2=1;α1和α2的值分别决定了两个基础分类器f
技术研发人员:卓胜达,王宇,崔田莹,李银锋,肖翔仁,何锦淳,何日鑫,陈浩弘,
申请(专利权)人:广州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。