当前位置: 首页 > 专利查询>广州大学专利>正文

一种混合在线数据流场景下的半监督算法制造技术

技术编号:36877605 阅读:12 留言:0更新日期:2023-03-15 20:50
本发明专利技术涉及到半监督学习与在线学习领域,尤其涉及了在线任意数据流场景下的半监督算法,该算法框架主要分为任意数据流构建、通过高斯联结GC学习潜规则、通过局部密度峰值Local

【技术实现步骤摘要】
一种混合在线数据流场景下的半监督算法


[0001]本专利技术涉及在线学习和半监督学习
,具体为一种混合在线数据流场景下的半监督算法。

技术介绍

[0002]从双重流输入的在线学习是最近兴起的一种新的数据流分析范式。与传统的在线学习不同的是,这种新的学习范式只能处理驻留在固定特征空间的数据流,努力建立与流数据和流特征有关的增量模型。这允许一个更灵活的学习环境,在这个环境中,新的特征可以任意出现并加入模型训练过程,而预先存在的特征可能在不同的时间跨度中变得不可观察或从模型中消失。
[0003]在这种灵活性的学习范式下,各种领域的应用开始以双流的形式对其数据进行建模。例如,考虑到一个人群感应应用,其中移动用户集体提交他们的数据来训练一个增量模型,检测当地的空气污染。双重流的特性从人群感应的数据流中体现出来
‑‑
新的用户带着升级的或全新的设备(如手机、传感器套件)加入感应工作,将产生新的特征,而任何离开的用户(或一些设备由于网络问题导致掉线)都会引起特征的不可观察性。为了从这样的数据流中学习,以前的研究中常见的做法是建立特征之间的相关性,这样增量模型可以1)使用有根据的猜测初始化任何新特征的学习系数,当这些新特征没有被足够的数据实例描述时,用一个跳跃性的开始加速收敛;2)运用未观察到的特征的重建信息,利用其学习系数,通过在线集合提高预测性能。
[0004]首先,增量模型是在完全监督下训练的,这意味着每个到达的数据实例都必须有一个类别标签。不幸的是,由于有限的人力和时间被大量和高速的数据流拉长,注释标签一般来说是很困难的。第二,所有流入模型的特征都被规定为共享相同的数据类型,这在实际应用中经常被违反。例如,各种类型的传感器设备捕获的特征自然是不同的数据类型,包括布尔型(如下雨或不下雨)、序数型(如PM2.5水平)和连续型(如室外温度)。在这种混合类型的特征之间建立相关关系是非常具有挑战性的,并且不能通过事先假定高斯相关矩阵的在线参数模型来实现。
[0005]针对离线数据训练的成本高、时效性低及数据标签少等问题,本文针对性提出一种任意数据流场景下的半监督算法,该算法结合了在线学习和半监督学习的优点,在使用有标签数据的同时能够兼顾大量的无标签的数据,还可以很好的处理在线混合数据流。

技术实现思路

[0006](一)解决的技术问题
[0007]针对现有技术的不足,本专利技术提供了一种混合在线数据流场景下的半监督算法,具备能够在利用标记和未标记样本的同时,又具有在线学习的特点,将二者的优点结合起来,解决了针对离线数据训练的成本高、时效性低及数据标签少等问题,本文针对性提出一种任意数据流场景下的半监督算法,该算法结合了在线学习和半监督学习的优点,在使用
有标签数据的同时能够兼顾大量的无标签的数据,还可以很好的处理在线混合数据流的问题。
[0008](二)技术方案
[0009]为实现上述能够在利用标记和未标记样本的同时,又具有在线学习的特点,将二者的优点结合起来目的,本专利技术提供如下技术方案:一种在线任意数据流场景下的半监督算法,包括任意数据流构建、通过高斯联结GC学习潜规则、通过局部密度峰值Local

DPC学习数据的几何结构特征、加速收敛的在线组合算法。其特征在于:所述任意数据流构建是针对在线数据应用场景(混合、缺失的数据流)下,构建对应的任意类型的数据集;通过GC学习潜规则是利用GC模型从观测空间(缺失)中学习各个不同变量之间的边缘分布特征,并通过在线最大期望Online

EM,找到观测空间(缺失)中缺失值的填充值;通过Local

DPC学习数据的几何结构特征是利用Local

DPC学习观测空间(完备)及潜在空间的数据几何结构分布特征;加速收敛的在线组合算法是针对观测空间(完备)及潜在空间不同分布特征空间,构建一个快速收敛的在线学习组合算法。
[0010]优选的,任意数据流构建是针对在线数据应用场景(混合、缺失的数据流)下,构建对应的任意类型的数据集,本算法所指任意数据流的特征包括有序数值(ordinal)、二值(binary)、连续值(continue)、离散值(discrete)等数据类型,此外,对于任意数据流中还存在有缺失的数值,缺失比例存在不确定性等问题。
[0011]优选的,通过GC学习潜规则是利用GC模型从观测空间(缺失)中学习各个不同变量之间的边缘分布特征,并通过在线最大期望Online

EM,找到观测空间(缺失)中缺失值的填充值。其中所涉及到的内容有未观察到的特征重建、Online

EM参数评估。未观察到的特征重建是指观测数值中缺失数值的重构。Online

EM参数评估目的是为了保证缺失值的填充空间与原始观测数据分布空间的最大相似性。
[0012]优选的,通过Local

DPC学习数据的几何结构特征是利用Local

DPC学习观测空间(完备)及潜在空间的数据几何结构分布特征;Local

DPC是通过不同簇构建选择不同类别的中心点,并利用中心点到其他周围节点的距离,构建不同类别的簇,形成对应类别的几何空间分布结构。
[0013]优选的,加速收敛的在线组合算法是针对观测空间(完备)及潜在空间不同分布特征空间,构建一个快速收敛的在线学习组合算法。单一数据空间分布无法满足数据的快速收敛,考虑不同空间下模型的权重,动态调整不同空间下的模型权重,从而加快模型的收敛速度。
[0014](三)有益效果
[0015]与现有技术相比,本专利技术提供了一种混合在线数据流场景下的半监督算法,具备以下有益效果:
[0016]该混合在线数据流场景下的半监督算法,能够解决面对在在线学习中由离散型和连续型组成的混合数据特征难以建模的问题,通过GC由混合数据流组成的观测空间进行建模,映射到连续的隐空间中。利用Local

DP去探索数据空间的真实结构,将这个过程整合到半监督学习中去,充分利用未标记的数据。
附图说明
[0017]图1为本专利技术整体模型的示意图;
[0018]图2为本专利技术整体流程的示意图。
具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]请参阅图1

2,本专利技术提供一种技术方案:一种混合在线数据流场景下的半监督算法,
[0021]包括任意数据流构建、通过高斯联结GC(Gaussian Copula)学习潜规则、通过局部密度峰值Local

DPC(Local Density Peak本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种混合在线数据流场景下的半监督算法,其特征在于,包括以下步骤:S1、任意数据流构建所包括的数据类型有序数值、离散值、二值、连续值;S2、潜在空间学习利用GC模型从观测空间缺失中学习各个不同变量之间的边缘分布特征,并通过在线最大期望Online

EM,找到观测空间缺失中缺失值的填充值;所包括的内容有:1)定义在线混合数据场景下的GC模型:其中,cutoff(.)为截断函数,z∈R是连续正态,累积分布函数CDF为Fz和潜在空间向量为z
t
:=g
‑1(x
t
)=(g
‑1(x
C
),cutoff

1(x
D
));2)缺失数据空间重构其中,z
O
是x
O
观测空间所对应的潜在空间,z
M
是z
O
中对应的缺失分布空间,Σ
M,O
和Σ
O,O
表示相关性Σ的子矩阵,其行和列分别对应于(x
M
,x
O
)和(x
O
,x
O
)的特征指数,为最大估计函数;3)Online

EM参数评估定义其中Φ是一个标准的正态CDF,F
i
对应于第i个特征的真实但未知的CDF;其中,规模H=|B|/(|B|+1)保证了一个有限的输出,B为在线混合数据流的缓冲区大小;对于离散特征,将截止点S
i
定义为的一个特例,即用第i个特征的概率质量替换其样本平均值,定义如下:其中,x
t
[i]表示第t个输入的第i个(离散)特征;为了消除歧义,将Σ
(t

1)
表示为前一轮获得的经验相关性,将Σ表示为本轮要近似的目标;在当前回合的目标,对数似然函数表示为:
其中,Σ
(0)
初始化为一个初始矩阵;S3、几何结构学习;采用两个指标来描述每个到达的实例x
t
的特征;即局部密度ρ
t
和距离δ
t
,定义为:,定义为:其中,d(x
t
,x
i
)衡量x
t
和x
i
在重建的通用特征空间U
t
中的欧氏距离,d
cut
是自适应调整的截止距离;S4、集成算法让y
Z
=<f
Z
,z
t
>表示对x
t
的潜在表示进行的预测;集合预测为的潜在表示进行的预测;集合预测为其中α1+α2=1;α1和α2的值分别决定了两个基础分类器f

【专利技术属性】
技术研发人员:卓胜达王宇崔田莹李银锋肖翔仁何锦淳何日鑫陈浩弘
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1