多尺度阶梯重构的二维扁平数据自监督学习方法及装置制造方法及图纸

技术编号:37589233 阅读:46 留言:0更新日期:2023-05-18 11:14
多尺度阶梯重构的二维扁平数据自监督学习方法及装置,能提高后续数据挖掘中数据信息的利用率,减缓噪音数据、数据异构以及数据纠缠带来的不利影响。包括:读入需要表征学习的数据集;基于分箱方法在多尺度下得到多尺度的模糊数据;按照尺度排序得到多尺度模糊阶梯数据序列;构建包含编码器与解码器的自编码模型,编码器以原始数据为输入生成隐向量,解码器以隐向量为输入生成趋近原始数据的重构数据;以较大尺度,即破坏较严重的数据为输入,通过自编码模型重构较小尺度的数据,其较小尺度的数据为破坏次严重的数据;计算重构误差并作为目标函数,最小化目标函数,以反向传播的方式更新模型参数;以此往复;完成自监督学习的训练,得到编码器。得到编码器。得到编码器。

【技术实现步骤摘要】
多尺度阶梯重构的二维扁平数据自监督学习方法及装置


[0001]本专利技术涉及结构化数据挖掘的
,尤其涉及一种多尺度阶梯重构的二维扁平数据自监督学习方法,以及多尺度阶梯重构的二维扁平数据自监督学习装置。

技术介绍

[0002]为了提高在二维扁平数据挖掘中模型对于数据的利用率,降低二维扁平数据中的噪音以及特异构化带来的不利影响,表征学习,即将原始数据投影至隐向量空间的技术显得尤为重要。由于数据噪音,数据异构性与数据纠缠问题,在数据挖掘领域,通常采用自监督学习得到二维扁平数据的表征,即采用代理任务而非预测标签的预测任务,通过数据本身特征构建学习模型,并逐步在学习的过程中得到原始数据的表征。代理任务首先利用噪音等手段破坏数据,然后通过自编码机进行重构,以原始数据与重构数据的差值最小化为目标进行优化。
[0003]因而,对二维扁平数据表征自监督学习方法须满足以下条件:1.标签不参与自监督学习流程;2.通过数据自身特征学习数据流型;3.学习到的表征可以提高后续数据预测挖掘的性能以及对信息的利用率。
[0004]二维扁平数据自监督学习方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.多尺度阶梯重构的二维扁平数据自监督学习方法,其特征在于:其包括以下步骤:(1)读入需要表征学习的数据集;(2)基于分箱方法在多尺度下得到多尺度的模糊数据;(3)按照尺度排序得到多尺度模糊阶梯数据序列;(4)构建包含编码器与解码器的自编码模型,编码器以原始数据为输入生成隐向量,解码器以隐向量为输入生成趋近原始数据的重构数据;(5)以较大尺度的数据为输入,较大尺度的数据为破坏较严重的数据,通过自编码模型重构较小尺度的数据,较小尺度的数据为破坏次严重的数据;(6)计算重构误差并作为目标函数,最小化上述目标函数,并以反向传播的方式更新模型参数;(7)返回步骤(5),以此往复,以较大尺度数据为输入重构较小尺度的数据,直到重构原始数据,或者达到迭代结束条件;(8)最终完成自监督学习的训练,得到训练完成的编码器。2.根据权利要求1所述的多尺度阶梯重构的二维扁平数据自监督学习方法,其特征在于:所述步骤(1)中,读入数据,令其为X,X∈R
N
×
D
,N为样本总数,D为特征维度,为便于理解,以单个特征为例而省略特征维度描述,多特征处理过程与单特征相同。3.根据权利要求2所述的多尺度阶梯重构的二维扁平数据自监督学习方法,其特征在于:所述步骤(2)中,选取分箱箱体总数为其中其中表示第n个箱体,k=1,2,

,K为尺度索引,计算分箱区间跨度为,K为尺度索引,计算分箱区间跨度为则模糊尺度为k的模糊数据为则模糊尺度为k的模糊数据为则模糊尺度为k的模糊数据为则模糊尺度为k的模糊数据为其中α为差值系数,令模糊后数据集为X
k
,原始数据为X0;多尺度模糊过程与单尺度相同仅取不同尺度索引k。4.根据权利要求3所述的多尺度阶梯重构的二维扁平数据自监督学习方法,其特征在于:所述步骤(3)中,排序多尺度模糊后数据集为序列[X0,X1,

,X
k
,

,X
K
],尺度索引越大表示模糊尺度越大则数据被破坏越严重,反之亦然,X0为原始数据。5.根据权利要求4所述的多尺度阶梯重构的二维扁平数据自监督学习方法,其特征在于:所述步骤(4)中,构建编码器E与解码器D,令隐变...

【专利技术属性】
技术研发人员:宋红翁旭涛林毓聪杨健范敬凡肖德强艾丹妮
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1