一种基于高维数据分布的复合式伪标签拟合方法技术

技术编号:33783168 阅读:40 留言:0更新日期:2022-06-12 14:37
本发明专利技术公开了一种基于高维数据分布的复合式伪标签拟合方法,包括:对各维度进行统计,获得数据分布特征;两两对比数据相关性,不重复地选择相关性较高的n/2(取上整)组维度对;每组维度都使用采样数据训练独立小模型;用输入数据统计分布特征做为训练标签,在分布特征标签下进行模型的深度学习训练;实现对数据的降维:判断维度是否降为一;构造新模型,将全部数据、全维度依据伪标签使模型进行有监督学习。本发明专利技术能使超高维无标签数据进行模型训练。练。练。

【技术实现步骤摘要】
一种基于高维数据分布的复合式伪标签拟合方法


[0001]本专利技术涉及大数据处理领域,具体来说涉及一种基于高维数据分布的复合式伪标签拟合方法。

技术介绍

[0002]近年来,随着人工智能深度学习技术的兴起,使用有标签数据进行训练模型成为行业的热点,由于人工标记工作量较大、成本较高,研究人员开始探索一种模型自我构建标签的方式进行学习,出现了伪标签技术。伪标签的定义来自于半监督学习,半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能。简单来说,伪标签技术就是利用在已标注数据所训练的模型在未标注的数据上进行预测,根据预测结果对样本进行筛选,再次输入模型中进行训练的一个过程。但随着日常生活中需要标记的数据越来越多,研究人员对广大无标签数据研究也越来越深入,伪标签技术被公认为处理无标签数据的最佳方案。
[0003]但目前伪标签技术仅适用于低维度、易人工标记的数据,并不适用于高维度数据的伪标签的构建。现有的基于谱聚类的半监督学习的软件缺陷预测方法,对于数据存在的空间没有进行深度探索,这样会导致谱聚类方法不能发挥优势,使用聚类的方式会导致结果数据空间分布出现偏差、为构造模型而进行的人力劳动增加、由于人工偏差导致的模型错误率增加等问题。目前,超高维无标签数据伪标签构建所使用方法不能有效结合每个维度得出更加综合的结果输出。

技术实现思路

[0004]本专利技术的目的在于克服上述缺点而提供的一种能使超高维无标签数据进行模型训练的基于高维数据分布的复合式伪标签拟合方法。
[0005]为实现上述目标,本专利技术技术方案如下:
[0006]本专利技术的一种基于高维数据分布的复合式伪标签拟合方法,包括以下步骤:
[0007](1)对各维度进行统计,获得数据分布特征:随机对每个维度进行采样,获取t个数据,对此t个数据进行统计,首先取得t个数据中的最大值(max)与最小值(min),按最大值与最小值的间隔(max

min)均匀分区,分为h个区间,则每个区间长度为:(max

min)/h,按每个区间起始位置大小,对每个区间按编号为0,1,2,3
……
h

1进行编号,后统计t个数据落到各个编号区间的数据数量,按照区间的编号,将每个编号区间的数据数量重新组合为长度为h的数组(大小为:[1 x h])的数据分布矩阵αn,此步操作设为函数A(Xn),此步骤数学表达为:A(Xn)=αn(αn是数据的统计分布特征矩阵,Xn表示总数据第n维度的总数据);
[0008](2)两两对比数据相关性,不重复地选择相关性较高的n/2(取上整)组维度对:由步骤(1)得到的第n维度数据的统计分布特征矩阵αn,进行各个维度之间的相关性计算(对维度n1的统计分布特征矩阵αn1(如下公式中用X表示)与维度n2的统计分布特征矩阵αn2(如下公式中用Y表示)采用皮尔森相关系数计算算法得数据统计分布特征矩阵相关性,
[0009]即:Pearsonr(X,Y)=ρ(X,Y)=(COV(X,Y))/(σ
X
σ
Y
)=(E[(X

μ
X
)(Y

μ
Y
)])/(σ
X
σ
Y
)
[0010]):依据如上操作,计算出各个维度统计分布特征之间的相关性,后将此相关性数据取绝对值操作,后不重复地选取相关性最高的数据维度对,将取定的维度对存入特定数组,此数据维度两两组合,如出现不能配对的奇数,则对其进行自身与自身的配对;此操作设为函数B(α0,α1,α2
……
αn),此步骤的数学表达为:B(α0,α1,α2
……
αn)=Q1,Q2
……
Qn/2,Qn代表取定的第n个相关性较高的维度对;
[0011](3)每组维度都使用采样数据训练独立小模型:对于每一对数据维度都构建一个独有的伪标签模型,模型视作函数C(Qn),输入两维数据对Qn,得到一维数据Zn,达到降维目的,此步数学表达为:C(Qn)=Zn;
[0012](4)用输入数据统计分布特征做为训练标签,在分布特征标签下进行模型的深度学习训练:使用步骤(1)中方法处理此独立模型的输出数据,得到输出数据的数据统计分布特征矩阵βn,将原输入两维数据的数据统计分布特征矩阵进行加和,得到具有同时此维度对两维数据统计分布特征的矩阵αn,矩阵βn与矩阵αn使用均方差的方法计算损失,得到损失Loss,使用梯度下降的方法,使模型得到训练,使输出数据Zn分布特征更加接近于输入维度对Qn数据的总体分布特征;
[0013](5)实现对数据的降维:按相同的方法得到Z2,Z3
……
Zn/2总数为n/2(取上整)的数据量(维度量),实现将数据维度减少一半,从而实现降维的目的,使用维度对数据总的统计分布特征做为模型训练的标签,也能使产生的输出Zn更加贴合输入原维度对数据的统计分布特征,使数据更加具有真实性;
[0014](6)判断维度是否降为一:得到降维的数据,之后按照相同的方法,计算函数A(Zn)=αn,得到数据统计分布αn,后将α1,α2
……
αn/2两两之间计算函数Pearsonr(αx,αy)的值,对结果排序,计算函数B(α0,α1,α2
……
αn)=Q1,Q2
……
Qn/2,Qn代表取定的第n个相关性较高的维度对。后依次重复(3)、(4)、(5)、(1)、(2)操作,直到将维度降为一为止,;此时得到的是原超高维度数据的伪标签,此伪标签具有原高维数据每个维度的数据分布信息,适合使用其做为数据训练的伪标签,至此,得到高维无标签数据的伪标签;
[0015](7)构造新模型,将全部数据、全维度依据伪标签使模型进行有监督学习:使用步骤(6)得到的伪标签高维无标签的数据,进行新模型的拟合训练即得。
[0016]本专利技术与现有技术相比,具有明显的有益效果,从以上技术方案可知,本专利技术通过使用伪标签技术,利用数据分布特征构造深度学习标签,建立基于伪标签模型的深度学习训练模型。通过分析数据特征,将超高维数据进行分级,利用归并的思路,实现降维操作,使用原始数据的统计分布作为模型训练的标签,能有效解决超高维数据伪标签构建问题。
附图说明
[0017]图1为本专利技术的流程图;
[0018]图2为原19维度数据各个维度统计分布矩阵间相关性热图。
具体实施方式
[0019]以下结合附图及较佳实施例,对依据本专利技术提出的一种基于高维数据分布的复合式伪标签拟合方法的具体实施方式、结构、特征及其功效,详细说明如后。
[0020]参见图1,本专利技术的一种基于高维数据分布的复合式伪标签拟合方法,包括以下步骤:
[0021](1)对各维度进行统计,获得数据分布特征:(以处理高维无标签的农民工数字画像信息为例),首先,将大量非数字信息进行量化,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于高维数据分布的复合式伪标签拟合方法,包括以下步骤:(1)对各维度进行统计,获得数据分布特征:随机对每个维度进行采样,获取t个数据,对此t个数据进行统计,首先取得t个数据中的最大值与最小值,按最大值与最小值的间隔均匀分区,分为h个区间,则每个区间长度为:(max

min)/h,按每个区间起始位置大小,对每个区间按编号为0,1,2,3
……
h

1进行编号,后统计t个数据落到各个编号区间的数据数量,按照区间的编号,将每个编号区间的数据数量重新组合为长度为h的数组(大小为:[1 x h])的数据分布矩阵αn,此步操作设为函数A(Xn),此步骤数学表达为:A(Xn)=αn(αn是数据的统计分布特征矩阵,Xn表示总数据第n维度的总数据);(2)两两对比数据相关性,不重复地选择相关性较高的n/2(取上整)组维度对:由步骤(1)得到的第n维度数据的统计分布特征矩阵αn,进行各个维度之间的相关性计算(对维度n1的统计分布特征矩阵αn1(如下公式中用X表示)与维度n2的统计分布特征矩阵αn2(如下公式中用Y表示)采用皮尔森相关系数计算算法得数据统计分布特征矩阵相关性,即:Pearsonr(X,Y)=ρ(X,Y)=(COV(X,Y))/(σ
X
σ
Y
)=(E[(X

μ
X
)(Y

μ
Y
)])/(σ
X
σ
Y
)):依据如上操作,计算出各个维度统计分布特征之间的相关性,后将此相关性数据取绝对值操作,后不重复地选取相关性最高的数据维度对,将取定的维度对存入特定数组,此数据维度两两组合,如出现不能配对的奇数,则对其进行自身与自身的配对;此操作设为函数B(α0,α1,α2
……
αn),此步骤的数学表达为:B(α0,α1,α2
……
αn)=Q1...

【专利技术属性】
技术研发人员:王崎吴晨阳陈玉玲李少波李佳星杨峰
申请(专利权)人:贵州明翌达科技服务股份有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1