一种基于高维数据分布的复合式伪标签拟合方法技术

技术编号：33783168 阅读：40 留言：0更新日期：2022-06-12 14:37

本发明专利技术公开了一种基于高维数据分布的复合式伪标签拟合方法，包括：对各维度进行统计，获得数据分布特征；两两对比数据相关性，不重复地选择相关性较高的n/2（取上整）组维度对；每组维度都使用采样数据训练独立小模型；用输入数据统计分布特征做为训练标签，在分布特征标签下进行模型的深度学习训练；实现对数据的降维：判断维度是否降为一；构造新模型，将全部数据、全维度依据伪标签使模型进行有监督学习。本发明专利技术能使超高维无标签数据进行模型训练。练。练。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于高维数据分布的复合式伪标签拟合方法

[0001]本专利技术涉及大数据处理领域，具体来说涉及一种基于高维数据分布的复合式伪标签拟合方法。

技术介绍

[0002]近年来，随着人工智能深度学习技术的兴起，使用有标签数据进行训练模型成为行业的热点，由于人工标记工作量较大、成本较高，研究人员开始探索一种模型自我构建标签的方式进行学习，出现了伪标签技术。伪标签的定义来自于半监督学习，半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能。简单来说，伪标签技术就是利用在已标注数据所训练的模型在未标注的数据上进行预测，根据预测结果对样本进行筛选，再次输入模型中进行训练的一个过程。但随着日常生活中需要标记的数据越来越多，研究人员对广大无标签数据研究也越来越深入，伪标签技术被公认为处理无标签数据的最佳方案。
[0003]但目前伪标签技术仅适用于低维度、易人工标记的数据，并不适用于高维度数据的伪标签的构建。现有的基于谱聚类的半监督学习的软件缺陷预测方法，对于数据存在的空间没有进行深度探索，这样会导致谱聚类方法不能发挥优势，使用聚类的方式会导致结果数据空间分布出现偏差、为构造模型而进行的人力劳动增加、由于人工偏差导致的模型错误率增加等问题。目前，超高维无标签数据伪标签构建所使用方法不能有效结合每个维度得出更加综合的结果输出。

技术实现思路

[0004]本专利技术的目的在于克服上述缺点而提供的一种能使超高维无标签数据进行模型训练的基于高维数据分布的复合式伪标签拟合方法。
[0005]为实...

【技术保护点】

【技术特征摘要】
1.一种基于高维数据分布的复合式伪标签拟合方法，包括以下步骤：(1)对各维度进行统计，获得数据分布特征：随机对每个维度进行采样，获取t个数据，对此t个数据进行统计，首先取得t个数据中的最大值与最小值，按最大值与最小值的间隔均匀分区，分为h个区间，则每个区间长度为：(max
‑
min)/h，按每个区间起始位置大小，对每个区间按编号为0，1，2，3
……
h
‑
1进行编号，后统计t个数据落到各个编号区间的数据数量，按照区间的编号，将每个编号区间的数据数量重新组合为长度为h的数组(大小为：[1 x h])的数据分布矩阵αn，此步操作设为函数A(Xn)，此步骤数学表达为：A(Xn)＝αn(αn是数据的统计分布特征矩阵，Xn表示总数据第n维度的总数据)；(2)两两对比数据相关性，不重复地选择相关性较高的n/2(取上整)组维度对：由步骤(1)得到的第n维度数据的统计分布特征矩阵αn，进行各个维度之间的相关性计算(对维度n1的统计分布特征矩阵αn1(如下公式中用X表示)与维度n2的统计分布特征矩阵αn2(如下公式中用Y表示)采用皮尔森相关系数计算算法得数据统计分布特征矩阵相关性，即：Pearsonr(X,Y)＝ρ(X，Y)＝(COV(X，Y))/(σ
X
σ
Y
)＝(E[(X
‑
μ
X
)(Y
‑
μ
Y
)])/(σ
X
σ
Y
))：依据如上操作，计算出各个维度统计分布特征之间的相关性，后将此相关性数据取绝对值操作，后不重复地选取相关性最高的数据维度对，将取定的维度对存入特定数组，此数据维度两两组合，如出现不能配对的奇数，则对其进行自身与自身的配对；此操作设为函数B(α0，α1，α2
……
αn)，此步骤的数学表达为：B(α0，α1，α2
……
αn)＝Q1...

【专利技术属性】
技术研发人员：王崎，吴晨阳，陈玉玲，李少波，李佳星，杨峰，
申请(专利权)人：贵州明翌达科技服务股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人