一种基于偏最小二乘法的半监督降维方法及系统技术方案

技术编号:20843954 阅读:52 留言:0更新日期:2019-04-13 08:53
本发明专利技术提供一种基于偏最小二乘法的半监督降维方法及系统,其中方法包括提取无监督数据和监督数据,还包括以下步骤:建立偏最小二乘法模型;基于所述偏最小二乘法模型求取回归系数;根据所述回归系数进行特征值分解。本发明专利技术提出一种基于偏最小二乘法的半监督降维系统,即使只有很少或没有标记样本也可以获得更好的预测结果,与无监督或监督降维算法相比,半监督PLS不仅可以提高样本的预测精度,而且可以提高模型的泛化能力。

【技术实现步骤摘要】
一种基于偏最小二乘法的半监督降维方法及系统
本专利技术涉及模式识别和机器学习的
,特别是一种基于偏最小二乘法的半监督降维方法及系统。
技术介绍
模式识别和机器学习领域经常面临高维问题。高维数据的分析通常很难,所以找到不仅对去除一些冗余和噪声,同时尽可能多的保留原始信息的降维方法至关重要。因为使用简化的特征,数据分析将更快,更稳健。无论是有监督的还是无监督的降维方法都需要足够的数据样本,只有这样才能建立良好的性能,高鲁棒性和强泛化能力模型。然而,在许多现实世界的分析应用中,标记工作既耗时又昂贵,但是未标记的样品更容易获得。因此,在建立模型之前,未标记样本的数量远远大于标记样本的数量。如果我们只使用标记数据,则监督模型将不具有良好的泛化能力,同时,将浪费大量未标记的数据。在仅使用未标记的数据时,将忽略先验信息。半监督降维可以同时使用标签数据和未标记数据,只需要较少的人为参与即可获得良好的效果。申请号为102411610A专利技术专利申请公开一种用于高维数据聚类的半监督降维方法,包括:(1)构建样本特征矩阵;(2)构建约束矩阵;(3)构建迭代方程组,迭代输出过渡矩阵;(4)求得降维后的样本特征矩阵。该方法在获取样本集合以及样本集合中p个样本的类别信息时需要进行部分标记,相对比较繁琐。
技术实现思路
为了解决上述的技术问题,本专利技术提出一种基于偏最小二乘法的半监督降维系统,即使只有很少或没有标记样本也可以获得更好的预测结果,与无监督或监督降维算法相比,半监督PLS不仅可以提高样本的预测精度,而且可以提高模型的泛化能力。本专利技术的第一目的是提供一种基于偏最小二乘法的半监督降维方法,包括提取无监督数据和监督数据,还包括以下步骤:步骤1:建立偏最小二乘法模型;步骤2:基于所述偏最小二乘法模型求取回归系数;步骤3:根据所述回归系数进行特征值分解。优选的是,所述步骤1包括根据所述无监督数据建立偏最小二乘法模型。在上述任一方案中优选的是,所述步骤2包括基于所述建立在无监督数据上的偏最小二乘法模型求取回归系数B2。在上述任一方案中优选的是,所述回归系数B2的求取步骤如下:步骤01:从观察矩阵X的每列X(i)中减去平均向量,i=1;步骤02:如果i≤n,则利用X×B2(i)=X(i)计算回归系数B2(i),其中n是观察矩阵X的列数;如果i>n,则执行步骤05;步骤03:将回归系数组合为矩阵B2=[B2;B2(i)];步骤04:从X中减去B(i)投影空间中的值,X=X-(X*B(i))*B(i)T,返回步骤02;步骤05:设B2=B2×B2T,并用特征值分解法分解矩阵B2,其中,B(i)表示矩阵的第i列,T表示转量。在上述任一方案中优选的是,所述步骤1还包括根据所述监督数据建立偏最小二乘法模型。在上述任一方案中优选的是,所述步骤2还包括基于所述建立在无监督数据上的偏最小二乘法模型求取回归系数B1。在上述任一方案中优选的是,所述回归系数B1的求取方法为在监督数据上通过随机抽样和替换方法在原始训练集上建立m子模型。然后选择了几个对最终模型具有更好分类精度的子模型,将回归系数设置为B1=[β1,β2,……,βn],其中,m是子模型数的阈值,β表示子回归模型的系数。在上述任一方案中优选的是,所述步骤3为将所述无回归系数B2和所述回归系数B1结合起来用特征值分解法分解矩阵B。在上述任一方案中优选的是,所述矩阵B的分解方法为利用PMA算法的基本思想,将两个回归系数融合在一起进行个分解,得到S2PLS的目标函数。在上述任一方案中优选的是,所述目标函数的计算公式为其中,w是一个长度与B的维数相等的列向量,wT表是w的转置。在上述任一方案中优选的是,根据所述目标函数找出最能代表整个回归系数的主模型,将所述主模型作为最终投影方向。本专利技术的第二目的是提供一种基于偏最小二乘法的半监督降维系统,包括用于提取无监督数据和监督数据的数据提取模块,还包括以下模块:模型建立模块:用于建立偏最小二乘法模型;系数求取模块:用于基于所述偏最小二乘法模型求取回归系数;特征值分解模块:用于根据所述回归系数进行特征值分解。优选的是,所述模型建立模块用于根据所述无监督数据建立偏最小二乘法模型。在上述任一方案中优选的是,所述系数求取模块用于基于所述建立在无监督数据上的偏最小二乘法模型求取回归系数B2。在上述任一方案中优选的是,所述回归系数B2的求取步骤如下:步骤01:从观察矩阵X的每列X(i)中减去平均向量,i=1;步骤02:如果i≤n,则利用X×B2(i)=X(i)计算回归系数B2(i),其中n是观察矩阵X的列数;如果i>n,则执行步骤05;步骤03:将回归系数组合为矩阵B2=[B2;B2(i)];步骤04:从X中减去B(i)投影空间中的值,X=X-(X*B(i))*B(i)T,返回步骤02;步骤05:设B2=B2×B2T,并用特征值分解法分解矩阵B2,其中,B(i)表示矩阵的第i列,T表示转量。在上述任一方案中优选的是,所述模型建立模块还用于据所述监督数据建立偏最小二乘法模型。在上述任一方案中优选的是,所述系数求取模块还用于基于所述建立在无监督数据上的偏最小二乘法模型求取回归系数B1。在上述任一方案中优选的是,所述回归系数B1的求取方法为在监督数据上通过随机抽样和替换方法在原始训练集上建立m子模型。然后选择了几个对最终模型具有更好分类精度的子模型,将回归系数设置为B1=[β1,2,……,βn],其中,m是子模型数的阈值,β表示子回归模型的系数。在上述任一方案中优选的是,所述特征值分解模块用于将所述无回归系数B2和所述回归系数B1结合起来用特征值分解法分解矩阵B。在上述任一方案中优选的是,所述矩阵B的分解方法为利用PMA算法的基本思想,将两个回归系数融合在一起进行个分解,得到S2PLS的目标函数。在上述任一方案中优选的是,所述目标函数的计算公式为其中,w是一个长度与B的维数相等的列向量,wT表是w的转置。在上述任一方案中优选的是,根据所述目标函数找出最能代表整个回归系数的主模型,将所述主模型作为最终投影方向。本专利技术提出了一种基于偏最小二乘法的半监督降维方法及系统,可以解决如何提高高维数据分类的效率和精度的问题。附图说明图1为按照本专利技术的基于偏最小二乘法的半监督降维方法的一优选实施例的流程图。图1A为按照本专利技术的基于偏最小二乘法的半监督降维方法的如图1所示优选实施例的求取回归系数B2的方法流程图。图2为按照本专利技术的基于偏最小二乘法的半监督降维系统的一优选实施例的模块图。图3为按照本专利技术的基于偏最小二乘法的半监督降维方法的另一优选实施例的流程图。图4为按照本专利技术的基于偏最小二乘法的半监督降维方法的分类准确率的一实施例的样本比率为10%的示意图。图4A为按照本专利技术的基于偏最小二乘法的半监督降维方法的分类准确率的如图4所示实施例的样本比率为30%的示意图。图4B为按照本专利技术的基于偏最小二乘法的半监督降维方法的分类准确率的如图4所示实施例的样本比率为50%的示意图。具体实施方式下面结合附图和具体的实施例对本专利技术做进一步的阐述。实施例一如图1所示,一种基于偏最小二乘法的半监督降维方法包括以下步骤:执行步骤100,提取无监督数据和监督数据。执行步骤110,建立偏最小二乘法本文档来自技高网...

【技术保护点】
1.一种基于偏最小二乘法的半监督降维方法,包括提取无监督数据和监督数据,其特征在于,还包括以下步骤:步骤1:建立偏最小二乘法模型;步骤2:基于所述偏最小二乘法模型求取回归系数;步骤3:根据所述回归系数进行特征值分解。

【技术特征摘要】
1.一种基于偏最小二乘法的半监督降维方法,包括提取无监督数据和监督数据,其特征在于,还包括以下步骤:步骤1:建立偏最小二乘法模型;步骤2:基于所述偏最小二乘法模型求取回归系数;步骤3:根据所述回归系数进行特征值分解。2.如权利要求1所述的基于偏最小二乘法的半监督降维方法,其特征在于,所述步骤1包括根据所述无监督数据建立偏最小二乘法模型。3.如权利要求2所述的基于偏最小二乘法的半监督降维方法,其特征在于,所述步骤2包括基于所述建立在无监督数据上的偏最小二乘法模型求取回归系数B2。4.如权利要求3所述的基于偏最小二乘法的半监督降维方法,其特征在于,所述回归系数B2的求取步骤如下:步骤01:从观察矩阵X的每列X(i)中减去平均向量,i=1;步骤02:如果i≤n,则利用X×B2(i)=X(i)计算回归系数B2(i),其中n是观察矩阵X的列数;如果i>n,则执行步骤05;步骤03:将回归系数组合为矩阵B2=[B2;B2(i)];步骤04:从X中减去B(i)投影空间中的值,X=X-(X*B(i))*B(i)T,返回步骤02;步骤05:设B2=B2×B2T,并用特征值分解法分解矩阵B2,其中,B(i)表示矩阵的第i列,T表示转量。5.如权利要求4所述的基于偏最小二乘法的半监督降维方法,其特征在于,所述步骤1还包括根...

【专利技术属性】
技术研发人员:张欣
申请(专利权)人:北京联合大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1