一种鲁棒直推式标签估计及数据分类方法和系统技术方案

技术编号：15108913 阅读：68 留言：0更新日期：2017-04-09 00:19

本发明专利技术公开了一种鲁棒直推式标签估计及数据分类方法和系统，方法包括：利用有标签和无标签训练样本人工初始化类标签矩阵，经近邻搜索构造相似近邻图和归一化后的权重系数矩阵；通过平衡近邻重构项和标签拟合项得到未知标签训练样本的软标签矩阵；基于鲁棒l2,1-范数度量的近邻重构错误，定义流形平滑项；对标签拟合项进行l2,1-范数正则化；通过迭代计算得到每个未知标签样本数据的软类别标签向量，估计出样本类别，得到分类结果。采用该方法构建的系统，通过引入l2,1-范数正则化技术，有效提升了系统对于噪音的鲁棒性，增强分类性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习和模式识别领域，具体涉及一种数据分类方法和系统，尤其是一种直推式标签估计及数据分类方法和系统。
技术介绍
数据分类技术在过去几十年里成为机器学习和计算机视觉中十分流行的研究课题。近年来，一些基于图像数据的分类系统，例如人脸图像识别、指纹图像识别系统等，已经投入使用并产生了巨大的社会、经济效益。数据分类方法主要有几何特征识别、基于特征点识别、神经网络识别和支持向量机识别等。在实际应用中，无标签的样本数据能比较容易收集到，但是有标签的样本数据相对是稀缺的，且通过人工来标定数据的过程会耗费大量时和人力，因此基于半监督学习的数据分类方法具有更高的实用价值与现实意义。在众多半监督学习方法中，标签传播方法因其具有快速、有效、简单的优点而引起人们的广泛关注。标签传播于2002年由Zhu等人提出，一经提出即引起国内外学者的广泛关注，并逐渐被证实为一种简单、快速、扩展性强，性能稳定的算法，其应用遍布多个领域，如社交平台的社会关系分析、多媒体信息检索分类等。近年，其在图像数据分类方面也表现出优秀的性能。然而目前大多数直推式标签传播模型主要围绕权重稀疏构造的方面开展研究，具有一些明显的缺点，即基于弗罗贝尼乌斯范数（Frobeniusnorm）的学习模型对噪声比较敏感，标签估计的过程容易受到噪声的负面影响，降低了标签估计结果的准确性。因此，提出一种基于鲁棒l2,1-范数正则化的直推式标签估计方法，提升对噪声的>鲁棒性，增强分类性能，是本领域人员亟待解决的问题。
技术实现思路
本专利技术的专利技术目的是提供一种鲁棒直推式标签估计及数据分类方法，以完善现行标签传播研究领域一些方法的不足,提高分类过程中对噪声的鲁棒性，降低精度损失等问题。本专利技术的另一专利技术目的是提供一种鲁棒直推式标签估计及数据分类系统。为达到上述专利技术目的，本专利技术采用的技术方案是：一种鲁棒直推式标签估计及数据分类方法，利用基于l2,1-范数正则化的度量进行数据半监督标签估计的直推式分类，包括：(1)利用有标签训练样本和无标签训练样本人工初始化一个类标签矩阵，并通过近邻搜索过程，完成构造相似近邻图和归一化后的权重系数矩阵，用于表征样本间的近邻特性；(2)通过平衡近邻重构项和标签拟合项，计算得到未知标签训练样本的软标签矩阵；其中，基于鲁棒l2,1-范数度量的近邻重构错误，用于定义流形平滑项；对标签拟合项进行l2,1-范数正则化；(3)通过迭代计算得到每个未知标签样本数据的软类别标签向量，其中向量元素为未知标签样本归属各个类别的概率，根据软标签中概率的最大值对应的位置，估计出样本类别，得到分类结果。上述技术方案中，步骤(1)用于完成基于l2,1-范数的直推式分类的预处理过程。包括通过近邻搜索过程，完成构造相似近邻图和归一化后的权重系数矩阵，用于表征样本间的近邻特性，并人工标定原始标签矩阵Y用于记录初始已知的监督信息。可选地，此部分还包括必要的数据预处理和参数设置等操作。进而通过平衡近邻重构项和标签拟合项，进行迭代计算拟合训练软标签；得到所有无标签训练样本的预测软标签F。其中，完成基于l2,1-范数的直推式标签估计及其数据分类的预处理过程，包括构造权重系数矩阵；并人工标定原始标签矩阵Y用于记录初始已知的监督信息，该过程具体为：对每个训练样本xi寻找其在训练集中的K个最近邻，构建每个训练样本xi的近邻集N(xi)，其中K=7。任意训练集样本xi和xj间的相似度使用LLE-重构权进行表征，具体如下：对于给定的一个包含N个样本的数据集，其中包括l个有标签训练样本和u个无标签训练样本（满足l+u=N），其中无标签样本的类别为类别待估计样本。其中包含有类别标签c（共c个类别，c＞2）的训练样本集和无任何标签的训练样本集。计算重构系数矩阵时，所述解决以下近邻重构错误最小化问题：其中为行和为1约束，为非负约束，即权重稀疏满足该概率定义。进而，对所述重构系数矩阵进行对称化和归一化处理，得到归一化后的权重系数矩阵，用于表征样本的近邻特性。本专利技术方法为了有效降低近邻重构错误，提出基于鲁棒l2,1-范数度量的近邻重构错误，用于定义流形平滑项。此外，也对标签拟合项进行了l2,1-范数正则化，提升在度量预测标签和初始标签之间差异过程中的健壮性。所述解决以下最小化问题：其中，包含样本xi邻域内的样本点，Wi,j为重构系数，ui是平衡近邻重构项和标签拟合项之间的正权衡参数，fi为每个样本数据的软类别标签向量，其中，向量中元素为未知标签样本归属各个类别的概率，概率最大值对应的位置，决定了样本的类别归属。是基于l2,1-范数度量的重构错误项，是基于l2,1-范数正则化度量的标签拟合项，yi为每个样本xi的初始标签向量。基于矩阵形式，上述目标函数可以转化为如下表示：，其中，U为对角矩阵，且对角线上的元素为，xi为的调整参数，当训练集中的样本xi的标签已知时，对应的，反之。V则是以为元素的对角矩阵,hi则为矩阵FT-YT的第i个行向量。，的主对角线上的所有元素之和称之为X的迹，记为tr(X)，为l2-范数，为l2,1-范数，分别定义如下：，，，其中，所述优化得到的软标签矩阵可以对数据有标签训练样本和无标签训练样本进行直接分类。本专利技术方法具体为：完成基于l2,1-范数的直推式分类的预处理过程，包括使用LLE-重构权构建相似近邻图，得到归一化的权重系数矩阵；并且人工标记原始标签矩阵Y用于记录初始已知的监督信息。建立直推式标签传播模型，包括流行平滑项和标签拟合项，进行迭代拟合训练软标签；得到所有无标签训练样本的预测软标签F；最后每个无标签训练样本的硬标签可以被表示为预测软标签列向量最大元素对应的类别标签。本专利技术同时提供了一种鲁棒直推式标签估计及数据分类系统，基于l2,1-范数的直推式标签估计方法，包括：训练预处理模块，利用有标签训练样本和无标签训练样本人工初始化一个类标签矩阵，并通过近邻搜索过程，完成构造相似近邻图和归一化后的权重系数矩阵，用于表征样本间的近邻特性；训练模块，基于初始化的所述类标签矩阵和归一化后的权重系数矩阵，通过平衡近邻重构项和标签拟合项建立直推式标签传播模型；通过迭代优化，得到所有样本数据的软类别标签预测矩阵F；确定模块，根据训练模块得到的软类别标签矩阵F，得到每个未知标签样本数据的软类别标签向量，其中向量中元素为未知标签样本归属各个类别的概率，根据软标签中概率的最大值对应的位置，本文档来自技高网...

【技术保护点】
一种鲁棒直推式标签估计及数据分类方法，其特征在于，包括：(1) 利用有标签训练样本和无标签训练样本人工初始化一个类标签矩阵，并通过近邻搜索过程，完成构造相似近邻图和归一化后的权重系数矩阵，用于表征样本间的近邻特性；(2) 通过平衡近邻重构项和标签拟合项，计算得到未知标签训练样本的软标签矩阵；其中，基于鲁棒l2,1‑范数度量的近邻重构错误，用于定义流形平滑项；对标签拟合项进行l2,1‑范数正则化；(3) 通过迭代计算得到每个未知标签样本数据的软类别标签向量，其中向量元素为未知标签样本归属各个类别的概率，根据软标签中概率的最大值对应的位置，估计出样本类别，得到分类结果。

【技术特征摘要】
1.一种鲁棒直推式标签估计及数据分类方法，其特征在于，包括：
(1)利用有标签训练样本和无标签训练样本人工初始化一个类标签矩阵，并通过近邻
搜索过程，完成构造相似近邻图和归一化后的权重系数矩阵，用于表征样本间的近邻特性；
(2)通过平衡近邻重构项和标签拟合项，计算得到未知标签训练样本的软标签矩阵；
其中，基于鲁棒l2,1-范数度量的近邻重构错误，用于定义流形平滑项；对标签拟合项进行
l2,1-范数正则化；
(3)通过迭代计算得到每个未知标签样本数据的软类别标签向量，其中向量元素为未
知标签样本归属各个类别的概率，根据软标签中概率的最大值对应的位置，估计出样本类
别，得到分类结果。
2.根据权利要求1所述的鲁棒...

【专利技术属性】
技术研发人员：张召，贾磊，李凡长，张莉，王邦军，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人