【技术实现步骤摘要】
一种面向数值型数据分类的样本间度量学习方法与装置
[0001]本专利技术属于距离度量函数学习领域,尤其涉及一种面向数值型数据分类的样本间度量学习方法与装置。
技术介绍
[0002]分类问题是计算机科学中一个经久不衰的热门问题,在许多领域都有分类方法的应用,如人脸识别、缺陷产品检测、垃圾邮件检测等。研究人员把需要分类的事物的特征保留,并用数值量化,从而把事物抽象为一个个向量,方便进一步研究分类问题。这些描述了事物特征信息的向量又称为“数值型数据”,数值型数据是分类问题处理的最普遍、最广泛的对象。
[0003]许多分类方法都需要用到一个叫“相似度”的概念来衡量数据之间的相似程度,如k
‑
最近邻算法(kNN)、支持向量机(SVM)等。相似度本质上是数值型数据空间中的“距离度量函数”。定义距离度量函数在数学上相当于将原始数据样本投影到新的空间,再在新空间上用欧氏距离计算数据样本间的距离。距离度量函数应尽可能使得同类数据样本的距离更小,不同类的数据样本的距离更大。因此,一个好的距离度量函数很大程度上决定了分类
【技术保护点】
【技术特征摘要】
1.一种面向数值型数据分类的样本间度量学习方法,其特征在于,包括以下步骤:步骤1,获取数值型数据样本矩阵X及其每个样本的类别标签;步骤2,判断两两样本标签是否相同,构建标签特征矩阵V和对角矩阵D;步骤3,根据数值型数据样本矩阵X、标签特征矩阵V和对角矩阵D,计算中间矩阵并获取中间矩阵的特征值以及特征值对应的特征向量;所述的中间矩阵的计算公式为:其中,上角标T表示转置,X表示由若干样本列向量构成的样本矩阵,每一个列向量为当前样本的特征向量;步骤4,初始化惩罚因子,令μ0=μ
min
;步骤5,判断当前惩罚因子是否小于预设的最大惩罚因子,若是,则执行步骤6,若否,则执行步骤10;步骤6,根据当前惩罚因子、中间矩阵的特征值对应的特征向量、以及数值型数据样本矩阵X,计算投影矩阵;利用投影矩阵将数值型数据样本矩阵X中的样本投影到新空间;步骤7,在投影空间上对样本采用k
‑
最近邻算法进行K折交叉验证,记录当前惩罚因子下的平均准确度;步骤8,根据预设的惩罚因子缩放系数更新惩罚因子,返回步骤5;步骤9,选出平均准确度最高时对应的惩罚因子作为当前惩罚因子;步骤10,根据当前惩罚因子、中间矩阵的特征值对应的特征向量、以及数值型数据样本矩阵X,计算最优投影矩阵;基于最优投影矩阵获得样本间的距离度量。2.根据权利要求1所述的一种面向数值型数据分类的样本间度量学习方法,其特征在于,所述步骤2中的标签特征矩阵V中的元素V
ij
定义为:当数值型数据样本矩阵X中的第i个样本和第j个样本的类别标签相同时,V
ij
=1;否则,V
ij
=0。3.根据权利要求1所述的一种面向数值型数据分类的样本间度量学习方法,其特征在于,所述步骤2中的对角矩阵D中的元素D
ii
定义为:4.根据权利要求1所述的一种面向数值型数据分类的样本间度量学习方法,其特征在于,所述的初始化惩罚因子μ0=μ
min
,初始化值满足以下公式:或者μ
min
=min{μ>0|λ
i
≥0,i=1,
…
,p}其中,μ
min
表示惩罚因子的最小值,p表示样本特征向量维度,η
i
表示中间矩阵的第i个特征值,μ表示当前惩罚因子,将满足λ
i
≥0条件下的最小的μ值作为初始化惩罚因子,λ
i
表示子投影矩阵的第i个特征值。
5.根据权利要求4所述的一种面向数值型数据分类的样本间度量学习方法,其特征在于,所述投影矩阵的计算过程包括:a)根据惩罚因子和中间矩阵的特征值对应的特征向量,计算子投影矩阵的特征值;b)根据子投影矩阵的特征值和中间矩阵的特征值,计算子投影矩阵:其中,Y表示子投影矩阵,u
i
表示中间矩阵的第i个特征值对应的特征向量,上角标T表示转置;...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。