一种大数据图像分类方法技术

技术编号:9519375 阅读:195 留言:0更新日期:2014-01-01 17:01
本发明专利技术公开了一种大数据图像分类方法,包括如下步骤:1)收集图像样本作为训练集;2)寻找大数据图像分类最优的投影矩阵;3)对无标注数据进行投影;4)对投影后的样本采用最小距离分类器分类。利用本发明专利技术提出的方法能够有效利用样本分布的局部几何信息,并提取分类的鉴别信息,减少大数据图像分类对人工标注样本的依赖,有效减少训练过程中的存储成本,其分类准确度高于有代表性的基于线性判别分析的图像分类方法。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,包括如下步骤:1)收集图像样本作为训练集;2)寻找大数据图像分类最优的投影矩阵;3)对无标注数据进行投影;4)对投影后的样本采用最小距离分类器分类。利用本专利技术提出的方法能够有效利用样本分布的局部几何信息,并提取分类的鉴别信息,减少大数据图像分类对人工标注样本的依赖,有效减少训练过程中的存储成本,其分类准确度高于有代表性的基于线性判别分析的图像分类方法。【专利说明】
本专利技术涉及一种模式识别与人工智能
中的图像分类技术,特别涉及,该方法是一种监督学习图像分类的方法。
技术介绍
随着移动互联网的迅速发展,带有数字摄像头智能手机、平板电脑越来越多的进入人们的生活,很容易产生大量的个人数字图像。虽然利用时间和目录对图像进行管理是一种常见的方法,但是缺乏语义层面对图片进行有效的管理。因此利用监督学习方法,通过学习人工标注数据,以获得图像分类模型,然后对没有标注的图像进行自动图像分类。由于图像通常的特征维数非常高,因此降维方法有助于识别性能的提高。传统的全局线性降维的方法主要是基于线性的,其中线性判别分析被广泛地应用在模式分类问题上。线性判别分析法主要通过最大化类间距离的同时使类内样本间距离最小,从而实现不同类别之间的可分性。但是,大数据图像分类面临着类别数巨大,需要分类的样本数量巨大等困难。线性判别分析对于大数据而言,使用成本是比较高的,为了获得一定的分类性能,它需要人工大量的标注样本。这使得图像分类软件开发成本大量增加,需要人工大量的标注样本。因此,寻找一个需要标注少量样本即可得到满足要求的自动图像分类方法是非常必要的。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供,该方法只需要少量人工标注样本。本专利技术的目的通过下述技术方案实现:,具体实现方式:I)收集图像样本作为训练集X,即Χ= e Rdxn,样本维数为D,样本数量为N,每个样本有相应的类别标志Ci e Z02)建立局部优化目标函数:对每一个已标注的样本Xi,我们可以找到类内样本勺,…,的Ic1近邻和类间样本的 k2 近邻来形成一个局部块,即 A =|Λ,.Χ;,,....Χ;(—,?+1)。另外,我们定义Ru为第j个样本相对第i个样本里的位置顺序。我们希望每个局部块的新的低维空间表达,即:X 二^,々,…A,%,...,' ] e Rrfx(W),满足类间样本距离足够大同时类内样本位置顺序信息尽可能的保留。我们对类间样本距离建立(I)式:2【权利要求】1.,包括以下步骤: 1)收集图像样本作为训练集X,即:x= e Rdxn,其中Xl,X2,…,χΝ,代表样本,D为样本维数,N为样本数量,每个样本有相应的类标志Ci ; 2)寻找大数据图像分类最优的投影矩阵U; 3)通过对无标注数据集Xu进行投影,并获得新的样本特征集Yu,即=Yu=UtXu; 4)对投影后样本特征集Yu采用最小距离分类器分类,获得图像分类的结果; 其特征在于,所述寻找大数据图像分类最优的投影矩阵,包括以下步骤: 步骤1、建立局部优化目标函数; 步骤2、建立全局优化目标函数; 步骤3、利用拉格朗日乘数法:将新的全局优化目标的问题转换为求广义特征值α问题,大数据图像分类最优的投影矩阵U由式子XLXtCi=X XXt α的前d个最小特征值对应的d个特征向量得到。2.根据权利要求1所述的大数据图像分类方法,其特在在于,所述步骤I包括:对每一个已标注的样本xi,找到同类样本士,…,xA的共Ic1近邻和不同类别样本',...,'的共k2近邻来形成一个局部块,即: 3.根据权利要求1所述的大数据图像分类方法,其特征在于,所述步骤2包括:通过样本选择矩阵,每个局部块的新的低维空间表达Yi的坐标从训练集低维表达Y中选择出来,即^=11?=!^, y2,…yN] e RdXN,所述低维空间表达Yi的表达式如下: 【文档编号】G06F17/30GK103488744SQ201310432630【公开日】2014年1月1日 申请日期:2013年9月22日 优先权日:2013年9月22日 【专利技术者】金连文, 陶大鹏, 王永飞 申请人:华南理工大学本文档来自技高网
...

【技术保护点】
一种大数据图像分类方法,包括以下步骤:1)收集图像样本作为训练集X,即:X=[x1,x2,…,xN]∈RD×N,其中x1,x2,…,xN,代表样本,D为样本维数,N为样本数量,每个样本有相应的类标志Ci;2)寻找大数据图像分类最优的投影矩阵U;3)通过对无标注数据集Xu进行投影,并获得新的样本特征集Yu,即:Yu=UTXu;4)对投影后样本特征集Yu采用最小距离分类器分类,获得图像分类的结果;其特征在于,所述寻找大数据图像分类最优的投影矩阵,包括以下步骤:步骤1、建立局部优化目标函数;步骤2、建立全局优化目标函数;步骤3、利用拉格朗日乘数法:将新的全局优化目标的问题转换为求广义特征值α问题,大数据图像分类最优的投影矩阵U由式子XLXTα=λXXTα的前d个最小特征值对应的d个特征向量得到。

【技术特征摘要】

【专利技术属性】
技术研发人员:金连文陶大鹏王永飞
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1