使用加速来执行基于图像的回归的方法技术

技术编号:2947405 阅读:271 留言:0更新日期:2012-04-11 18:40
公开了一种用于使用加速来执行基于图像的回归以推断与对象的图像相关联的实体的方法。学习多个图像的回归函数,其中,针对每个图像,相关联的实体是已知的。使用所学习的回归函数来预测与图像相关联的实体,其中该实体是未知的。

【技术实现步骤摘要】

本专利技术针对一种用于解决视觉问题的方法,并且更特别地,本专利技术针对一种用于使用加速(boosting)来执行基于图像的回归以推断与图像相关联的实体的方法。
技术介绍
本专利技术要求于2005年3月17日提交的序列号为60/662,877的美国临时申请的利益,该临时申请整体被引入作为参考。基于图像的回归(IBR,Image Based Regression)是在视觉处理中的新兴的难题。IBR的问题被定义如下给出图像x,期望推断出与该图像x相关联的实体y(x)。y(x)的含义随着应用的不同而明显变化。例如,可以是表征图像的特征(例如,估算人的年龄)、与图像相关的参数(例如,肿瘤的位置和各向异性的散布(spread))、或者其它有意义的量(例如,心脏内壁的位置)。一种已知的视觉处理方法使用支持向量回归来推断形状变形向量。另一种视觉处理方法使用相关向量回归来从侧影(silhouette)中估算人的三维(3D)姿势。然而,在这两种方法中,到回归器的输入并不是图像自身,而是处理前的实体、例如标志位置和形状上下文描述符。通常,已提出了很多机器学习方法来解决回归问题。特别是数据驱动方法已经被普遍使用。这些方法的例子包括非参数核回归(NPR,nonparametric kernelregression)、线性方法及其诸如核脊回归(KRR,kernel ridge regression)和支持向量回归(SVR)的非线性核变型。然而,由于大量难题,这些方法直接应用到视觉问题上常常是困难的或者无效的。一个难题被称为维数的灾难。输入(也就是图像数据)是高维数的。理想地,为了良好地表示样本空间,所要求的图像样本的数目应与输入空间的基数成指数关系。然而,实际上,相比于输入空间的基数,训练样本的数目常常是非常少的。如果没有仔细处理,很可能会出现过拟合。另一个难题是改变出现在图像中的外观。首先,存在影响感兴趣的前景对象的外观的很多因素。除了对象中的内在区别之外,外在因素包括照相机系统、图像几何学、照明条件、组成(makeup)等。其次,变化源自背景的出现,该背景的外观也变化。第三种变化是由对准引起。为了有效地工作,回归技术必须容忍对准误差或者复原(regress out)对准参数。多个输出也是难题,因为输出变量也是高维数的。大多数回归方法、诸如SVR能够非常稳定地处理单个输出回归问题。将这些方法扩展到多个输出设置如在SVR的情况下那样是重要的。非常幼稚的实践、即将多个输出去耦合成多个隔离的单个输出任务忽略了在输出变量的不同维数之中的统计学依赖性。存储和计算也是要考虑的问题。回归技术、诸如非参数核回归(NPR)、核脊回归(KRR)和支持向量回归(SVR)都是数据驱动的。在数据驱动方法中存在两个主要的缺点存储和计算。首先,该技术需要存储大量训练数据。在NPR和KRR中,存储所有训练数据。在SVR中,存储支持向量。因为训练数据是高维数的图像,所以存储训练数据占用很多存储空间。其次,因为将输入图像与所存储的训练图像相比较非常耗费时间,所以评估数据驱动回归函数非常慢。通常,回归找到以下最小化问题的解决方案g^(x)=argming∈ζϵp(x,y){L(y(x),g(x))}---(1)]]>其中ζ是被允许的输出函数的集合,εp(x,y)是生成分布(generating distribution)p(x,y)下的期望值,以及L(o,o)函数是损耗函数,该损耗函数使回归器输出g(x)与实际输出y(x)之间的偏差恶化。实际上,由于分布p(x,y)是未知的,所以不可能计算期望值。给出训练例子的集合{(xn,y(xn))}n=1N,费用函数εp(x,y)L(y(x),g(x))被近似为训练误差J(g)=Σn=1N(y(xn),g(xn))/N.]]>如果样本的数目N是无穷大,则上面的近似正好是大数目的规则。不幸的是,特别是当处理图像数据和高维数输出参数时,N的实际值并没有足够大。更严重的问题是过拟合给出有限数目的训练例子,很容易构建产生零训练误差的函数g(x)。为了与这种过拟合相抗争,经常使用额外的正则化约束,这导致组合的费用函数(忽略比例因数N-1)J(g)=Σn=1NL(y(xn),g(xn))+λR(g)---(2)]]> 其中λ>0是控制正则化程度的正则化系数,以及R(g)是正则化项。正则化经常在输出函数上强加了一定的平滑度或者反映了一些有关输出的先验知识。NPR是k-近邻(kNN)回归的平滑版本。kNN回归器近似于条件平均、L2意义(sense)上的最优估计。NPR使用下面的形式g(x)=Σn-1Nhσ(x;xn)y(xn)Σn-1Nhσ(x;xn)---(3)]]>其中,hσ(o;xn)是核函数。最广泛使用的核函数是RBF核hσ(x;xn)=rbfσ(x;xn)=exp(||x-xn||22σ2)---(4)]]>RBF核具有非紧支柱。具有紧支柱的其它核函数、诸如Epanechnikov核也被使用。通常,当面临基于图像的回归的情形时,NPR(虽然是平滑的)试图过拟合数据,也就是产生低偏差和高方差。KRR假定,多个输出的回归函数使用线性形式g(x)=Σn=1Nank(x;xn)---(5)]]>其中k(xxn)是再生核函数,以及αn是加权核函数的q×1向量。再生核的选择包括RBF核、多项式核等。从训练数据中得到的多个输出KRR的解决方案是g(x)=Y(K+λI)-1κ(x),(6)其中Yq×N=是训练输出矩阵,KN×N=是训练数据的格拉姆矩阵,以及κ(x)N×1=T。通常,当使用线性核时,因为KRR使用简单的线性形式,所以KRR试图欠拟合数据,也就是产生高偏差和低方差。使用非线性核函数经常提供增强的性能。KRR的一个计算难点在于倒置N×N矩阵κ+λI。SVR是一种稳定的回归方法。其当前的公式用于单个输出数据、也就是q=1。SVR最小化下面的费用函数12||w||2+CΣn=1N|y(xn)-g(xn)|∈,---(7)]]>其中|o|∈是不受∈影响的函数,具有k(x;xn)的(x)Σn=1Nwnk(x;xn)]]>是再生核函数,以及wn是其权重,以及w=T。因为一些可以通过二次最优化过程得到的系数wn是零值,所以与非零权重相关联的样本xn被称为支持向量。SVR在偏差和方差权衡之间找到好的平衡并因此非常稳定。不幸的是,对多个输出的回归问题直接应用SVR是困难的。需要能够以使用加速来学习的多个输出设置为目标的回归器。
技术实现思路
本专利技术针对一种用于使用加速来执行基于图像的回归以推断与对象的图像相关联的实体的方法。学习多个图像的回归函数,其中,针对每个图像,相关联的实体是已知的。所学习的回归函数被用来预测与图像相关联的实体,其中该实体是未知的。附图说本文档来自技高网
...

【技术保护点】
一种用于使用加速来执行基于图像的回归以推断与对象的图像相关联的实体的方法,该方法包括如下步骤:学习多个图像的回归函数,其中,针对每个图像,相关联的实体是已知的;以及使用所学习的回归函数来预测与图像相关联的实体,其中该实体是未 知的。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:SK周B乔治斯库X周D科曼尼丘
申请(专利权)人:西门子共同研究公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1