当前位置: 首页 > 专利查询>复旦大学专利>正文

模拟多尺度交叠感受野的神经网络及其建立方法和应用技术

技术编号:2948133 阅读:218 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于计算机视觉技术领域,具体为一种具有实时特征学习的、模拟生物视觉多尺度交叠感受野的神经网络及其建立方法和应用,该网络可应用于机器视觉学习和认知。通过无监督的学习获得对外界图像的视觉特征,对不同位置和尺度的感兴趣目标,都可找到它在场景中的位置。结合有监督学习的识别分类算法,把它应用在机器视觉上,可以实现对感兴趣的目标进行实时跟踪;应用在行走机器人上,可在不同环境下自主学习和目标追踪。

【技术实现步骤摘要】

本专利技术属于计算机视觉
,具体涉及一种具有实时特征学习的、模拟生物视觉多尺度交叠感受野的神经网络及其构建方法,该神经网络可以用于提取视频图像特征。结合有监督学习的识别分类算法,把它应用在机器视觉上,可以实现对感兴趣的目标进行实时跟踪。
技术介绍
早在1962年Hebel和Wiesel就发现生物视觉通道是由一系列负责不同位置的感受野的细胞单元组成。如把图像输入到一个多层的二维阵列神经元,它们各自关注的是以自己为中心的一个邻近区域,称为感受野;每个神经元的输入只与自己的感受野相联,相邻的神经元的感受野可产生交叠;每一层神经元都以自己为中心的一个邻近区域和高一层的神经元相联,形成低层的细胞感受野比较小,高层的感受野逐渐增大的结构。70年代Fukushima提出了多层的模仿人的视觉的神经网络,它共分为6层,第1层的神经元直接和外界输入相连,它们的感受野尺寸比较小,只能获得图像的局部的特征,第2层神经元是和第1层的部分神经元相连,对输入图像而言,它关注的是更大尺寸的感受野,获得更大一些的局部特征,最后一层神经元可覆盖整个视野,从而最高层中每个神经元可代表视场中特定目标。该网络是用Hebb规则对神经元之间的联接权进行无监督学习,最后实现对目标的识别。Fukushima把这个神经网络用于对字母(A,B,C,D…)、数字和文字的识别,可做到平移不变,但因网络结构和学习算法比较复杂,学习时间长,同时,对略有变化的字体(如手写的字体)及尺度的变化的情况鲁棒性不好,80年代后期已很少有人应用。2002年Zhang N等人利用了Fukushima的多层交迭感受野的思想,提出一种叫SHM(Staggered Hierarchical Mapping)的多层网络,该网络权的学习是采用主元分析的(PCA)无监督学习方法,通过对输入视频图像的学习得到第一层到第二层的权,然后把输入图像在第一层的投影输出,再做主元分析得到第二层到第三层的权……该方法可从最顶层神经元的输出经多层的PCA的基恢复原图像,他们用两阶统计的方法学习神经网络的连接的权,改进了Fukushima网络在局部变化的鲁棒性,但因不同大小、不同位置的感受野输入的视频和图像完全不同,学习得到对应的特征向量也不同,这造成了即使相同的目标,在视野中经过尺度及平移变化后,在对应感受野上的神经元的输出却完全不同,用这些特征对目标进行识别,其效果不好,也无法进行视觉目标的注意力选择。本专利技术在上述方法的基础上提出一种模拟生物视觉多尺度交叠感受野的神经网络(neural network simulating multi-size overlapping receipt-field,NNSMOR),该网络在权的学习阶段采用多分辨率的视频场景,在不同分辨率的图像上交迭划出相同大小的图像子块作为神经网络的输入,能很容易完成多尺度感受野的功能。由于神经网络接受的子块图像的尺寸相同,在不同位置、不同大小感受野上所得到的PCA的基相同,解决了SHM存在的问题,又利用了PCA的统计学习权的鲁棒性,用这样的网络提取的特征,可以非常方便的对场景中的目标进行识别,不论图像中目标的大小、位置变化,都能进行跟踪和注意力选择。在学习中,我们采用了实时的PCA学习方法(CCIPCA),不需求协方差矩阵,具有很快的学习速度。提出的方法与有监督学习的分类方法结合,已应用到实时的计算机视觉的目标注意力选择和机器人导航中。下面介绍与本专利技术相关的一些概念1、CCIPCA算法对上节神经网络权的学习,使用一种自主地提取视觉信息的增量PCA方法,叫CCIPCA。一般的PCA方法需要对输入样本进行协方差矩阵的运算,则必须用批处理完成,它无法适应时刻变化的输入视频数据。而CCIPCA的增量PCA分析方法,能够对依次输入的样本增量计算其主元,而且学习速度可达到实时,通过迭代逐步收敛到待求的特征向量,和已有的增量PCA算法相比,具有更快的运算速度和更好的收敛效果,这里对该算法作简要的介绍设输入图像子块为列向量Xl,记为u′(j),j=1,2,…这里j为序号,当第p个矢量输入时,它的瞬时均值为m(p)=1pΣjpu′(j),]]>协方差矩阵为A(p)=1pΣj=1pT=1pΣj=1pu(j)u(j)T;---(1)]]>A(p)的第i个特征值和特征向量的计算公式为λixi(p)=A(p)xi(p),其中xi(p)为第p个矢量输入时的第i个特征向量,λi为对应的特征值。CCIPCA的迭代是对特征值和特征向量的乘积λixi进行的,设vi=λixi,利用式(1)可得vi(p)=1pΣj=1pu(j)u(j)Txi(p)---(2)]]>若通过迭代获得vi,可求得λi=‖vi‖,xi=vi/‖vi‖,这里的‖·‖为矢量的范数。把vi(p-1)/‖vi(p-1)‖近似为xi(p)代入(2)式,经变换可得CCIPCA的基本迭代式 vi(p)=p-1pvi(p-1)+1pu(p)u(p)Tvi(p-1)||vi(p-1)||;---(3)]]>其中(p-1)/p为上一步的迭代值vi(p-1)的权重,第2项的1/p相当于迭代的调整步长。u(p)作为第p幅新输入图像对迭代向量vi(p)的调整,在迭代中vi(p)逐步收敛,归一后求得第i个特征向量,即神经网络的权。对不同特征值对应的特征向量,都可用(3)式迭代,只是输入的图像子块u(p)不同。求最大的特征值对应的特征向量时,u(p)为直接采到的第p个图像子块(需要减瞬时均值)。在求第2、第3乃至更高维特征向量时,须作以下处理如已通过迭代得到第1个特征向量,先设u1(p)=u(p),并把u1(p)功投影到上一个已求到的特征向量上(现为第1个特征向量),求出残差图像u2(p),u2(p)便作为求第2个特征向量的输入;类似的,可以求出第3,4,…个特征向量,如下式所示ui+1(p)=ui(p)-uiT(p)vi(p)||vi(p)||vi(p)||vi(p)||;---(4)]]>因残差图像和上1个特征向量所恢复的图像正交,从而可求出所有相互正交的特征向量,另外,每输入1幅新的数据时,均值也要更新,对输入第p幅图像子块时的均值采用如下迭代式,m^(p)=p-1pm(p-1)+1pu′(p)---(5)]]>把上面的算法用到图3示的神经网络学习中,当一幅子图像输入,首先用式(5)和式(3)对第一个神经元的权进行更新,然后用式(4)返回到输入,用式(3)对第二个神经元的权进行更新,这个过程继续到最后一个神经元的权更新为止。当输入图像数n少于神经元数时,只需对前n个神经元的权进行更新。当只有一幅子图像输入时,就用该图像作为第一个神经元权的初值。在我们提出的NNSMOR上进行学习,对160×120分辨率的输入图像提取10个特征向量,可以达到60帧/s以上的处理速度,能快速的估算出高维图像向量的特征向量,而且能比较好地还原原始输入图像。经过NNSMOR学习后,测试阶段只需取输入图像在网络的权上(特征向量上)的投影值,便能很好的表示该幅图像的特征。2本文档来自技高网...

【技术保护点】
一种多尺度交叠感受野神经网络,记为NNSMOR,是模拟生物视觉多心度感受野结构的网络及模拟视觉认知过程的系统结构,其特征在于:对输入图像分层降采样,每层都用同样大小的交叠的图像子块获得对应区域的感受野的输入,达到在高层的神经元具有更大的感受野的效果;对于同一层不同位置的感受野,他们所覆盖的区域大小相同;在该网络中,所有感受野都按照一定方式排列,图像按层缩小,直到使用一块或者几块感受野可完全覆盖整幅图像为止;对于输入场景中的某一个目标,无论大小、位置如何,总能找到一组神经元使得它们对应的感受野可以近似地覆盖这个目标的区域;网络输入是从不同分辨率图像上得到的大小相同的图像子块,代表不同大小的感受野,通过学习希望得到的权是输入图像PCA的基,输出k个神经元为最大的k个PCA基上的投影,它代表了每个子块的特征。

【技术特征摘要】

【专利技术属性】
技术研发人员:高颖张立明
申请(专利权)人:复旦大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利