通过图像中固有的时变信息来分类对象制造技术

技术编号:2948383 阅读:160 留言:0更新日期:2012-04-11 18:40
一种用于对场景(204)中的对象进行分类的方法,该方法包括:    捕获场景(204)的视频数据;    定位视频数据的视频帧序列中的至少一个对象;    将视频帧序列中至少一个定位的对象输入进时延神经网络中;以及    基于时延神经网络的结果,将该至少一个对象分类。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术通常涉及计算机视觉,更具体而言,涉及通过图像中固有的时变信息来分类对象。通常,现有技术的识别和分类系统对静态或动态图像分别进行对象识别和分类。出于内容公开目的,对象分类将包括对象识别和/或分类。因此,现有技术的分类系统作用于处于视频序列中的静态图像或帧,以便对其中的对象进行分类。这些本领域已知的分类系统不采用视频图像中固有的时变信息,相反,它们试图通过每次识别一个帧上的对象来分类对象。尽管这些分类系统具有它们的优点,但是它们具有下列缺点(a)因为对每个帧独立地执行分类,所以丢失了跨越各帧的对象之间的任何联系;(b)由于因为独立对待每个帧,所以不再维持跨越各帧的象素相关性,从而分类系统的总体性能不再健壮;(c)由于图像中固有的噪声和照明度的变化,导致它们显示不出适度的衰减。在第29届Asilomar关于信号、系统和计算机的会议(AsilomarConference on Signals,Systems and Computers)上,Bruton等人的“Onthe Classification of Moving Objects in Image Sequences Using 3DAdaptive Recursive Tracking Fillters and Neural Networks”,已将通过繁忙十字路口的车辆轨迹分类。具体而言,该文章特别关注分类下列四类车辆轨迹-“车辆左转”、“车辆从左道并入直行”、“车辆右转”以及“车辆从右道并入直行”。用于实现此分类的策略如下(a)采用递归滤波器定位视频帧中的对象,(b)采用相同滤波器跟踪连续帧上的对象,(c)接着,从每帧中提取对象的形心和速率,(d)采用提取的速率并将其传给时延神经网络(TDNN),以获得静态速度的简档,以及(e)利用该静态速度简档,训练多层感知器(MLP)最终对这些轨迹进行分类。伴随该分类方案存在两个主要问题。现有技术采用滤波器,具体而言,采用带通滤波器来定位和跟踪对象。带通滤波器的参数以特设方式设置。然而,因为对于对象的定位和跟踪,没有考虑跨越各帧的象素的相互关联,所以这种系统的总体性能将由于跨越各帧的噪声的不一致而衰减。从而,对跨越一组帧的背景模型的学习提供了有效定位和跟踪感兴趣对象的一种替换方法。而且,因为在不同时间期间获取视频图像时,经常发生总是改变视频图像中照明度的这种情况,所以对模型的学习变得特别重要。其次,由于照明度的变化,速度计算不是有效率的。因此,神经网络本身的总体精度将很差。从而,本专利技术的目的在于提供对象分类的方法和设备,该对象分类克服了与现有技术有关的缺点。因此,提出了一种用于对场景中的对象进行分类的方法。该方法包括捕获场景的视频数据;定位视频数据的视频帧序列中的至少一个对象;将视频帧序列中至少一个定位的对象输入进时延神经网络中;以及基于时延神经网络的结果,将该至少一个对象分类。优选地,该定位包括在视频帧序列上实现背景扣除(backgroundsubtraction)。时延神经网络优选是Elman网络。Elman网络优选包括具有附加输入状态层的多层感知器(Multi-Layer Perception),其在先前的时间步从隐藏层接收激活(activation)的副本作为反馈。这种情况下,该分类包括遍历(traverse)状态层从而通过确定模型空间中匹配的状态数量来查明总标识(identity)。还提供一种用于对场景中的对象进行分类的设备,所述设备包括至少一个照相机,用于捕获场景的视频数据;检测系统,用于定位视频数据的视频帧序列中的至少一个对象,并将视频帧序列中至少一个定位的对象输入进时延神经网络中;以及处理器,用于基于时延神经网络的结果将该至少一个对象分类。优选地,检测系统对视频帧序列执行背景扣除。时延神经网络优选是Elman网络。Elman网络优选包括具有附加输入状态层的多层感知器,其在先前的时间步从隐藏层接收激活的副本作为反馈。这种情况下,通过遍历状态层,从而通过确定模型空间中匹配的状态数量,来查明总标识,处理器分类至少一个对象。还提供一种用于执行本专利技术的方法的计算机程序产品,以及一种用于在其中存储计算机程序产品的程序存储设备。对于下面描述、后附权利要求、以及附图,本专利技术设备及方法的这些和其它特征、方面及优点,将变得更好理解。其中附图说明图1例示本专利技术优选实施方法的流程图。图2例示用于执行本专利技术方法的系统的示意性说明。虽然本专利技术可应用于大量且不同类型的神经网络,但仍发现其在Elman神经网络的环境中尤为有用。因此,在本专利技术的应用性不局限于Elman神经网络的前提下,将在这种环境下描述本专利技术。与每次一帧来分类视频图像中的对象相反,本专利技术的方法在视频序列整体上进行标记。这通过利用时延神经网络(TDNN)来实现,例如Elman神经网络,通过查看过去和当前数据及它们固有的联系作出决定来学习分类。因此,本专利技术的方法能够通过基于视频序列进行学习而不是基于视频序列中离散的各帧进行学习,来识别/分类对象。而且,本专利技术方法直接将被跟踪的对象用作对TDNN的输入,来代替如上述现有技术中已经做到的从视频数据中提取特征量度。简言之,现有技术已采用TDNN,其输入是从被跟踪的对象中提取的特征。与现有技术相反,本专利技术的方法将被跟踪的对象本身输入给TDNN。现将参照图1描述现有技术的方法。图1示出了说明本专利技术方法优选实现的流程图,在此通常用参考数字100标注。本方法中,在步骤102,从至少一个照相机接收视频输入,该照相机从场景捕获视频图像。接着,在步骤104,用背景模型来定位并跟踪穿过照相机视野的视频图像中的对象。背景模拟以便跟踪和定位视频数据中的对象在本领域中已公知,例如在此其内容引入作为参考的Gutta等人撰写的题为“ClassificationOf Objects Through Model Ensembles”的美国专利申请NO.09/794,443;Elgammal等人2000年6月在爱尔兰都柏林的欧洲计算机视觉会议(European Conference on Computer Vision)(ECCV)2000上撰写的题为“Non-parametric Model for Backgroud Subtracton”;以及Raja等人1998年1月在中国香港第三届亚洲计算机视觉会议论文集(第1卷,第607-614页)中的“Segmentation and Tracking Using Colour MixtureModels”。如果在场景的视频数据中未定位移动的对象,则该方法沿着步骤106的“否”进行到“连续监视视频输入”的步骤102。如果在场景的视频数据中定位了移动的对象,则该方法沿着步骤106的“是”进行到“该定位的对象被直接输入至时延神经网络(TDNN)中,优选输入至Elman神经网络(ENN)”的步骤108。其优选实现方法是通过采用Elman神经网络。Elman网络把两个或更多视频帧当作输入,并优选把全部序列当作输入,而不是处理个别的各帧。基础假设是时变图像可被描述为时间相关状态的线性转换,通过状态矢量 给出x(t)→=Cs→(t本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:S·古特塔V·菲洛明M·特拉科维
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利