检测视频图像中的目标的方法和装置制造方法及图纸

技术编号:4126011 阅读:205 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了检测视频图像中的目标的方法和装置。所述方法包括:对包含目标帧的多帧图像分别进行检测,以得到一个或多个第一候选目标及其置信度;及对所述多帧图像中的第一候选目标及其置信度进行合并,得到目标帧中的一个或多个第二候选目标。

【技术实现步骤摘要】

本专利技术涉及图像处理技术,具体地,涉及一种检测视频图像中的目标的方法和装置
技术介绍
图像中的物体检测技术是计算机视觉的一个重要分支。同一类物体之间存在或多 或少的外形上的差异,在成像时受到光照、视角、姿态等多重因素的影响在图像中可能产生 出截然不同的状态,这给图像中的物体检测技术带来很大困难。视频图像中的物体检测技术又有其自身的特点,一般来说视频图像的图像质量要 差许多,分辨率低、存在运动模糊、噪点显著等,给目标检测带来了新的困难。当目标的检测 和分类在视频图像中进行时,由于图像质量的下降和运动模糊等噪声的存在,处理性能会 有较大下降。
技术实现思路
在下文中给出关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理 解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关 键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念, 以此作为稍后论述的更详细描述的前序。根据本专利技术的一个方面,提供了一种检测视频图像中的目标的方法,所述方法包 括帧检测步骤对包含目标帧的多帧图像分别进行检测,以得到一个或多个第一候选目 标及其置信度;及合并步骤对所述多帧图像中的第一候选目标及其置信度进行合并,得 到目标帧中的一个或多个第二候选目标。根据本专利技术的另一方面,提供了一种检测视频图像中的目标的装置,该装置包括 目标检测与分类器,用于对视频序列中包括目标帧的多帧图像进行检测,以得到一个或多 个第一候选目标及其置信度;以及合并模块,用于对所述多帧图像中的第一候选目标的置 信度进行合并,以得到目标帧中的一个或多个第二候选目标。另外,本专利技术的实施例还提供了用于实现上述检测视频图像中的目标的方法的计 算机程序。此外,本专利技术的实施例还提供了至少计算机可读介质形式的计算机程序产品,其 上记录有用于实现上述检测视频图像中的目标的方法的计算机程序代码。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其 它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。图1-6分别是示出了根据本专利技术实施例的检测视频图像中的目标的方法的示意性流程图;图7和图8是示出了检测视频图像中的目标的方法的一个应用示例的流程图;图9-13分别是示出了根据本专利技术实施例的检测视频图像中的目标的装置的示意 性框图;图14是示出了根据本专利技术一个实施例的目标检测与分类器的结构的示意性框 图;图15是示出了目标检测与分类器的一个应用示例的示意性框图;及图16是示出用于实现本专利技术的计算机的结构的示例性框图。具体实施例方式下面参照附图来说明本专利技术的实施例。在本专利技术的一个附图或一种实施方式中描 述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应 当注意,为了清楚的目的,附图和说明中省略了与本专利技术无关的、本领域普通技术人员已知 的部件和处理的表示和描述。图1是示出了根据本专利技术的一个实施例的检测视频图像中的目标的方法的示意 流程图。如图1所示,该方法可包括下文所述的步骤SlOl和S103。步骤SlOl用于对多帧图像进行检测,也称为帧检测步骤。具体而言,在该步骤中, 在获取要检测的视频图像序列中的包括目标帧的多帧图像后,对多帧图像分别进行检测, 得到一个或多个候选目标(为了叙述方便,下文中称为第一候选目标)及其置信度。在步骤S103中,将在步骤SlOl中检测到的所述多帧图像中的第一候选目标及其 置信度进行合并,从而得到目标帧中的一个或多个候选目标(为了叙述方便,下文中称为 第二候选目标)。步骤S103也称为合并步骤。所获取的多帧图像可以是在时间上连续的,也可以是在时间上不连续的。为了方 便叙述,假设对视频序列中的P帧图像Image0, ... , Imagei,... , Imagep^1分别进行处理,其 中Imagei为目标帧,P为整数且P > 1,i = 0,· · ·,P-1。例如,可以利用目标帧Imagei之前的 多帧图像ImageH,Image^2,· · ·,也可以利用该帧之后的多帧图像Imagei+1,Imagei+2,· · ·, 还可以利用该帧前后的多帧图像... ,Image^2, Image^1, Imagei+1, Imagei+2, · · ·。选取的图 像帧数也可以根据实际应用而定。应理解,本专利技术不应被视为局限于任何具体的实施例或 示例。还应理解,可以采用目标检测与分类器对图像进行检测。所述目标检测与分类器 可以采用任何适当的技术来实现,这里省略对它的描述。作为一个示例,检测得到的候选目标的信息可以包括各候选目标在每帧图像中的 位置、尺寸和置信度等。在一个示例中,目标检测与分类器在对输入的图像样本进行处理后 可以输出响应值,例如,所述响应值可以是一个0到1之间的数,当然,也可以是其他数值。 根据所述响应值,可以确定相应的置信度的值。可以采用任何适当的方法、利用所述响应值 来确定目标或候选目标的置信度,这里不再赘述。在一个示例中,所采用的目标检测与分类器可以用固定尺寸的图像样本作为输 入。在该情况下,输入到目标检测与分类器且可为目标检测与分类器接受的图像样本在原图像中的位置及其尺寸即可作为输出的候选目标在原图像中的位置及尺寸。在一个示例中,将检测到的所述多帧图像中的第一候选目标及其置信度进行合并 的步骤可以包括根据在步骤SlOl中所检测到的第一候选目标在各帧图像中的位置和尺 寸,将各图像中位置相邻、尺寸相近的候选目标的置信度合并。在本文所描述的各实施例和/或示例中,所述目标或者候选目标可以是静止目 标,也可以是运动目标。在运动目标的情况下,同一目标在多个图像帧中的位置和尺寸是 变化的。例如,当目标由远及近时,其在按时间顺序排列的各图像中的尺寸会越来越大,而 所检测到的其在各图像中位置也会根据其运动方向而变化;反之亦然。在静止目标的情况 下,在对包括该静止目标的多帧图像进行检测时,由于图像质量等因素,也可能导致检测到 的位置在各种图像中略有不同。在本文所描述的各实施例和/或示例中,所谓的“位置相邻尺寸相近”是指在各帧 图像中检测到的候选目标所对应的区域具有相邻的中心位置和大小相近的尺寸。例如,中 心位置相邻可以指各中心位置相差一个或多个像素,本领域的技术人员可以理解,像素数 可以根据实际需要检测的目标状态(如运动速度、方向等)而定。这里不一一列举。又如, 尺寸相近可以指尺寸相差一个或多个像素。本领域的技术人员可以理解,这里相差的像素 数可以根据实际需要检测的目标状态(如目标大小、运动速度等)而定。这里不一一列举。 作为一个例子,取决于应用的场景,例如可以先验地知晓对象的可能路径和可能速度,则可 以据此设定相邻帧之间视为同一目标的候选目标的中心位置和尺寸变化的范围。在一个示例中,还可以根据步骤S103中的合并结果来确定在目标帧(如图像 Imagei)中是否存在目标。例如,如果合并结果大于或等于某一预定的阈值(称为第一阈 值),则确定在图像Imagei的相应位置上存在目标;否则,则确定在图像Imagei的相应位置 上不存在目标。在某些情况下,P帧图像中的某些帧图像中本文档来自技高网...

【技术保护点】
一种检测视频图像中的目标的方法,包括:帧检测步骤:对包含目标帧的多帧图像分别进行检测,以得到一个或多个第一候选目标及其置信度;及合并步骤:对所述多帧图像中的第一候选目标及其置信度进行合并,得到目标帧中的一个或多个第二候选目标。

【技术特征摘要】
一种检测视频图像中的目标的方法,包括帧检测步骤对包含目标帧的多帧图像分别进行检测,以得到一个或多个第一候选目标及其置信度;及合并步骤对所述多帧图像中的第一候选目标及其置信度进行合并,得到目标帧中的一个或多个第二候选目标。2.如权利要求1所述的方法,其中,所述帧检测步骤包括第一遍历步骤利用第一窗口以第一步长对所述多帧图像中的每帧图像进行遍历,对 每个窗口图像进行检测以得到一个或者多个第三候选目标及其置信度;第一遍历结果合并步骤将位置相邻、尺寸相近的第三候选目标及其置信度合并,以得 到所述第一候选目标及其置信度。3.如权利要求2所述的方法,其中,所述帧检测步骤还包括关注区域建立步骤根据所述第一遍历结果合并步骤的结果,建立一个或多个关注区 域,每个关注区域覆盖相应的第三候选目标;第二遍历步骤利用第二窗口以第二步长对每个关注区域进行遍历,对每个窗口图像 进行检测以得到一个或者多个第四候选目标及其置信度;第二遍历结果合并步骤将位置相邻、尺寸相近的第三候选目标和第四候选目标及其 置信度合并,以得到所述第一候选目标及其置信度。4.如权利要求2所述的方法,其中,所述第一遍历步骤包括帧金字塔建立步骤建立每帧图像的多尺度金字塔图像,该多尺度金字塔图像包括K 层,K> 1 ;第三遍历步骤,利用所述第一窗口以所述第一步长对所述金字塔图像中的每个进行遍 历,对每个窗口图像进行检测以得到一个或者多个第三候选目标及其置信度。5.如权利要求4所述的方法,其中所述第三遍历步骤是从所述金字塔图像中最小尺寸的图像开始处理的,并且还包括掩模建立步骤基于对第一到第N金字塔图像的检测结果而建立一个或多个目标掩 模,每个目标掩模对应于相应的第三候选目标,其中,在对其余K-N个图像进行处理时,不对所述K-N个图像中与各目标掩模对应的区 域进行遍历,其中1<Ν<Κ。6.如权利要求3所述的方法,其中所述关注区域建立步骤之后,所述方法还包括建立每个关注区域的多尺度金字塔图像,所述第二遍历步骤包括利用所述第二窗口以所述第二步长对每个关注区域的金字塔 图像进行遍历,对每个窗口图像进行检测以得到一个或者多个第四候选目标及其置信度。7.如权利要求1所述的方法,其中,所述合并步骤包括将所述多帧图像中的位置相邻 尺寸相近的第一候选目标的置信度合并。8.如权利要求7所述的方法,其中,将所述多帧图像中位置相邻尺寸相近的第一候选 目标的置信度合并包括对所述多帧图像中的位置相邻尺寸相近的第一候选目标的置信度 求和或平均值,或者对所述多帧图像中的位置相邻尺寸相近的第一候选目标的置信度进行 归一化并对归一化后的置信度求和或求平均值。9.如权利要求1所述的方法,其中,所述帧检测步骤是利用包括多个子分类器的目标 检测和分类器进行的,每个子分类器能够检测一类目标。10.如权利要求9所述的方法,还包括根据输出最大置信度的子分类器所对应的类 别,来确定目标的类别。11.一种检测视频图像中的目标的装置,包括目标检测与分类器,用于对视频序列中包括目标帧的多帧图像进行检测,以得到一个 或多个第一候选目标及其置信度;合并模块,用于对所述多帧图像中的第一候选目标的置信度进行合并,以得到目标帧 中的一个或多个第...

【专利技术属性】
技术研发人员:梅树起吴伟国
申请(专利权)人:索尼株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1