当前位置: 首页 > 专利查询>英特尔公司专利>正文

使用深度信息识别视频图像序列中的活动制造技术

技术编号:19878595 阅读:23 留言:0更新日期:2018-12-22 18:03
提供了用于识别包括深度信息的视频图像帧的序列中的活动的技术。体现这些技术的方法包括将每个接收的图像帧分割成多个窗口,以及,生成多个时空图像单元格,图像单元格来自所述帧的所选择的子序列的窗口的分组。该方法还包括计算每个图像单元格的每个像素的四维(4D)光流矢量,以及,计算每个光流矢量的三维(3D)角度表示。该方法进一步包括基于每个图像单元格中的像素的3D角度表示的柱状图来生成该图像单元格的分类特征。接着,将分类特征提供给识别分类器,识别分类器被配置成基于所生成的分类特征来识别视频序列中描绘的活动的类型。

【技术实现步骤摘要】
【国外来华专利技术】使用深度信息识别视频图像序列中的活动
技术介绍
识别图像序列或视频中描绘的活动的类型的能力常常是有用的,例如在监控应用、机器人应用、视频游戏中,或者作为更复杂的图像处理系统中的首要操作。不幸的是,由于照明、背景干扰、主体的姿势、视角等的变化,自动的活动识别是相对困难的计算问题。现有的方法常常采用词典学习或聚类方法并且趋于计算上昂贵的,需要长时间的分类训练和/或相对快的处理器。即使这样,这些方法并不趋于是稳健的,导致可能不可接受的活动识别精度。附图说明本专利或申请文件包含以彩色执行的至少一个附图。具有(一个或多个)彩色附图的本专利或专利申请公布的副本将在专利局收到请求并支付必要的费用之后来提供。随着以下详细描述的进行,以及在参考附图之后,所要求保护的主题的实施例的特征和优点将变得显而易见,其中相同的附图标记描绘相同的部分。图1是按照这里所公开的某些实施例配置的活动识别系统的实现的顶层框图。图2图示了按照这里所公开的某些实施例的人类活动的深度图像帧序列的示例。图3是按照这里所公开的某些实施例配置的活动识别系统的更详细的框图。图4图示了按照这里所公开的某些实施例的图像帧裁剪。图5图示了按照这里所公开的某些实施例的图像单元格。图6图示了按照这里所公开的某些实施例的2D光流矢量。图7图示了按照这里所公开的某些实施例的4D光流矢量的角表示。图8图示了按照这里所公开的某些实施例的基于柱状图的特征生成。图9是图示按照这里所公开的某些实施例的用于深度图像中的活动识别的方法的流程图。图10是示意性图示按照这里所公开的某些实施例的被配置为执行活动识别的系统平台的框图。虽然以下详细描述将参照说明性的实施例进行,但是,鉴于本公开内容,其众多替代、修改、以及变型将显而易见。具体实施方式一般地,本公开内容提供了用于识别包括深度信息的图像帧序列或视频中的人的动作或其他类型的活动的技术。这样的图像可以例如由提供色(红-绿-蓝或RGB)像素和深度像素的深度相机来生成。这样的图像可以被称为RGB-D图像。本文所描述的技术可以识别和分类不同类型的活动,诸如特定体育活动或表演任务等。所述识别基于区分不同类型的动作的基于运动的辨别特征。如下面将更详细地解释的,这样的运动信息被用于对在图像帧中描绘的动作的特征进行模拟并且多维光流矢量用于按照每个像素的水平来描述此运动。按照一个实施例,用于活动识别的技术可以包括:接收描绘某一活动的性能的深度图像帧的序列。图像帧的集合被划分为多个时空图像单元格。每个单元格包括来自连续帧的一组空间区域。如将在下面解释的,四维(4D)光流矢量接着计算每个单元格中的每个像素并且将4D光流矢量转换为三维(3D)角度表示。针对每个单元格生成柱状图,以基于所计算的每个像素的角度表示来将此单元格中的像素的幅度累积到与不同的角度范围相关联的长柱中。将从每个单元格所得到的柱状图用作用于活动识别分类器的特征。本文所描述的技术可以允许减少计算开销,包括更有效的分类器训练和操作,相比于现有的方法,给定来自光流的特征的直接计算消除了对传统的词典学习或聚类方法的需求。另外,这些技术不需要特殊的相机校准过程,并且能够以任意期望的平台来实现,包括例如,移动设备,诸如平板电脑或智能手机,其包括深度相机或者能够从深度相机接收图像。这些技术可以进一步在硬件或软件或其组合中实现。图1是按照这里所公开的某些实施例配置的活动识别系统的实现的顶层框图100。深度相机104被配置为生成场景102的RGB-D图像帧106的序列。帧的序列提供该场景的临时表示并且在本文中可以被称为视频序列。场景可以包括任意主题,并且可以描绘执行某一类型的活动的人类(或其他主体),诸如,例如,执行任务或进行运动。将一个或多个RGB-D图像帧106提供给活动识别系统108,该活动识别系统108的操作将在下面更详细地描述,并且,生成识别结果110。识别结果可以通过显示元件112或其它合适的机构来呈现给用户或系统操作员。图2图示了按照这里所公开的某些实施例的人类活动的深度图像帧的序列的示例。在顶部的图示202中,深度图像帧的序列(从左到右)描绘了执行绘画活动的人类,例如使用记号笔在黑板上绘画。在底部的图示204中,深度图像帧的序列(再次从左到右)描绘了打网球的人类,例如发网球。图3是按照这里所公开的某些实施例配置的活动识别系统108的更详细的框图。活动识别系统108被示为包括裁剪和对齐电路302、单元格生成电路304、两维(2D)光流计算电路306、三和四维(3D/4D)光流计算电路308、角度计算电路310、单元格特征计算电路312、识别分类器电路314、以及分类器训练电路316。深度图像帧的序列可以通过深度相机或其它源来提供。帧包括颜色(例如,RGB)像素和深度像素。裁剪和对齐电路302可以被配置成检测在每个所接收的RGB-D帧中感兴趣的主题以及裁剪围绕该主题的那些帧,以消除与活动不相关的背景景物。按照本公开,感兴趣的对象可以使用已知技术来检测。例如,图4中图示了裁剪操作,其中接收到的帧402被示为挨着被裁剪的帧404。在某些实施例中,裁剪和对齐电路302还可以被配置成在空间上将每个裁剪帧彼此对齐,以促进以下描述的单元格生成电路来其进行分组。单元格生成电路304可以被配置成从一系列的被裁剪的图像帧中生成时空图像单元格,也被称为图像立方体。这在图5中图示,其中以堆叠的形式示出一系列的图像帧502,一个在另一个后面。该系列代表了图像帧的时间序列。每个帧在空间上被分割成具有所选择的大小的多个窗口506,例如nx列像素×ny行像素。时空图像单元格504通过对多个窗口506(nt个)进行分组来生成,从连续帧502到单元格。因而,单元格包括连续帧的所选择的窗口子序列。该组中的每一个窗口代表相同(或类似)的空间区域的连续的时间快照。所得到的时空图像立方体因而可以包括nx列像素*ny行像素*nt个帧。二维(2D)光流计算电路306可以被配置成计算图像单元格504中的每个像素的2D光流矢量(u,v)。矢量代表一个帧与下一帧之间的像素的2D运动或位移(在帧窗口的x,y方向或平面中)。这例如在图6中图示,图6示出了不同时间的两个帧:顶部行中的帧1602和底部行中的帧N604。对于每个帧,示出了左侧的深度图像606和右侧的相应的2D光流矢量608。矢量,描绘为红色箭头,代表该帧与下一连续的帧之间的所估计的像素位移(例如,顶部的帧1与2之间,以及底部的帧N与N+1之间)。2D矢量的计算基于应用到图像单元格的像素上的组合的局部-全局能量最小化函数。在某些实施例中,能量最小化函数采用全局Horn-Schunck技术和局部Lucas-Kanade技术的组合。此外,为了提高最小化函数的计算效率,可以使用精到粗的层次来采用Bruhn多网格技术。在某些实施例中,按照本公开,可以采用其他已知的技术。三维和四维(3D/4D)光流计算电路308可以被配置成基于连续帧中相应的像素之间的所计算的位移来添加第三维(q)到2D光流矢量,以生成3D矢量(u,v,q)。第三维(q分量)特别是使用涉及沿着深度轴的运动的动作来编码沿着深度像素的动作,这可以改善识别准确性。例如,拳击运动可以包括沿深度轴的显著动作,而相比之下,在白板上书写本文档来自技高网...

【技术保护点】
1.一种用于深度相机生成的图像中的活动识别的处理器实现的方法,该方法包括:由处理器接收深度图像帧的序列,深度图像帧包括多个像素;由处理器将每个帧分割成多个窗口;由处理器生成多个时空图像单元格,图像单元格包括:来自所述帧的所选择的子序列的窗口的分组;由处理器计算每个图像单元格的每个像素的四维(4D)光流矢量;由处理器计算每个光流矢量的三维(3D)角度表示;由处理器基于3D角度表示的柱状图来生成每个图像单元格的分类特征;以及,由处理器执行识别分类器以基于分类特征来识别活动。

【技术特征摘要】
【国外来华专利技术】1.一种用于深度相机生成的图像中的活动识别的处理器实现的方法,该方法包括:由处理器接收深度图像帧的序列,深度图像帧包括多个像素;由处理器将每个帧分割成多个窗口;由处理器生成多个时空图像单元格,图像单元格包括:来自所述帧的所选择的子序列的窗口的分组;由处理器计算每个图像单元格的每个像素的四维(4D)光流矢量;由处理器计算每个光流矢量的三维(3D)角度表示;由处理器基于3D角度表示的柱状图来生成每个图像单元格的分类特征;以及,由处理器执行识别分类器以基于分类特征来识别活动。2.如权利要求1的方法,进一步包括:检测每帧中的感兴趣的主题并且关于感兴趣的主题来裁剪该帧。3.如权利要求2的方法,进一步包括:使得每个裁剪后的帧相对于另一裁剪后的帧在空间上对齐。4.如权利要求1或2的方法,其中计算4D光流矢量进一步包括:基于施加到图像单元格的像素上的组合的局部-全局能量最小化函数来计算二维(2D)光流矢量;基于所计算的连续帧中的相应的像素之间的差来将第三维添加到2D光流矢量;以及将第四维添加到2D光流矢量,第四维包括预先确定的标量值。5.如权利要求1的方法,其中分类特征的生成进一步包括:将柱状图与3D角度表示的每个维度相关联,该柱状图包括与多个角度范围中的每一个相对应的长柱;基于与每个长柱相关联的图像单元格中的每个像素的幅度来增加所述长柱;归一化柱状图;以及,串联柱状图以生成分类特征。6.如权利要求5的方法,其中,柱状图长柱的数量在5至9个长柱的范围。7.如权利要求1或2的方法,其中,识别分类器是支持矢量机(SVM)分类器。8.如权利要求1或2的方法,进一步包括训练识别分类器,训练包括:接收对应于已知的活动的训练深度图像帧的序列;生成训练帧的每个图像单元格的分类特征;以及,提供分类特征和与已知的活动相关联的标签到识别分类器以用于训练。9.一种用于深度相机生成的图像中的活动的识别的系统,该系统包括:单元格生成电路,用于:接收深度图像帧的序列,深度图像帧包括多个像素;将每个帧分割成多个窗口;以及,生成多个时空图像单元格,图像单元格包括来自所述帧的所选择的子序列的窗口的分组;光流计算电路,用于;计算每个图像单元格的每个像素的四维(4D)光流矢量;角度计算电路,用于计算每个光流矢量的三维(3D)角度表示;单元格特征计算电路,用于基于3D角度表示的柱状图来生成每个图像单元格的分类特征;以及,识别分类器电路,用于基于分类特征来识别活动。10.如权利要求9的系统,进一步包括:裁剪和对齐电路,用于检测每帧的感兴趣的主题并且关于感兴趣的主题而裁剪该帧。11.如权利要求10的系统,其中,裁剪和对齐电路进一步用于使得每个裁剪后的帧相对于另一裁剪后的帧在空间上对齐。12.如权利要求9或10的系统,其中,光流计算电路进一步包括:2D光流计算电路,用于基于施加到图像单元格的像素上的组合的局部-全局能量最小化函数来计算二维(2D)光流矢量;以及,3D/4D光流计算电...

【专利技术属性】
技术研发人员:唐绍鹏姚安邦陈玉荣
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1