通过实时视频动作分析理解视频内容制造技术

技术编号:2946475 阅读:233 留言:0更新日期:2012-04-11 18:40
描述了一种用于相机运动分析和移动对象分析的方法和集成系统,和主要从没有镜头变化的视频和视频段中的相机运动参数提取语义的方法。这样的视频的典型例子是由数码相机拍摄的家庭视频和专业视频或电影的一个片段或剪辑。提取的语义能够直接地用于多个对视频/图像的理解和管理应用中,例如评注、浏览、编辑、帧增强、关键帧提取、全景生成、打印、检索、汇总。还描述了不依赖于对象的先验知识的检测和跟踪运动对象的自动方法。此方法能够实时地执行。

【技术实现步骤摘要】
【国外来华专利技术】背景视频运动分析,包括相机运动分析和对象运动分析,是理解视频内容的重要部分,并且,内容理解在许多多媒体系统(包括个人计算机PC,数字娱乐系统,相机和甚至打印机)中的视频浏览、检索、编辑、打印等之中扮演着十分重要的角色。目前,打印机适于表现平面(二维)的媒体内容,诸如文档和图像,但视频打印尚属劳动密集型问题,因为三维(3-D)信号(也就是两个空间维度和一个时间维度),视频包括更多具有相当大量的冗余的信息,这些不能被诸如纸张的静态媒体简单地表现出来。视频打印的一个方法是从视频剪辑(video clip)中选择关键帧,并打印这些选中的关键帧。不幸的是,关键帧提取的任务不是微不足道地自动完成的,因为,选取具有最大语义含义的关键帧是困难的计算机视觉和人工智能问题。问题的解决受到限制,因为通常能够令人接受的是仅打印合理数目的关键帧。关键帧可以通过对低层次的内容特征(例如,颜色、纹理、运动等)的分析来进行抽取。现有的运动分析和内容理解的方法不能够一般性地满足所有类型的视频(例如,家庭视频和专业视频,短视频剪辑和长视频记录等),或者对于普通处理系统(诸如PC和类似相机的嵌入系统)来说太慢。现有方法通常设计用于专用任务,例如,跟踪人的运动(利用已知面部模型)或者车的运动(利用预定义的汽车模型),并且,具有相应的简化和有限的能力。
技术实现思路
在一个方面,本专利技术是估计在连续图像对之间的相机运动的方法,包括从该对连续图像确定运动向量,和基于运动向量估计相机运动的仿射模型。运动向量的确定包括将该对连续图像之一分割为多个像素块;选择对应图像中至少一个特征的块;确定对应于各所选块的亮度值;基于亮度值,将所选的块与该对连续图像中另一个图像中的像素块进行匹配;并且确定与该对连续图像中的匹配块相关联的运动向量。估计出的仿射模型确定相机运动参数集合。在本专利技术另一个方面,将相机运动参数转换为语义含义的方法包括从由相机捕获的连续图像对确定运动向量;通过基于运动向量估计仿射模型来确定相应的相机运动参数集合;并且从相机运动参数集合生成语义含义。通过将相机运动参数集合量化为多个幅度和方向;和通过识别被量化为基本相同的幅度和方向的连续的相机运动参数集合,从量化的集合生成至少一个句子,来生成语义含义。在本专利技术的又一方面,在被相机捕获的图像中检测对象的方法包括从连续图像对确定运动向量;基于运动向量估计仿射模型;根据运动向量与仿射模型估计,计算连续图像对中的相应像素块的残差;并基于该残差检测对象。在本专利技术的再一方面,用于视频运动理解的设备包括相机运动估计器,它包括使用亮度图像用于光流分析以便从连续图像对中的像素块生成运动向量的光流分析器,和基于运动向量生成仿射模型估计的仿射模型估计器;和对象检测器,其基于仿射模型估计确定块的残差,基于残差消除局外(outlier)块,对留下的块进行滤波,其中,对象检测器生成识别对象大小和位置的边界框。附图说明结合在说明书中并构成说明书一部分的附图,举例说明本专利技术的实施例,并且和说明一起解释本专利技术。在附图中,图1描述用于运动估计的块匹配的实施例;图2描述三步搜索算法的实施例;图3描述相机运动的模型;图4是依照本专利技术实施例的估计相机运动的方法的流程图;图5示出用于视频帧序列的仿射模型参数;图6A,6B,6C描述量化为具有滞后阈值的幅度级别和方向的相机运动量化;图7描述句子和段落的生成的实施例;图8是依照本专利技术实施例将相机运动参数转换为语义含义的方法的流程图;图9是用于检测对象的设备的实施例的框图; 图10A描述快速扩散(flooding)算法的实施例;图10B描述边界框;图11是依照本专利技术实施例的对象检测方法的流程图;图12描述对象区域被划分为边际部分和中央部分;和图13是依照本专利技术一个实施例的用于视频运动理解的设备的框图。具体实施例方式参考附图对本专利技术相关的实施进行描述。在不同的图中,相同的参考数字表示相同或者相似的元件。下文的详细的描述不对本专利技术进行限制。作为替代,本专利技术的范围由随附的权利要求进行定义。描述了用于相机运动分析和运动对象分析的集成系统,和主要从没有镜头转换的视频和视频剪辑中的相机运动参数提取语义的方法。这些视频的典型例子是由数码相机拍摄的家用视频和专业视频或电影的片段和剪辑。提取出的语义能够直接用于对视频/图像的多种理解和管理应用,诸如注释、浏览、编辑、帧增强、关键帧提取、全景生成、打印、检索、汇总。还描述了不依赖于对象的先验知识的、检测运动对象的完全自动的方法。而且,描述了加速处理的措施使得这些方法能够实时执行。依照本专利技术一个实施例的实时视频语义分析使用运动信息,基于计算机视觉和统计模式识别的知识来理解视频内容。一般来说,一种分析包括至少两个部分全局/相机运动估计,和前景/对象运动分析。相机运动估计涉及光流分析、相机运动估计和语义含义提取,语义含义提取进行相机运动量化、句子生成和段落生成。相机运动估计将相机运动的仿射模型表示转换为语义表示。对象运动分析涉及不需要对象先验知识的对象检测和跟踪。为了得到快速和鲁棒的实现,相机运动估计可以包括加速的块选择和块匹配,并且对象跟踪可以使用空间信息增强的彩色柱状图。因此,可以基于相机运动分析将输入的帧或者图像序列有效划分为组块(chunk),并且可以用便利的方式为这些组块加索引,例如,从0.1秒到2.0秒,相机具有快速的移向目标的运动;从2.0秒到5.0秒,相机焦距固定,等等。随后,检测该组块中的对象,并跟踪对象的运动,使得每个视频帧进一步由运动对象的参数(例如,位置和大小)来索引。对比以前的系统和方法,本专利技术的系统和方法能够利用容易得到的处理器完成实时的操作。相机运动估计相机(全局)运动指的是由诸如镜头拉近推远(zooming)、摇动(paning)和旋转(rotation)的相机操作导致的运动。物理的相机运动通常是在两个连续帧之间适度的和时间连续的变化。这个效应可以被观测为依照由相机运动定义的仿射变换的、全帧范围内良好调节的光流变化。在实时视频中,这个情况会由于前景运动和其他信号噪声而多少受到损害。相机运动估计基于观测到的噪声光流行为而发现相机运动仿射模型。一般来说,这包括光流分析和仿射模型估计。光流分析光流分析涉及帧到帧的运动向量的确定或者运动估计。用于运动估计的基本方法是块匹配。如图1所述,在第k帧中位于位置(m,n)的具有像素维数(W,H)的块与第k-1帧中偏移了运动向量(i,j)的块之间的强度差能够由下式指示Ek,m,n(i,j)=1W·HΣx1=mW+mΣx2=nH+ne(Ik(x1,x2),Ik-1(x1+i,x2+j))---Eq.1]]>其中,I通常是像素的亮度。误差度量E(i,j)可以是方差e(Ik,Ik-1)的和,或者绝对误差e(Ik,Ik-1)的和,后者具有较小的计算代价。与块相关的运动向量被认为是依照下式在搜索范围(M,N)内获得最小失真(distortion)的向量V(k,m,n)=argmini,j{Ek,m,n(i,j)},0≤|i|≤M,0≤|j|≤N---Eq.2]]>一个便利的搜索本文档来自技高网...

【技术保护点】
一种在连续图像对之间估计相机运动的方法,包括如下步骤:从连续图像对确定运动向量由如下步骤完成:将连续图像对中的一个图像分割成多个像素块(702);选择对应于图像中至少一个特征的块(704);确定对应于相应的选 中的块的亮度值(706);基于亮度值将选中的块与连续图像对儿中另外一个图像中的像素块进行匹配(708);并且确定关联连续图像对中的匹配块的运动向量(710);并且,基于运动向量估计相机运动的仿射模型,其中,估计出的仿 射模型确定相机运动参数的集合(712)。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:T张Y王DR特雷特
申请(专利权)人:惠普开发有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1