一种通过分析深度进行视频场景分层的方法技术

技术编号:4076196 阅读:198 留言:0更新日期:2012-04-11 18:40
一种通过分析深度进行视频场景分层的方法,主要实现手持相机拍摄视频中不同深度层下的物体提取,步骤为:(1)对视频帧进行自适应采样,抽取视频帧中的关键帧;(2)对关键帧进行过分割并获取关键帧的深度图,以过分割块为结点构建关键帧的无向带权图;(3)建立相邻关键帧间的结点匹配权图;(4)依次对关键帧中的过分割块进行合并,并将合并结果传递给邻居关键帧,实现关键帧的同步分层;(5)获取原始视频帧的深度信息,将关键帧的分层结果传递给中间帧并优化分层结果。本方法可以有效的全自动的实现手持相机拍摄视频的场景分层,提高视频场景分层的精度和速度。

【技术实现步骤摘要】

本专利技术属于视频场景分层
,具体的说是基于深度信息对手持相机拍摄视 频进行场景分层,从而获取视频中不同深度层下各个物体的掩码序列,用于视频场景理解 和基于内容的视频压缩等领域。
技术介绍
视频场景分层的目的是从视频中分解出不同的场景层,具有重要的理论意义和应 用价值。在理论意义上,分解出视频层有助于基于视频的场景理解,或构建2. 5维场景模 型,或实现基于内容的视频压缩,或完成新视频的合成制作;在应用价值上,视频场景分层 功能是视频编辑软件的理论基础,从视频中抽取的前景物体可组建出对象库,方便各种虚 实混合项目的应用等。视频场景分层是对每个视频帧进行0-1标注或者多标注的问题。相比于图像分 割而言,视频场景分层要满足时空一致性,视频的时空信息包括光流场和深度图,光流场记 录了视频帧中像素的运动向量,深度图记录了视频帧中像素的深度值,在多视图几何理论 下,深度值就等同于视频帧间像素的匹配关系。在本专利技术前,文献1-S. Khan and Μ. Shah, Object Based Segmentation of Video Using Color,Motion and Spatial Information, Proceedings of Computer Vision and Pattern Recognition,2001 提出一禾中基于光流 场对视频进行场景分层的方法,首先提取视频帧的光流场,然后对起始帧进行分层,最后, 最大化一个融合光流信息、颜色信息的贝叶斯模型得到模型参数,从而实现后续帧的分层, 但该方法存在很多噪声点,特别是遮挡边缘处,主要原因是遮挡处的光流信息不稳定。文 献 2-J. Xiao and Μ. Shah, Motion Layer Extraction in the Presence of Occlusion using Graph Cut, Proceeding of Computer Vision and Pattern Recognition,2004 提 出了一种利用种子点扩散对视频进行场景分层的方法,该方法假设场景是有多个平面空间 组成的,首先,在两个视频帧间找一些种子点区域,其次,这些种子点区域通过层次集和图 割算法不断地扩展和求解,然后,根据运动相似性融合成几个初始层,最后,由一个马尔科 夫模型获取鲁棒的运动层,由于该方法仅用到了运动深度信息,没有考虑颜色纹理信息,因 此分解的场景层不精细,不能实现同一深度层上不同物体的分层。文献3-N. ApostolofT and A. Fitzgibbon,Automatic Video Segmentation using Spatiotemporal T-junction, Proceeding of British Machine Vision Conference,2007 提出了一种基于时空 T-结点 的视频场景分层方法,该方法将视频看成一个带有时间轴的三维空间X-Y-T,其中的T为时 间轴,X,Y分别为视频帧的纵横轴,用监督学习法在X-T切片中找T-结点,即遮挡边缘点, 然后根据遮挡边缘点分离前景和背景层,该方法也不能分离同一深度层上的不同物体,并 且难以实现复杂边缘的分层,例如树杈。类似的,文献4-A. N. Stein, Τ. S. Stepletion and Μ. Hebert, Towards Unsupervised Whole-Object Segmentation-Combining Automatic Matting with Boundary Detection, Proceeding of Computer Vision and Pattern Recognition,2008提出一种基于遮挡边缘的多前景物体的分层,首先实现视频帧中遮挡边4缘的检测,然后在每段遮挡边缘两侧用抠图技术分离前景和背景,并在序列图中构建出一 个对称相似矩阵,分解该矩阵的主特征完成了前景物体的抽取,由于该方法也基于遮挡边 缘实现的前景物体的提取,因此也难以完成分离同一深度层上的不同物体,此外,该方法局 限于短基线视频下的场景分层。文献5-P. Bhat,et al.,Piecewise Image Registration in the Presence of Multiple Large Motion,, Proceeding of Computer Vision and Pattern Recognition, 2006实现了宽基线的视频场景分层,该方法假设场景模型都是平面 物体,首先提取图像中的稀疏特征点,根据对极点完成局部空间聚类,进而获取平面运动模 型,然后用一个多标识的马尔科夫模型优化标注每个像素,但该方法分层出的场景模型的 边缘区域不精细。此外,中国专禾Ij “基于H.264压缩域运动对象实时分割方法”,申请号为 200610116363,该专利从H. 264视频提取出的基于4X4块均勻采样的运动矢量场,将该矢 量场作为运动向量,然后采用快速的统计区域生长算法按照运动相似性将其分层成多个区 域,该方法同样仅仅用运动信息进行分层,难于实现同一运动场下多物体的分层。美国专利 Automatic Video Image Segmentation”,申请号为US 2010/0046830 Al,该专利首先在用 户交互下分层出关键帧中的前景物体,然后将分层结果传递给后续帧中,该方法可以鲁棒 的完成视频中前景物体的提取,但要对整个视频进行分层,用户需要在初始帧中手动分离 开各个场景层,因此操纵复杂,另外,由于该技术通过跟踪边缘完成后续帧中前景分层,因 此难于实现受遮挡背景层的分层。
技术实现思路
本专利技术为了克服现有技术的不足,提出一种通过分析深度进行视频场景分层的方 法。该方法同时考虑了场景点的深度信息和颜色信息,可全自动的实现手持相机拍摄视频 场景分层的目的,提高场景分层的精度。另外,相比于固定采样的、以像素点为计算单元的 方法,该方法自适应的选取关键帧,并且以过分割块为计算单元来分割关键帧,因此提高了计算效率。为了取得上述技术效果,本专利技术所采用的技术方案是基于视频帧的深度信息和过 分割块对视频图像进行分层。深度信息代表了场景点距离采集相机的远近,从多视图几何 理论下,从深度信息可直接获取同一场景点在多视图中的投影点,即建立了多视图间的匹 配关系。过分割块是图像中局部小范围像素的聚类块,相比于图像/视频的分割块,过分割 块仅包括少量同样颜色的像素点并且没有语义信息,块内像素往往都属于同一场景层。本 专利技术具体包含的步骤如下(1)对视频帧进行自适应采样,抽取视频帧中的关键帧;(2)对关键帧进行过分割并获取关键帧的深度图,以过分割块为结点构建关键帧 内的无向带权图;(3)建立相邻关键帧间的结点匹配权图;(4)依次对关键帧中的过分割块进行合并,并将合并结果传递给邻居关键帧,实现 关键帧的同步分层;(5)获取原始视频帧的深度信息,将关键帧的分层结果传递给中间帧并优化分层结果。本专利技术的原理是由于手持相机拍摄视频具有很大灵活性,视频帧间往往有很高 的冗余度,因此,首先从原始视频帧中采样出一组关键帧,先对关键帧本文档来自技高网
...

【技术保护点】
一种通过分析深度进行视频场景分层的方法,其特征在于:从原始视频帧中采样关键帧,先对所述关键帧进行分层,再根据深度信息将所述关键帧的分层结果传递给中间帧,具体包含步骤如下:(1)对视频帧进行自适应采样,抽取视频帧中的关键帧;(2)对关键帧进行过分割并获取关键帧的深度图,以过分割块为结点构建关键帧内的无向带权图;(3)建立相邻关键帧间的结点匹配权图;(4)依次对关键帧中的过分割块进行合并,并将合并结果传递给邻居关键帧,实现关键帧的同步分层;(5)获取原始视频帧的深度信息,将关键帧的分层结果传递给中间帧并优化分层结果。

【技术特征摘要】
一种通过分析深度进行视频场景分层的方法,其特征在于从原始视频帧中采样关键帧,先对所述关键帧进行分层,再根据深度信息将所述关键帧的分层结果传递给中间帧,具体包含步骤如下(1)对视频帧进行自适应采样,抽取视频帧中的关键帧;(2)对关键帧进行过分割并获取关键帧的深度图,以过分割块为结点构建关键帧内的无向带权图;(3)建立相邻关键帧间的结点匹配权图;(4)依次对关键帧中的过分割块进行合并,并将合并结果传递给邻居关键帧,实现关键帧的同步分层;(5)获取原始视频帧的深度信息,将关键帧的分层结果传递给中间帧并优化分层结果。2.根据权利要求1所述的方法,其特征在于所述步骤(1)中的抽取关键帧具体为 提取每个视频帧的特征点,对每两个视频帧进行特征点匹配并计算匹配权值,定义匹配权值为wa,j) = w-E^JbJlexp(-(W卜) U)^d,其中,W为加权值,W e ;Ntotal(i)是帧Ii的总特征点数,N(i,j)inner为 帧Ii和帧Ij的总匹配点数;Tdis和σ dis为常量,代表期望的基线长度和方差;凡力‘,力工,贴“⑴-似她/^义力为平均的偏移量,其中的^ ·)为特征点位 置;以第一个视频帧为起始关键帧,迭代选取后续的关键帧,从而完成关键帧的采样,其 中,对于当前关键帧,其后续关键帧为其后续帧中具有最大匹配权值的帧。3.根据权利要求1所述的方法,其特征在于所述步骤(2)中构建无向带权图具体为 用图像过分割法对关键帧进行过分割,用多视图立体匹配法获取关键帧的深度信息; 以过分割块为结点单元,在相邻结点单元间搭建一条带权的边,从而构建出无向带权图,定义边权值为win (i, j) = Y !*wc (i, j) + Y 2*wd (i, j) ...

【专利技术属性】
技术研发人员:杨抒周忠李艳丽杜超吴威
申请(专利权)人:深圳市亮信科技有限公司北京航空航天大学
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1