生成基于视频文件格式的形状识别列表的方法技术

技术编号:21606704 阅读:41 留言:0更新日期:2019-07-13 18:37
一种三维视频重构方法,编码器和解码器,包括从三维视频中获得对象的视频内容屏或视频内容帧的列表;获得所述三维视频的深度屏的列表;向所述三维视频的每个视频帧增加形状屏;将每一视频内容屏或视频内容帧和深度屏和形状屏相叠加形成形状标识库;将所述形状标识库存储于压缩文件的开头,用于于对象的解除遮蔽;形状识别列表格式能够通过标识替换原始形状来显著降低存储尺寸并提高压缩比,并有助于提高渲染质量。

A Method of Generating Shape Recognition List Based on Video File Format

【技术实现步骤摘要】
生成基于视频文件格式的形状识别列表的方法
本专利技术涉及生成基于视频文件格式的形状识别列表的方法,特别是涉及生成基于用于存储和压缩立体或光场视频的视频文件格式的形状识别列表的方法。
技术介绍
目前大多数的视觉内容仍然是以图像序列形式存在的二维的图像或视频。随着显示技术的发展,现在可以广泛获得具有主动快门或被动式偏光眼镜的立体或三维(3D)显示。三维显示的输入通常有如下几种形式:(1)视频内容或视频纹理与描述视频内容中每个像素深度的深度图(即,2D+Z格式);(2)以一定格式将临近视点的一套视频多路复用在一个图像帧上,临近视点的一套视频有时被称为多视角视频。基于传统2D+Z视频格式的多视图的重构质量高度依赖于深度图的质量。当深度图和视频纹理被压缩时,失真误差可能在两个文件中累积,并且这可能由于深度不连续性(例如,不同对象的不同边界)的未对准而引入伪像。现有技术存在一种伪影感知视图合成系统。它采用形状信息来提高多视图的重构质量。然而,它主要通过探索形状的冗余,直接压缩形状来处理形状的压缩。需要新的通过改善传统2D+Z格式视频重构质量的方法来改善基于2D+Z格式的立体视频。
技术实现思路
本专利技术提供一种生成基于视频文件格式的形状识别列表的方法,包括:从三维视频中获得对象的视频内容屏或视频内容帧的列表;获得所述三维视频的深度屏的列表;向所述三维视频的每个视频帧增加形状屏;将每一视频内容屏或视频内容帧和深度屏和形状屏相叠加形成形状标识库;将所述形状标识库存储于压缩文件的开头,用于对象的解除遮蔽。其中所述形状屏为形状信息标识,包括所述视频内容屏或所述视频内容帧的分类标识、对象识别标识和方向向量。其中所述形状信息标识还包括时间标识和坐标标识。其中所述形状信息标识由下面20位字节表示:CCNNNNVVVTTTTTTTTXYZ(1)其中CC代表为分类标识,用于将某一对象与其他对象相区别;NNNN为对象识别标识,同样的对象识别标识表示二者为同一对象;VVV为方向向量,其中每个字节由1,0,或-1来表示,分别表示对象的方向;TTTTTTTT为时间标识,可以以下列格式来表示时间:HH:MM:SS.ss;其中HH表示小时,MM表示分钟,SS表示秒,ss表示10毫秒的倍数;XYZ为三位字节的坐标标识,表示对象内的坐标。包括:调用分类算法对每一帧分配分类标识(CC),对象标识(NNNN),方向向量(VVV)和位置XYZ;接收所述视频内容屏、深度屏和形状屏作为输入;以所述分类标识(CC),对象标识(NNNN),方向向量(VVV)和位置XYZ作为输出;通过训练数据样本训练将所述输入映射到所述输出的函数;并以数据库或形状库的形式存储所述训练数据样本。所述形状库使用一种包含分辨器所有可能的输出的文件集合的索引,利用所述索引来标记所述形状屏,相似的形状屏被分在相同的索引下。本专利技术还提供一种进行三维视频重构的编码器,包括:提取模块,利用聚类算法从完整视频的所有内容屏,形状屏和深度屏中发现并提取对象的视频内容帧、深度帧以及形状标识列表信息;叠加模块,将所述视频内容帧、深度帧以及形状标识列表信息相叠加;形状库生成模块,将所叠加的信息组合起来,构成形状识别列表视频文件格式,以生成形状库,并将所述形状库存储于压缩文件的头部,用于对象的解除遮蔽。以及一种进行三维视频重构的解码器,包括:读取模块,读取所述的编码器中的形状标识列表;和复制模块,将与分类标识(CC)、对象标识(NNNN)和方向向量(VVV)相关的形状从所述形状库复制到形状屏的坐标标识XYZ处;和重建模块,通过已训练的分辨器重建深度屏和生成形状屏;以及还原模块,依照时间标识(TTTTTTTT)与其所代表的视频特定时间HH:MM:SS.ss的视频内容帧结合,还原完整视频内容。本专利技术旨在提供一种基于2D+Z格式用于立体视频的新的存储和压缩格式,所述2D+Z格式具有基于形状信息的附加辅助数据。形状信息通过对视频提供额外的深度连续性对准信息,提高视频的重构质量。本专利技术通过解析所有的视频内容屏或视频内容帧、形状屏(所述形状屏通过AI产生或者通过人的介入手动提供)以及整个影片的深度屏,来生成所有对象的形状库。将不同的对象分组到不同的类别,并为它们分配类别识别标识。可以通过给不同的对象增加对象类别识别标记、对象编号、方向、时间和对象的位置坐标来压缩形状屏。所生成的文件格式被称为形状识别列表(ShapeIDlisting)。由于相同的形状和对象能够在不同的帧中多次重复出现,新的形状识别列表格式能够通过标识替换原始形状来显著降低存储尺寸并提高压缩比。此外,AI可以生成某些形状的某些方向并存储在库中。这有助于提高渲染质量。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本专利技术的一些实例,对于本领域普通技术人员来讲,在不付出创新性劳动的前提下,还可以根据这些附图获得其他的附图。图1为利用本专利技术的形状库展示具有相同方向的对象的示意图。图2为利用本专利技术的形状屏通过AI生成的相同形状和方向的对象示意图。图3示意性地示出了用于执行根据本专利技术的方法的服务器的框图。图4示意性地示出了用于保持或者携带实现根据本专利技术的方法的程序代码的存储单元。图5示意性地示出了本专利技术对深度屏进行分类的示例。具体实施方式以下阐述的是当前被认为是所要求保护的专利技术的优选实施例或最佳表示性示例的内容。仔细考虑了对实施例和优选实施例的将来和现在的表示或修改,在功能、目的、结构或结果方面作出实质性改变的任何变更或修改,都旨在被本专利的权利要求所涵盖。现在将参考附图仅以举例的方式描述本专利技术的优选实施例。以2D+Z格式存在的立体视频由视频内容屏/视频内容画面(videocontentscreens)或视频内容帧序列和深度屏组成。本专利技术是建立在2D+Z格式的基础上,被压缩的立体视频包括:从一个典型2D+Z视频中获得的视频内容屏或视频内容帧的序列;视频内容屏或视频内容帧是指在视频中的特定时刻捕获的静止图像,其中所述“视频”是指用于记录、复制、回放、广播和显示一系列静止图像的电子媒体,也称为电影,所述“静止图像”是指静态状态的图像。从一个典型2D+Z视频中获得的深度屏的序列;以及本专利技术提供的额外形状屏序列,所述形状屏可以通过AI产生或者通过人的介入手动提供。生成形状屏的细节将在下文详细描述。立体视频的2D+Z格式,又称为2D加深度(2D-plus-Depth)格式,每个2D图像帧补充有灰度深度图,该灰度图指示2D图像中的特定像素是否需要显示在显示器前面(白色)或屏幕平面后面(黑色)。256个灰度可以在图像内建立平滑的深度梯度。监视器内的处理使用此输入来渲染多视图图像。视频内容屏和深度屏分别为典型的2D+Z格式的视频中的信息,其中视频内容屏(又称为视频内容帧)表示每个2D图像帧;深度屏表示每个灰度深度图。与传统的2D+Z格式不同,本专利技术涉及的立体视频还包括新增加的形状屏,形状屏表示每个视频帧的形状信息。本专利技术给每个形状屏设立一个形状标识,所述形状标识由下面20位字节表示:CCNNNNVVVTTTTTTTTXYZ(1)其中CC代表为分类标识,由两个中文字节表示,例如:男人、小狗、桌子等本文档来自技高网...

【技术保护点】
1.一种三维视频重构方法,包括:从三维视频中获得对象的视频内容屏或视频内容帧的列表;获得所述三维视频的深度屏的列表;向所述三维视频的每个视频帧增加形状屏;将每一视频内容屏或视频内容帧和深度屏和形状屏相叠加形成形状标识库;将所述形状标识库存储于压缩文件的开头,用于对象的解除遮蔽。

【技术特征摘要】
1.一种三维视频重构方法,包括:从三维视频中获得对象的视频内容屏或视频内容帧的列表;获得所述三维视频的深度屏的列表;向所述三维视频的每个视频帧增加形状屏;将每一视频内容屏或视频内容帧和深度屏和形状屏相叠加形成形状标识库;将所述形状标识库存储于压缩文件的开头,用于对象的解除遮蔽。2.如权利要求1所述的方法,其中所述形状屏为形状信息标识,包括所述视频内容屏或所述视频内容帧的分类标识、对象识别标识和方向向量。3.如权利要求2所述的方法,其中所述形状信息标识还包括时间标识和坐标标识。4.如权利要求2-3所述的方法,其中所述形状信息标识由下面20位字节表示:CCNNNNVVVTTTTTTTTXYZ(1)其中CC代表为分类标识,用于将某一对象与其他对象相区别;NNNN为对象识别标识,同样的对象识别标识表示二者为同一对象;VVV为方向向量,其中每个字节由1,0,或-1来表示,分别表示对象的方向;TTTTTTTT为时间标识,可以以下列格式来表示时间:HH:MM:SS.ss;其中HH表示小时,MM表示分钟,SS表示秒,ss表示10毫秒的倍数;XYZ为三位字节的坐标标识,表示对象内的坐标。5.如权利要求1所述的方法,还包括:调用分类算法对每一帧分配分类标识(CC),对象标识(NNNN),方向向量(VVV)和位置XYZ;接收所述视频内容屏、深度屏和形状屏作为输入;以所述分类标识(CC),对象标识(NNNN),方向向量(VVV)和位置XYZ作为输出;通过训练数据样本训练将所述输入映射到所述输出的函数;并以数据库或形状库的形式存储所述训练数据样本。6.如权利要求5所述的方法,所述形状库使用一种包含分辨器所有可能的输出的文件集合的索引,利用所述索引来标记所述形状屏,相似的形状屏被分在相同的索引下。7.一种进行三维视频重构的编码器,包括:提取模块,利用聚类算法从完整视频的所有内容屏,形状屏和深度屏中发现并提取对象的视频内容帧、深度帧以及形状标识列表信息;叠加模块,将所述视频内容帧、深度帧以及形状标识列表信息相叠加;形状库生成模块,将所叠加的信息组合起来,构成形状识别列表视频文件格式,以生成形状库,并将所述形状库存储于压缩文件的头部,...

【专利技术属性】
技术研发人员:李应樵陈增源
申请(专利权)人:万维科研有限公司
类型:发明
国别省市:中国香港,81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1