当前位置: 首页 > 专利查询>英特尔公司专利>正文

基于全景的3D视频译码制造技术

技术编号:11024244 阅读:66 留言:0更新日期:2015-02-11 12:50
描述了包括对于基于全景的3D视频译码的操作的系统、设备、物品,以及方法。

【技术实现步骤摘要】
【国外来华专利技术】基于全景的3D视频译码背景视频编码器压缩视频信息,以便可以通过给定带宽发送更多信息。然后,可以将压缩信号传输到接收器,该接收器在显示之前解码或解压缩信号。3D视频已经变为可以比传统的2D视频提供更丰富的视觉体验的新兴的媒体。潜在的应用包括自由视点视频(FVV)、自由视点电视(FTV)、3D电视(3DTV)、IMAX电影院、沉浸式电话会议,监测等等。为支持这些应用,视频系统通常从不同的视点捕捉场景,这会导致同时从不同的相机生成多个视频序列。3D视频译码(3DVC)是指以服务于各种3D显示器为目标的新视频压缩标准。3DVC正在由IS0/IEC运动图像专家组(MPEG)开发。目前,基于最新的常规视频译码标准——高效率视频译码(High Efficient Video Coding:HEVC),来构建3DVC的一个分支,计划在2012年末之前完成。3DVC的其他分支基于H.264/AVC构建。IS0/IEC运动图像专家组(MPEG)现在进行3D视频译码(3DVC)的标准化。新3DVC标准可能允许从有限量的输入数据生成许多高质量视图。例如,可以使用多视图视频加深度(Multiview Video plus Depth:MVD)概念来从有限量的输入数据生成这样的高质量视图。进一步地,可以使用3DVC来用于高级立体处理功能,并用来支持自动立体显示器和FTV,自动立体显示器和FTV允许用户具有3D视觉体验,同时在3D显示器前面自由地改变他们的位置。一般而言,多视图视频加深度(MVD)概念有支持FTV功能,多视图视频以及相关联的深度图信息的两个主要组件。这样的多视图视频通常是指场景是通过许多相机并从不同的视图位置捕捉的。这样的相关联的深度图信息通常是指每一个纹理视图与告知从相机到场景中的对象有多远的深度图相关联。从多视图视频和深度信息,可以在任意查看位置生成虚拟视图。多视图视频加深度(MVD)概念常常用于表示3D视频内容,其中,若干个视图和相关联的深度图通常被编码和多路复用为比特流。每一个视图的相机参数通常也压缩到比特流,以便进行视图合成。通常也称为基础视图或独立视图的视图中的一个,通常独立于其他视图译码。对于依赖的视图,可以从其他视图的画面或同一个视图中的预先译码的画面,来预测视频和深度。根据特定的应用,可以通过丢弃非必需的比特流分组,来在解码器侧提取子比特流。附图简述此处所描述的材料是作为示例说明的,而不仅限于各个附图的图形。为说明简单和清楚起见,图形中所示出的元件不一定是按比例绘制的。例如,为了清楚起见,某些元件的尺寸可以相对于其他元件而放大。此外,在合适的情况下,在不同的图形中参考标签重复使用,以表示对应的或类似的元件。在图形中:图1是不例3D视频译码系统的说明图;图2是不例3D视频译码系统的说明图;图3是不出了不例3D视频译码过程的流程图;图4是在操作中的示例3D视频译码过程的说明图;图5是示例基于全景的3D视频译码流程的的说明图;图6是示例3D视频译码系统的说明图;图7是示例系统的说明图;以及图8是示例系统的说明图,所有都是根据本专利技术的至少某些实现配置的。详细描述现在将参考所附的图形来描述一个或多个实施例或实现。尽管讨论了特定配置和布局,但是,应该理解,这只是为了说明。那些精通相关技术的人员将认识到,在不偏离描述的精神和范围的情况下,可以使用其他配置和布局。对于那些精通相关技术的人来说显而易见的是,此处所描述的技术和/或布局也可以用于除此处所描述的以外的各种其他系统和应用中。尽管下列描述阐述了可以在诸如,例如,片上系统(SoC)体系结构之类的体系结构中表现的各种实现,但是,此处所描述的技术和/或布局的实现不局限于特定体系结构和/或计算系统,并可以通过用于类似的目的的任何体系结构和/或计算系统来实现。例如,使用,例如,多个集成电路(IC)芯片和/或封装,和/或各种计算设备和/或消费者电子(CE)设备(诸如机顶盒、智能电话等等)的各种体系结构都可以实现此处所描述的技术和/或布局。进一步地,尽管下列描述可以阐述诸如逻辑实现、系统组件的类型和相互关系、逻辑划分/集成选择等等之类的很多具体细节,但是,所要求保护的主题可以在没有这些具体细节的情况下实施。在其他情况下,没有详细示出诸如,例如,控制结构和完全软件指令序列之类的某些材料,以便不至于使此处所公开的材料变得模糊。此处所公开的材料可以以硬件、固件、软件,或其任何组合来实现。此处所公开的材料还可实现为存储在机器可读取的介质中的可以由一个或多个处理器读取和执行的指令。机器可读的介质可以包括用于以机器(例如,计算设备)可读的形式存储或传输信息的任何介质和/或机制。例如,机器可读的介质可以包括,只读存储器(ROM);随机存取存储器(RAM);磁盘存储介质;光存储介质;闪存设备;电的、光学的、声音或其他形式的传播信号(例如,载波、红外信号、数字信号等等);及其他。说明书中对一个实现、实现、示例实现等等的引用指示所描述的实现可包括特定特征、结构或特性,但是,每一个实现可以不一定包括该特定特征、结构或特征。此外,这样的短语不一定是指同一个实现。此外,当结合一个实现描述特定特征、结构或特性时,认为在本领域技术人员学识范围内,可以与其他实现一起实施这样的特征、结构或特性,无论是否对此明确描述。下面将描述包括对于基于全景的3D视频译码的操作的系统、设备、物品,以及方法。如上文所描述的,在某些情况下,在常规3D视频压缩编码中,可以在比特流中译码两个或三个视图和相关联的深度图,以支持各种3D视频应用。在解码器端,可以通过使用基于深度图像的呈现技术,来生成某些视点的虚拟合成的视图。为了向后兼容常规2D视频编码器/解码器,可以将3D视频的一个视图标记为独立视图,必须使用常规2D视频编码器/解码器独立地对其进行译码。除独立视图之外,其他视图可以是依赖的视图,它们不仅使视图间预测利用视图间冗余,而且还使视图内预测利用同一个视图中的空间和时间冗余。然而,与单视图视频相比,巨量的3D视频数据推高所需的带宽。因此,可能需要更有高效地压缩3D视频数据。如下文比较详细地描述的,对于3D视频译码的操作可以使用基于全景的3D视频译码方法,在某些实施例中,该方法可以与常规2D视频译码器完全兼容。代替译码多个视图序列和相关联的深度图序列,可以只译码和传输全景视频序列和全景地图。此外,可以从这样的全景序列中提取任何任意视场,并可以直接导出任何中间视点处的3D视频。这样的基于全景的3D视频译码可以改善3D视频译码系统的译码效率和灵活性。图1是根据本专利技术的至少某些实现配置的示例3D视频译码系统100的说明图。在所示出的实现中,3D视频译码系统100可以包括一种或多种类型的显示器(例如,N视图显示器140、立体显示器142、2D显示器144等等)、一个或多个成像设备(未示出)、3D视频编码器103、3D视频解码器105、立体视频解码器107、2D视频解码器109,和/或比特流提取器110。在某些示例中,3D视频译码系统100可以包括为了清楚起见在图1中而没有示出的额外的项目。例如,3D视频译码系统100可以包括处理器、射频类型的(RF)收发器,和/或天线。进一步地,3D视频译码系统100还可以包括为了清楚本文档来自技高网...

【技术保护点】
一种用于视频译码的计算机实现的方法,包括:通过2D解码器解码全景视频和相关联的全景地图,其中所述全景视频和所述相关联的全景地图是至少部分地基于多个纹理视图和相机参数生成的;以及至少部分地基于所述全景视频和所述相关联的全景地图来提取3D视频。

【技术特征摘要】
【国外来华专利技术】1.一种用于视频译码的计算机实现的方法,包括: 通过20解码器解码全景视频和相关联的全景地图,其中所述全景视频和所述相关联的全景地图是至少部分地基于多个纹理视图和相机参数生成的;以及 至少部分地基于所述全景视频和所述相关联的全景地图来提取30视频。2.如权利要求1所述的方法,其特征在于,对所述30视频的所述提取还包括: 至少部分地基于所述相关联的全景地图,通过30卷曲技术,将所述全景视频的所述目标区域卷曲到输出纹理视图; 至少部分地基于所述输出纹理视图来确定所述30视频的左视图和右视图;以及 至少部分地基于所确定的左视图和右视图,以所述用户视图偏好,显示所述30视频。3.如权利要求1所述的方法,其特征在于,对所述30视频的所述提取还包括: 至少部分地基于所述相关联的全景地图,通过30卷曲技术,将所述全景视频的所述目标区域卷曲到输出纹理视图;以及 至少部分地基于所述输出纹理视图,执行其他全景视频的画面间预测。4.如权利要求1所述的方法,其特征在于,对所述30视频的所述提取还包括: 接收用户输入; 至少部分地基于所述用户输入,确定所述全景视频的任何任意目标视图以及相关联的目标区域处的用户视图偏好; 至少部分地基于所述用户视图偏好,设置虚拟相机;以及 至少部分地基于所述虚拟相机的相机参数以及所述相关联的全景地图,通过30卷曲技术,将所述全景视频的所述目标区域卷曲到输出纹理视图。5.如权利要求1所述的方法,其特征在于,对所述30视频的所述提取还包括: 接收用户输入; 至少部分地基于所述用户输入,确定所述全景视频的任何任意目标视图以及相关联的目标区域处的用户视图偏好,其中能通过下列准则中的一个或多个来定义所述用户视图偏好:目标视图的视图方向、视点位置,以及视场; 至少部分地基于下列准则中的一个或多个上的预知配置,设置虚拟相机:视点位置、视场,以及所述全景视频中的确定的视图范围;以及 至少部分地基于所述虚拟相机的相机参数以及所述相关联的全景地图,通过30卷曲技术,将所述全景视频的所述目标区域卷曲到输出纹理视图。6.如权利要求1所述的方法,其特征在于,对所述30视频的所述提取还包括: 对于所述全景视频,执行视图混合。7.如权利要求1所述的方法,其特征在于,对所述30视频的所述提取还包括: 接收用户输入; 至少部分地基于所述用户输入,确定所述全景视频的任何任意目标视图以及相关联的目标区域处的用户视图偏好,其中能通过下列准则中的一个或多个来定义所述用户视图偏好:目标视图的视图方向、视点位置,以及视场; 至少部分地基于下列准则中的一个或多个上的预知配置,设置虚拟相机:视点位置、视场,以及所述全景视频中的确定的视图范围; 当所述目标区域来自多于单个纹理视图时,对于所述全景视频的所述目标区域,执行视图混合,其中在卷曲之前或在编码之前,发生所述视图混合; 至少部分地基于所述虚拟相机的相机参数以及所述相关联的全景地图,通过30卷曲技术,将所述全景视频的所述目标区域卷曲到输出纹理视图; 至少部分地基于所述输出纹理视图来确定所述30视频的左视图和右视图; 至少部分地基于所确定的左视图和右视图,以所述用户视图偏好,显示所述30视频;以及 至少部分地基于所述输出纹理视图,执行其他全景视频的画面间预测。8.如权利要求1所述的方法,其特征在于,所述全景视频以及所述相关联的全景地图的生成包括: 通过图像拼接算法,从所述多个纹理视图,生成所述全景视频;以及生成能够在所述多个纹理视图和所述全景视频之间映射像素坐标的所述相关联的全景地图,作为从所述多个纹理视图到所述全景图像的透视投影。9.如权利要求1所述的方法,其特征在于,所述全景视频以及所述相关联的全景地图的生成包括: 至少部分地基于所确定的投影矩阵和所确定的像素对应关系,通过图像拼接算法,从所述多个纹理视图,生成所述全景视频; 生成能够在所述多个纹理视图和所述全景视频之间映射像素坐标的所述相关联的全景地图,作为从所述多个纹理视图到所述全景图像的透视投影;以及编码所述全景视频和所述相关联的全景地图。10.如权利要求1所述的方法,其特征在于,所述全景视频以及所述相关联的全景地图的生成包括: 确定能够通过关键点特征从所述多个纹理视图映射像素坐标的像素对应关系; 至少部分地基于所述相机外部参数和相机内部参数,确定投影矩阵; 至少部分地基于从所确定的投影矩阵和/或所确定的像素对应关系的几何映射,通过图像拼接算法,从所述多个纹理视图,生成所述全景视频; 生成能够在所述多个纹理视图和所述全景视频之间映射像素坐标的所述相关联的全景地图,作为从所述多个纹理视图到所述全景图像的透视投影;以及编码所述全景视频和所述相关联的全景地图。11.如权利要求1所述的方法,其特征在于,所述全景视频以及所述相关联的全景地图的生成包括: 确定能够通过关键点特征从所述多个纹理视图映射像素坐标的像素对应关系; 估计相机外部参数,其中所述相机外部参数包括下列各项中的一个或多个:多个相机之间的平移矢量和旋转矩阵; 至少部分地基于所述相机外部参数和相机内部参数来确定投影矩阵; 至少部分地基于从所确定的投影矩阵和/或所确定的像素对应关系的几何映射,通过图像拼接算法,从所述多个纹理视图,生成所述全景视频; 生成能够在所述多个纹理视图和所述全景视频之间映射像素坐标的所述相关联的全景地图,作为从所述多个纹理视图到所述全景图像的透视投影;以及编码所述全景视频和所述相关联的全景地图。12.如权利要求1所述的方法,其特征在于,进一步包括: 在20编码器侧: 确定能够通过关键点特征从所述多个纹理视图映射像素坐标的像素对应关系; 估计相机外部参数,其中所述相机外部参数包括下列各项中的一个或多个:多个相机之间的平移矢量和旋转矩阵; 至少部分地基于所述相机外部参数和相机内部参数来确定投影矩阵; 至少部分地基于从所确定的投影矩阵和/或所确定的像素对应关系的几何映射,通过图像拼接算法,从所述多个纹理视图,生成所述全景视频; 生成能够在所述多个纹理视图和所述全景视频之间映射像素坐标的所述相关联的全景地图,作为从所述多个纹理视图到所述全景图像的透视投影; 编码所述全景视频和所述相关联的全景地图; 在所述20解码器侧,所述30视频的所述提取还包括: 接收用户输入; 至少部分地基于所述用户输入,确定所述全景视频的任何任意目标视图以及相关联的目标区域处的用户视图偏好,其中能通过下列准则中的一个或多个来定义所述用户视图偏好:目标视图的视图方向、视点位置,以及视场; 至少部分地基于下列准则中的一个或多个上的预知配置,设置虚拟相机:视点位置、视场,以及所述全景视频中的确定的视图范围; 当所述目标区域来自多于单个纹理视图时,对于所述全景视频的所述目标区域,执行视图混合,其中在卷曲之前或在编码之前,发生所述视图混合; 至少部分地基于所述虚拟相机的相机参数以及所述相关联的全景地图,通过30卷曲技术,将所述全景视频的所述目标区域卷曲到输出纹理视图; 至少部分地基于所述输出纹理视图来确定所述30视频的左视图和右视图; 至少部分地基于所述确定的左视图和右视图,以所述用户视图偏好,显示所述30视频;以及 至少部分地基于所述输出纹理视图,执行其他全景视频的画面间预测。13.一种用于在计算机上进行视频编码的系统,包括: 被配置成呈现视频数据的显示设备; 通信地耦合到所述显示设备的一个或多个处理器; 通信地耦合到所述一个或多个处理器的一个或多个存储器存储; 20解码器,所述20解码器通信地耦合到所述一个或多个处理器并被配置成解码全景视频和相关联的全景地图,其中所述全景视频和所述相关联的全景地图是至少部分地基于多个纹理视图和相机参数生成的;以及 30视频提取逻辑模块,所述30视频提取逻辑模块通信地耦合到所述20解码器,并被配置成至少部分地基于所述全景视...

【专利技术属性】
技术研发人员:邓智玭J·李徐理东江宏
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1