渐进压缩域计算机视觉和深度学习系统技术方案

技术编号:25645850 阅读:53 留言:0更新日期:2020-09-15 21:36
用于计算机视觉技术的压缩域渐进应用的方法和系统。一种用于解码视频数据的方法,包括:接收被编码用于多阶段解码的视频流。该方法包括通过执行多阶段解码的一个或更多个阶段来部分解码视频流。该方法包括确定是否可以基于部分解码的视频流来识别计算机视觉系统的决策。另外,该方法包括基于对视频流的解码生成计算机视觉系统的决策。用于编码视频数据的系统包括处理器,该处理器被配置为从相机接收视频数据,将从相机接收的视频数据编码为视频流,以供计算机视觉系统消费,并且将元数据包括在编码的视频流中以指示是否可以从元数据中识别出计算机视觉系统的决策。

【技术实现步骤摘要】
【国外来华专利技术】渐进压缩域计算机视觉和深度学习系统
本公开总体上涉及计算机视觉和深度学习系统。更具体地,本公开涉及计算机视觉技术的压缩域渐进应用。
技术介绍
使用计算机视觉和深度学习(CV/DL)技术处理相机视频流是人工智能(AI)和机器学习(ML)的新兴和迅速发展的领域。应用级别的目标是通过观察视频流来自动执行各种任务,例如用户感知应用、电子商务、社交媒体、视觉感知、监视和安全、导航等。这些应用使用各种基础的CV技术,例如,对象检测和识别、对象跟踪、人类检测和跟踪等。DL和卷积神经网络(CNN)是一组已被证明可以显著改善传统CV技术的检测率的极有价值的技术。
技术实现思路
技术问题本公开的实施例提供了渐进压缩域CV和DL系统。问题的解决方案在一个实施例中,提供了一种用于解码视频数据的方法。该方法包括接收被编码用于多阶段解码的视频流。该方法包括通过执行多阶段解码中的一个或更多个阶段来部分解码视频流。该方法包括确定是否可以基于部分解码的视频流识别出CV系统的决策。另外,该方法包括基于对视频流的解码来生成CV系统的决策。在另一个实施例中,提供了一种用于解码视频数据的系统。该系统包括通信接口和可操作地连接到该通信接口的处理器。该通信接口被配置为接收被编码用于多阶段解码的视频流。该处理器被配置为通过执行多阶段解码中的一个或更多个阶段来部分解码视频流,确定是否可以基于部分解码的视频流识别出CV系统的决策,并基于对视频流的解码生成CV系统的决策。在另一个实施例中,提供了一种用于编码视频数据的系统。该系统包括处理器,该处理器配置为从相机接收视频数据,将从相机接收到的视频数据编码为视频流,以供CV系统使用,并且将元数据包括在编码的视频流中以指示是否可以从元数据中识别出CV系统的决策。该系统还包括可操作地连接到处理器的通信接口。该通信接口被配置为将编码后的视频流和元数据发送到CV系统的解码器。本专利技术的有益效果本公开的实施例提供了一种渐进压缩域CV和DL系统。附图说明为了更全面地理解本公开及其优点,现在参考结合附图的以下描述,其中相同的附图标记表示相同的部分:图1示出了可以在其中实现本公开的各种实施例的示例联网系统;图2示出了可以在其中实现本公开的各种实施例的处理系统的示例;图3A示出了视频解码器系统的框图的示例;图3B示出了根据本公开的各种实施例的用于CV系统的分级/渐进视频解码的系统的框图的示例;图4示出了根据本公开的各种实施例的使用运动矢量CNN的渐进压缩域视频解码的示例;图5示出了根据本公开的各种实施例的使用变换域CNN的渐进压缩域视频解码的示例;图6示出了根据本公开的各种实施例的用于CV系统的具有元数据处理的分级/渐进视频解码的系统的框图的示例;图7示出了根据本公开的各种实施例的用于CV系统的视频编码和解码的系统的框图的示例;图8示出了根据本公开的各种实施例的用于CV系统的解码视频数据的过程的流程图;以及图9示出了根据本公开的各种实施例的用于CV系统的解码视频数据的过程的流程图。具体实施方式根据以下附图、说明书和权利要求书,其他技术特征对于本领域技术人员而言将是显而易见的。在进行下面的详细描述之前,阐述整个专利文件中使用的某些单词和短语的定义可能是有利的。术语“耦合”及其派生词是指两个或更多个元素之间的任何直接或间接通信,无论这些元素是否彼此物理接触。术语“发送”、“接收”和“通信”及其派生词涵盖直接和间接通信。术语“包括”和“包含”及其派生词是指包括但不限于。术语“或”是包含性的,意味着和/或。短语“与...相关联”及其派生词意指包括、包括在其中、与其互连、包含、包含在其中、连接到或与其连接、耦合到或与其耦合、与其通信、与其协作、交错、并置、接近其、绑定到或与其绑定、具有、具有…属性、具有某种关系或与其具有关系等。短语“至少一个”当与所列项目一起使用时,意味着可以使用一个或更多个所列项目的不同组合,并且可能只需要所列项目中的一个项目。例如,“A、B和C中的至少一个”包括以下组合中的任何一个:A、B、C、A和B、A和C、B和C、以及A和B和C。此外,下面描述的各种功能可以由一个或更多个计算机程序实现或支持,每个计算机程序由计算机可读程序代码形成并体现在计算机可读介质中。术语“应用”和“程序”是指一个或更多个适于以合适的计算机可读程序代码实现的计算机程序、软件组件、指令集、过程、功能、对象、类、实例、相关数据或其一部分。短语“计算机可读程序代码”包括任何类型的计算机代码,包括源代码、目标代码和可执行代码。短语“计算机可读介质”包括能够由计算机访问的任何类型的介质,例如只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、光盘(CD)、数字视频光盘(DVD)或任何其他类型的内存。“非暂时性”计算机可读介质不包括传输瞬时电信号或其他信号的有线、无线、光学或其他通信链路。非暂时性计算机可读介质包括可永久存储数据的介质以及可存储数据并随后覆写的介质,例如可重写光盘或可擦除存储装置。贯穿本专利文件提供了其他某些单词和短语的定义。本领域普通技术人员应该理解,在很多情况下,即使不是大多数情况,这种定义也适用于这种定义的单词和短语的先前以及将来的使用。在下文中,在本公开的各种实施例中,将以硬件方法为例进行描述。然而,本公开的各种实施例包括使用硬件和软件两者的技术,因此,本公开的各种实施例可以不排除软件的观点。在下文中,本公开描述了用于无线通信系统中的免授权数据传输的技术。在以下描述中使用的关于免授权的术语、关于信号的术语、关于信道的术语、关于控制信息的术语、关于网络实体的术语、关于装置的元件的术语仅用于方便说明。因此,本公开不限于以下术语,并且可以使用具有相同技术含义的其他术语。下面讨论的图1至图9以及用于描述本专利文件中的本公开的原理的各种实施例仅是示例性的,并且不应以任何方式解释为限制本公开的范围。本领域技术人员将理解,可以在任何适当布置的系统或装置中实现本公开的原理。本公开的实施例还认识并考虑到,DL和CNN技术的一个困难是这些技术在计算上具有挑战性。对于将CV技术连续应用到输入的视频流中尤其如此。而且,为了将这些技术引入功率优化的应用中,必须为要使用的这种技术准备好要分析的视频流。至少,在可以应用任何DL/CNN技术之前,典型的基于压缩的视频流(例如,诸如高效视频编码(HEVC)或H.265编码的视频流)必须被完全解码。这会增加很多计算成本,尤其是在连续录制视频的情况下,其中大多数视频流都不会包含有意义的信息。在这种情况下,即使是检测视频流是否包含有意义的信息,也都需要对输入的视频流进行完全解码。另外,本公开的实施例认识到当前编解码器被设计为针对压缩性能而优化,而不针对基于CV/DL的AI系统的下游消费而优化。本公开的实施例进一步认识并考虑到大多数视频编码是针对人类消费和压缩而优化的。也就是说,大多数用于视本文档来自技高网...

【技术保护点】
1.一种用于解码视频数据的方法,所述方法包括:/n接收被编码用于多阶段解码的视频流;/n使用处理器通过执行所述多阶段解码中的一个或更多个阶段来对所述视频流进行部分解码;/n使用处理器确定是否可以基于部分解码的视频流识别计算机视觉系统的决策;以及/n基于对所述视频流的解码生成所述计算机视觉系统的决策。/n

【技术特征摘要】
【国外来华专利技术】20180208 US 15/892,1411.一种用于解码视频数据的方法,所述方法包括:
接收被编码用于多阶段解码的视频流;
使用处理器通过执行所述多阶段解码中的一个或更多个阶段来对所述视频流进行部分解码;
使用处理器确定是否可以基于部分解码的视频流识别计算机视觉系统的决策;以及
基于对所述视频流的解码生成所述计算机视觉系统的决策。


2.根据权利要求1所述的方法,其中,对所述视频流进行部分解码并确定是否可以识别决策,包括:
逐阶段渐进解码所述视频流;
在一个或更多个阶段之后,确定是否可以基于渐进解码的视频流识别所述计算机视觉系统的决策;以及
响应于确定出可以基于所述渐进解码的视频流来识别所述计算机视觉系统的决策,生成决策并停止解码所述视频流。


3.根据权利要求1所述的方法,所述方法还包括:
在解码所述视频流之前提取所述视频流的元数据;
其中,确定是否可以识别决策,包括:
确定是否可以基于提取出的元数据识别所述计算机视觉系统的决策。


4.根据权利要求3所述的方法,所述方法还包括:在接收所述视频流之前,基于所述计算机视觉系统的应用,向所述视频流的编码器请求将所述元数据包括在所述视频流中。


5.根据权利要求3所述的方法,所述方法还包括:在对所述视频流进行部分解码之前,基于提取的元数据确定是否需要为所述计算机视觉系统解码所述视频流的帧。


6.根据权利要求1所述的方法,其中:
所述视频流包括指示所述视频流的一个或更多个帧中的感兴趣区域(ROI)的一个或更多个标记;并且
对所述视频流进行部分解码包括:识别所述一个或更多个标记,并基于识别的标记解码所述ROI。


7.根据权利要求1所述的方法,其中,所述视频流包括基于检查到所述计算机视觉系统的事件而编码的帧。


8.根据权利要求1所述的方法,其中,所述视频流包括帧,所述帧具有针对位于所述帧中的对象而编码的附加比特。


9.一种用于解码视频数据的系统,所述系统包括:
通信接口,所述通信接口被配置为接收被编码用于多阶段...

【专利技术属性】
技术研发人员:哈米德·R·谢赫戴维·刘罗谌持柳荣俊迈克尔·波莉
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1