深度视觉处理器制造技术

技术编号:24019900 阅读:19 留言:0更新日期:2020-05-02 04:54
本文中公开一种用于深度学习的处理器。在一个实施例中,该处理器包括:加载与储存单元,其被配置为加载且储存图像像素数据和样板数据;寄存器单元,其实现一分库式寄存器文件,该寄存器单元被配置为:从该加载与储存单元加载且储存该图像像素数据的一子集,且同时提供对储存于该分库式寄存器文件的一寄存器文件项目中的图像像素值的存取,其中该图像像素数据的该子集包括储存于该寄存器文件项目中的该图像像素值;以及多个算术逻辑单元,其被配置为同时对储存于该寄存器文件项目中的该图像像素值和样板数据中对应的样板数据执行一个或更多个操作。

Depth vision processor

【技术实现步骤摘要】
【国外来华专利技术】深度视觉处理器相关申请的交叉引用本申请要求于2017年7月5日提出、标题为“DEEPVISIONPROCESSOR”的第62/528,796号美国临时申请的优先权的权益,该美国临时申请通过引用以其整体并入本文中。版权声明此专利文档的公开内容的一部分含有受版权保护的材料。如在专利商标局专利文件或记录中出现,版权所有者不反对任何人对本专利文档或专利公开内容进行拓制,但无论如何将以其他方式保留所有版权。领域本公开涉及可编程处理器,且特别涉及可执行一种或更多种神经网络(neuralnetwork)技术(例如,深度学习技术)和计算机视觉技术(例如,传统计算机视觉技术)的较低能量的可编程处理器。背景依赖于深度学习的计算机视觉技术(诸如基于卷积神经网络(CNN)的计算机视觉技术)可以以可靠且稳健方式完成复杂任务。举例而言,汽车行业在自动驾驶车辆中且在安全特征(诸如汽车中的障碍检测和撞击避免系统)中部署高级计算机视觉芯片集。在制造和仓储部门中,实施神经网络和深度学习技术以开发执行类人类任务的适应性机器人。在安全和监督应用中,具有神经网络和深度学习能力的嵌入式装置依据大量数据进行实时图像分析。在移动和娱乐装置中,深度学习达成“智能”图像和视频捕获及搜寻,以及基于虚拟现实的内容的递送。在嵌入式装置中广泛采用神经网络和深度学习的一个障碍是神经网络和深度学习算法的极其高的计算成本。某些计算机视觉产品使用可编程的通用图形处理单元(GPU)。这些芯片可能是电力消耗性的,然而电池操作的嵌入式装置可被设计用于低电力的高效操作。甚至并非电池操作的装置(例如,可插入壁式插座中的装置)及以太网供电(POE)装置(诸如家用安全摄影机系统)也可(举例而言)由于热管理要求(诸如一装置可具有的热耗散量)而被设计用于低电力的高效操作。某些计算机视觉产品使用依赖于固定功能加速器的专门芯片,该固定功能加速器即使未必是电力消耗性的,也缺乏弹性和可编程性。概述下文的随附附图和实施方式中阐明了本说明书中所描述的主题的一个或更多个实施方案的细节。依据说明书、附图和权利要求将明了其他特征、方面及优点。此概述和以下详细描述皆不意欲定义或限制本公开的主题的范围。在本文中公开一种用于深度学习的处理器。在一个实施例中,该处理器包括:加载与储存单元,其被配置为加载且储存图像像素数据及样板数据(stencildata);寄存器单元,其实现分库式(banked)寄存器文件,被配置为:从该加载与储存单元加载且储存该图像像素数据的子集;且同时提供对储存于该分库式寄存器文件的寄存器文件项目(entry)中的图像像素值的存取,其中该图像像素数据的子集包括储存于该寄存器文件项目中的图像像素值;互连单元,其与该寄存器单元和多个算术逻辑单元通信,该互连单元被配置为:提供储存于该寄存器文件项目中的图像像素值;且提供与储存于该寄存器文件项目中的图像像素值对应的样板数据;以及该多个算术逻辑单元,其被配置为同时对来自该互连单元的储存于该寄存器文件项目中的图像像素值和与储存于该寄存器文件项目中的图像像素值对应的样板数据执行一个或更多个操作。附图简单说明在所有附图中,可重复使用参考符号来指示参考元素之间的对应性。提供附图以图解说明本文中所描述的实例性实施例且不意欲限制本公开的范围。图1是比较深度视觉(DV)处理器、具有固定功能卷积神经网络(CNN)的数字信号处理器(DSP)和图形处理单元(GPU)的性能的一实例性绘图。图2是比较为单维及二维(2D)像素数据的数字信号处理器的一实例性示意性图解说明。图3展示具有与静态随机存取存储器(SRAM)通信的一数字信号处理器/单指令多数据(SIMD)核心和一卷积神经网络加速器的一实例性处理器架构。图4展示一卷积引擎(CE)或DV处理器的某些实施例的一实例性架构。图5展示一DV核心的三个实例性计算流程。图6是深度学习工作负荷中的效率机会的一实例性图解说明。图7是利用数据重复使用机会的一深度视觉(DV)处理器架构的实例性图解说明。图8展示用于一卷积神经网络的实例性计算。图9展示一DV处理器架构至许多核心的一实例性扩展。图10A至图10B展示一DV核心的样板流的一寄存器文件架构的示意性图解说明。图11是用分库式寄存器文件架构实现的2D寄存器(2D_Reg)抽象化的示意性图解说明。图12是展示一实例性智能寄存器文件架构的示意性图解说明。图13展示一传统向量寄存器文件与具有两个或四个寄存器的群组的向量寄存器文件的实例性比较。图14A至图14F展示在图像数据储存于V4R寄存器群组中的情况下使用一实例性Stencil2D指令来产生多个3×3卷积输出的示意性图解说明。图15展示在输出储存于一累加器寄存器文件中的情况下Stencil2D指令的实例性执行流程的示意性图解说明。图16是展示一实例性1×1卷积计算图表的示意性图解说明。图17A至图17F展示使用Stencil1DV指令进行1×1卷积的实例性执行流程的示意性图解说明。图18展示使用一实例性DOTV2R指令以使用储存于V2R寄存器群组中的数据产生两个128元素向量的向量-向量乘法的示意性图解说明。图19A至图19B展示在不具有16位至8位标准化的情况下DOTV2R指令的实例性执行流程的示意性图解说明。图20A至图20C展示将一典型CNN运算操作映射至DV核心的示意性图解说明。图21展示用于将CNN运算操作映射至DV核心的伪程序代码。图22展示使用DV处理器进行的空间导数计算的实例性运算图表。图23A至图23B展示使用DV处理器进行的光学流运算的示意性图解说明。图24展示使用DV处理器进行的运动估计的示意性图解说明。图25展示图解说明DV处理器的所预计性能的实例性绘图。图26展示一深度视觉CNN映射工具的实例性工作流程。图27是展示一实例性DV处理器芯片的方块图。图28展示用于光学流的运动向量精细化的一实例性DV处理器架构。图29展示具有分散-集中支持的另一实例性DV处理器架构。图30是表示一DV处理器核心的方框图。图31是一FPGA系统的实例性示意图。详细描述概述本公开针对视觉处理器和嵌入式深度学习(DL)计算机视觉软件两者提供一种新方法。本文中所公开的方法可由系统、方法、装置、处理器及处理器架构实现。本文中所公开的实现一深度视觉处理器架构的一深度视觉(DV)处理器可具有与用于一类似工作负荷的一GPU相比较高一个或更多个量级的功率效率(例如,高达两个量级)、低一个或更多个量级的成本(例如,至少一级)和/或比GPU更好的性能/瓦特(例如,好66倍的性能)。因此,该处理器可达成快速、功率高效且较低成本的本地与基于云的图像和数据处理。在某些实施例中,DV处理器可以是一种高性能、超低功率、可扩展的专用集成电路(ASIC)处理器。除传统本文档来自技高网...

【技术保护点】
1.一种处理器,包括:/n加载与储存单元,其被配置为加载且储存图像像素数据和样板数据;/n寄存器单元,其实现分库式寄存器文件,所述寄存器单元被配置为:/n从所述加载与储存单元加载且储存所述图像像素数据的子集;且/n同时提供对储存于所述分库式寄存器文件的寄存器文件项目中的图像像素值的存取,其中所述图像像素数据的所述子集包括储存于所述寄存器文件项目中的所述图像像素值;互连单元,其与所述寄存器单元通信,所述互连单元被配置为:/n提供储存于所述寄存器文件项目中的所述图像像素值;且/n提供与储存于所述寄存器文件项目中的所述图像像素值对应的样板数据;以及/n多个算术逻辑单元(ALU),其与所述互连件通信,所述多个算术逻辑单元被配置为同时对来自所述互连单元的储存于所述寄存器文件项目中的所述图像像素值和与储存于所述寄存器文件项目中的所述图像像素值对应的样板数据执行一个或更多个操作。/n

【技术特征摘要】
【国外来华专利技术】20170705 US 62/528,7961.一种处理器,包括:
加载与储存单元,其被配置为加载且储存图像像素数据和样板数据;
寄存器单元,其实现分库式寄存器文件,所述寄存器单元被配置为:
从所述加载与储存单元加载且储存所述图像像素数据的子集;且
同时提供对储存于所述分库式寄存器文件的寄存器文件项目中的图像像素值的存取,其中所述图像像素数据的所述子集包括储存于所述寄存器文件项目中的所述图像像素值;互连单元,其与所述寄存器单元通信,所述互连单元被配置为:
提供储存于所述寄存器文件项目中的所述图像像素值;且
提供与储存于所述寄存器文件项目中的所述图像像素值对应的样板数据;以及
多个算术逻辑单元(ALU),其与所述互连件通信,所述多个算术逻辑单元被配置为同时对来自所述互连单元的储存于所述寄存器文件项目中的所述图像像素值和与储存于所述寄存器文件项目中的所述图像像素值对应的样板数据执行一个或更多个操作。


2.如权利要求1所述的处理器,其中所述分库式寄存器文件包括多个向量寄存器库。


3.如权利要求2所述的处理器,其中所述多个向量寄存器库中的一个库的宽度与所述分库式寄存器文件的一个寄存器文件项目的大小是相同的。


4.如权利要求2所述的处理器,其中所述多个向量寄存器库包括四个向量寄存器库。


5.如权利要求4所述的处理器,其中所述四个寄存器库被配置为实现32个1行1D向量寄存器、16个2行2D向量寄存器、8个4行2D向量寄存器或其组合。


6.如权利要求1所述的处理器,其中所述处理器被配置为使用所述分库式寄存器文件来实现多个较小样板指令。


7.如权利要求6所述的处理器,其中所述多个较小样板指令包括3×3Stencil2D指令、4×4Stencil2D指令、1×3Stencil1D指令、1×4Stencil1D指令、3×1Stencil1D指令、4×1Stencil1D指令或其组合。


8.如权利要求7所述的处理器,其中所述多个较小样板指令包括使用所述1×3Stencil1D指令、所述1×4Stencil1D指令、所述3×1Stencil1D指令、所述4×1Stencil1D指令或其组合来实...

【专利技术属性】
技术研发人员:瓦察哈特·卡迪尔雷翰·哈弥德
申请(专利权)人:深视有限公司
类型:发明
国别省市:美国;US

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利