缓存控制器、集成电路装置及板卡制造方法及图纸

技术编号:29614434 阅读:18 留言:0更新日期:2021-08-10 18:28
本发明专利技术涉及缓存控制器、集成电路装置及板卡,其中缓存控制器包括在集成电路装置中,该集成电路装置包括通用互联接口和其他处理装置。计算装置与其他处理装置进行交互,共同完成用户指定的计算操作。集成电路装置还可以包括存储装置,存储装置分别与计算装置和其他处理装置连接,用于计算装置和其他处理装置的数据存储。

【技术实现步骤摘要】
缓存控制器、集成电路装置及板卡
本专利技术一般地涉及神经网络领域。更具体地,本专利技术涉及缓存控制器、集成电路装置及板卡。
技术介绍
随着人工智能技术的普及与发展,深度神经网络模型趋向复杂,有些模型包括上百层的算子,使得运算量急速上升。减少运算量有多种途经,其中一种便是量化。量化指的是把以高精度浮点数表示的权值和激活值转换用低精度的整数来近似表示,其优点包括低内存带宽、低功耗、低计算资源占用以及低模型存储需求等。量化是目前常用简化数据量的方式,但量化操作尚缺硬件支持,对于现有的加速器来说,大都采用离线量化数据,故需要通用处理器来辅助处理,效率不佳。因此,一种高能效的量化硬件是迫切需要的。
技术实现思路
为了至少部分地解决
技术介绍
中提到的技术问题,本专利技术的方案提供了一种缓存控制器、集成电路装置及板卡。在一个方面中,本专利技术揭露一种缓存控制器,连接至直接存储器访问与缓存阵列,缓存阵列的一行存储相同量化格式的数据,缓存控制器包括量化数据缓存元件,用以暂存直接存储器访问发送的量化数据及标签,标签记录量化数据的量化格式。在另一个方面,本专利技术揭露一种集成电路装置,包括前述的缓存控制器,还揭露一种板卡,包括前述的集成电路装置。本专利技术实现了在线动态统计的量化,减少不必要的数据访问,达到高精度参数更新的技术功效,使得神经网络模型更精准且更轻量,且数据直接在内存端进行量化,抑制因量化长尾分布数据所导致的误差。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,并且相同或对应的标号表示相同或对应的部分其中:图1是示出本专利技术实施例的板卡的结构图;图2是示出本专利技术实施例的集成电路装置的结构图;图3是示出本专利技术实施例的计算装置的内部结构示意图;图4是示出本专利技术实施例的处理器核的内部结构示意图;图5是示出当一个处理器核欲将数据写入至另一个集群的处理器核时的示意图;图6是示出本专利技术实施例与量化运算相关硬件的示意图;图7是示出本专利技术实施例的统计量化器的示意图;图8是示出本专利技术实施例的缓存控制器与缓存阵列的示意图;以及图9是示出本专利技术实施例的近数据处理装置的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当理解,本专利技术的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。本专利技术的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的,而并不意在限定本专利技术。如在本专利技术说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本专利技术说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。如在本说明书和权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。下面结合附图来详细描述本专利技术的具体实施方式。深度学习已被证明在包括图像分类、目标检测、自然语言处理等任务上效果很好。现今大量的应用程序都配备了图像(计算机视觉)相关的深度学习算法。深度学习一般都利用神经网络模型来实现。随着模型预测越来越准确,网络越来越深,运行神经网络所需的内存容量与内存带宽相当大,使得设备为了变得智能而付出高昂的代价。实务上,开发者通过压缩、编码数据等方式来减小网络规模,量化是最广泛采用的压缩方法之一。所谓的量化指的是将高精度的浮点数数据(如FP32)转换成低精度的定点数数据(INT8),高精度的浮点数需要较多比特来描述,低精度的定点数则需要较少的比特便能完整描述,通过减少数据的比特数,便能有效地释放智能设备的负担。图1示出本专利技术实施例的板卡10的结构示意图。如图1所示,板卡10包括芯片101,其是一种系统级芯片(SystemonChip,SoC),或称片上系统,集成有一个或多个组合处理装置,组合处理装置是一种人工智能运算单元,可以利用量化优化的处理方式来支持各类深度学习和机器学习算法,满足计算机视觉、语音、自然语言处理、数据挖掘等领域复杂场景下的智能处理需求。特别是深度学习技术大量应用在云端智能领域,云端智能应用的一个显著特点是输入数据量大,对平台的存储能力和计算能力有很高的要求,此实施例的板卡10适用在云端智能应用,具有庞大的片外存储、片上存储和强大的计算能力。芯片101通过对外接口装置102与外部设备103相连接。外部设备103例如是服务器、计算机、摄像头、显示器、鼠标、键盘、网卡或wifi接口等。待处理的数据可以由外部设备103通过对外接口装置102传递至芯片101。芯片101的计算结果可以经由对外接口装置102传送回外部设备103。根据不同的应用场景,对外接口装置102可以具有不同的接口形式,例如PCIe接口等。板卡10还包括用于存储数据的存储器件104,其包括一个或多个存储元件105。存储器件104通过总线与控制器件106和芯片101进行连接和数据传输。板卡10中的控制器件106配置用于对芯片101的状态进行调控。为此,在一个应用场景中,控制器件106可以包括单片机(MicroControllerUnit,MCU)。图2是示出此实施例的芯片101中的组合处理装置的结构图。如图2中所示,组合处理装置20包括计算装置201、接口装置202、处理装置203和近数据处理装置204。计算装置201配置成执行用户指定的操作,主要实现为单核智能处理器或者多核智能处理器,用以执行深度学习或机器学习的计算,其可以通过接口装置202与处理装置203进行交互,以共同完成用户指定的操作。接口装置202用于在计算装置201与处理装置203间传输数据和控制指令。例如,计算装置201可以经由接口装置202从处理装置203中获取输入数据,写入计算装置201片上的存储装置。进一步,计算装置201可以经由接口装置202从处理装置203中获取控制指令,写入计算装置201片上的控制缓存中。替代地或可选地,接口装置202也可以读取计算装置201的存储装置中的数据并传输给处理装置203。处理装置203作为通用的处理装置,执行包括但不限于数据搬运、对计算装置201的本文档来自技高网...

【技术保护点】
1.一种缓存控制器,连接至直接存储器访问与缓存阵列,所述缓存阵列的一行存储相同量化格式的数据,所述缓存控制器包括量化数据缓存元件,用以暂存所述直接存储器访问发送的量化数据及标签,所述标签记录所述量化数据的量化格式。/n

【技术特征摘要】
1.一种缓存控制器,连接至直接存储器访问与缓存阵列,所述缓存阵列的一行存储相同量化格式的数据,所述缓存控制器包括量化数据缓存元件,用以暂存所述直接存储器访问发送的量化数据及标签,所述标签记录所述量化数据的量化格式。


2.根据权利要求1所述的缓存控制器,还包括:
特定标签缓存元件,用以暂存所述量化数据欲存储至所述缓存阵列的特定行的特定标签,所述特定标签记录所述特定行的量化格式;以及
量化元件,用以判断所述标签与所述特定标签是否相同,如不同,调整所述量化数据的量化格式为所述特定行的量化格式。


3.根据权利要求2所述的缓存控制器,其中所述量化元件将调整后的量化数据存储至所述特定行。<...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:中科寒武纪科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1