执行神经网络模型的人工智能处理器、方法及相关产品技术

技术编号:30320373 阅读:22 留言:0更新日期:2021-10-09 23:34
本披露公开了一种执行神经网络模型的人工智能处理器、处理方法及相关产品。该人工智能处理器可以实现为计算装置包括在组合处理装置中,该组合处理装置还可以包括接口装置和其他处理装置。该计算装置与其他处理装置进行交互,共同完成用户指定的计算操作。组合处理装置还可以包括存储装置,该存储装置分别与计算装置和其他处理装置连接,用于存储该计算装置和其他处理装置的数据。本披露的方案提供了神经网络模型中的上池化层和深度卷积层的融合处理方案,其可以有效减少片外访存带宽,缓解访存压力,提高机器的处理效率。提高机器的处理效率。提高机器的处理效率。

【技术实现步骤摘要】
执行神经网络模型的人工智能处理器、方法及相关产品


[0001]本披露一般地涉及数据处理领域。更具体地,本披露涉及执行神经网络模型的人工智能处理器、芯片、板卡及使用人工智能处理器来执行神经网络模型的方法。

技术介绍

[0002]目前,深度学习(Deep Learning)已经成为机器学习中的重要分支,也大力助推着人工智能(AI)的发展。深度学习的核心技术——深度神经网络(DNN)已在诸多行业有着广泛的应用。
[0003]为了提高神经网络模型的表达能力,DNN不断向着更深或更宽的网络规模发展。然而网络层级的增加也带来了数据IO量大、访存供不上数等问题。因此,为了能充分发挥神经网络模型的优势,需要解决人工智能处理器面临的访存困扰问题。

技术实现思路

[0004]为了至少部分地解决
技术介绍
中提到的一个或多个技术问题,本披露的方案提供了一种执行神经网络模型的人工智能处理器、芯片、板卡及使用人工智能处理器来执行神经网络模型的方法。
[0005]在第一方面中,本披露公开一种执行神经网络模型的人工智能处理器,包括控制电路、运算电路和片上存储电路,所述神经网络模型包括上池化层和深度卷积层,其中:所述控制电路用于控制从片外存储电路向所述片上存储电路加载所述上池化层的输入数据以及所述深度卷积层的卷积核;所述运算电路用于针对所述输入数据和所述卷积核执行所述上池化层和深度卷积层的融合运算,并将融合运算结果写回所述片上存储电路;以及所述控制电路进一步用于控制从所述片上存储电路向所述片外存储电路输出所述融合运算结果
[0006]在第二方面中,本披露提供一种芯片,包括前述第一方面任一实施例的人工智能处理器。
[0007]在第三方面中,本披露提供一种板卡,包括前述第二方面任一实施例的芯片。
[0008]在第四方面中,本披露提供一种使用前述第一方面任一实施例的人工智能处理器来执行神经网络模型的方法。
[0009]通过如上所提供的执行神经网络模型的人工智能处理器、使用人工智能处理器来执行神经网络模型的方法、芯片和板卡,本披露实施例提供了一种神经网络模型中的上池化层和深度卷积层的融合优化处理方案,其可以有效减少片外访存带宽,缓解访存压力,提高机器的处理效率。
附图说明
[0010]通过参考附图阅读下文的详细描述,本披露示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本披露的若
干实施方式,并且相同或对应的标号表示相同或对应的部分其中:
[0011]图1示出本披露实施例的板卡的结构图;
[0012]图2示出本披露实施例的组合处理装置的结构图;
[0013]图3示出本披露实施例的单核或多核计算装置的处理器核的内部结构示意图;
[0014]图4示出可以应用本披露实施例的神经网络模型的示例性图示;
[0015]图5示出上池化层的操作示意图;
[0016]图6示出深度卷积层的操作示意图;
[0017]图7示出融合前的上池化层的示例性运算过程;
[0018]图8示出融合前的深度卷积层的示例性运算过程;
[0019]图9示出本披露实施例的上池化层和深度卷积层的融合运算过程;
[0020]图10示出本披露实施例的索引映射关系的示意图;
[0021]图11示出本披露实施例的人工智能处理器的示例性结构框图;以及
[0022]图12示出本披露实施例的由人工智能处理器执行神经网络模型的方法的示例性流程图。
具体实施方式
[0023]下面将结合本披露实施例中的附图,对本披露实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本披露一部分实施例,而不是全部的实施例。基于本披露中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本披露保护的范围。
[0024]应当理解,本披露的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。本披露的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0025]还应当理解,在本披露说明书中所使用的术语仅仅是出于描述特定实施例的目的,而并不意在限定本披露。如在本披露说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本披露说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0026]如在本说明书和权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。
[0027]下面结合附图来详细描述本披露的具体实施方式。
[0028]图1示出本披露实施例的一种板卡10的结构示意图。如图1所示,板卡10包括芯片101,其是一种系统级芯片(System on Chip,SoC),或称片上系统,集成有一个或多个组合处理装置,组合处理装置是一种人工智能运算单元,用以支持各类深度学习和机器学习算法,满足计算机视觉、语音、自然语言处理、数据挖掘等领域复杂场景下的智能处理需求。特别是深度学习技术大量应用在云端智能领域,云端智能应用的一个显著特点是输入数据量大,对平台的存储能力和计算能力有很高的要求,此实施例的板卡10适用在云端智能应用,具有庞大的片外存储、片上存储和强大的计算能力。
[0029]芯片101通过对外接口装置102与外部设备103相连接。外部设备103例如是服务器、计算机、摄像头、显示器、鼠标、键盘、网卡或wifi接口等。待处理的数据可以由外部设备103通过对外接口装置102传递至芯片101。芯片101的计算结果可以经由对外接口装置102传送回外部设备103。根据不同的应用场景,对外接口装置102可以具有不同的接口形式,例如PCIe接口等。
[0030]板卡10还包括用于存储数据的存储器件104,其包括一个或多个存储单元105。存储器件104通过总线与控制器件106和芯片101进行连接和数据传输。板卡10中的控制器件106配置用于对芯片101的状态进行调控。为此,在一个应用场景中,控制器件106可以包括单片机(Micro Controller Unit,MCU)。
[0031]图2是示出此实施例的芯片101中的组合处理装置的结构图。如图2中所示,组合处理装置20包括计算装置201、接口装置202、处理装置203和存储装置204。
[0032]计算装置201配置成执行用户指定的操作,主要实现为单核智能处理器或者多核智能处理器,用以执行深度学习或机器学习的计算,其可以通过接口装置202与处理装置203进行交互,以共同完成用户指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种执行神经网络模型的人工智能处理器,包括控制电路、运算电路和片上存储电路,所述神经网络模型包括上池化层和深度卷积层,其中:所述控制电路用于控制从片外存储电路向所述片上存储电路加载所述上池化层的输入数据以及所述深度卷积层的卷积核;所述运算电路用于针对所述输入数据和所述卷积核执行所述上池化层和深度卷积层的融合运算,并将融合运算结果写回所述片上存储电路;以及所述控制电路进一步用于控制从所述片上存储电路向所述片外存储电路输出所述融合运算结果。2.根据权利要求1所述的人工智能处理器,其中所述运算电路包括:乘法电路,用于将所述卷积核中深度方向上的各个权值向量分别与所述输入数据的深度方向上的输入向量执行对位乘法运算,得到多个深度方向上的结果向量;以及重排电路,用于根据所述上池化层的池化索引,对所述多个结果向量进行重排,以得到所述融合运算结果。3.根据权利要求2所述的人工智能处理器,其中所述重排电路进一步用于:基于所述池化索引,确定各个所述输入向量的索引;按照索引映射关系,根据所述输入向量的索引确定对应的结果向量的索引;以及按照所述结果向量的索引的顺序,对所述结果向量进行重排,以得到所述融合运算结果。4.根据权利要求3所述的人工智能...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:上海寒武纪信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1