根据多操作指令及单操作指令运行的计算装置制造方法及图纸

技术编号:35845194 阅读:22 留言:0更新日期:2022-12-07 10:24
本发明专利技术涉及根据指令集运行的设备,其中本发明专利技术的计算装置包括在集成电路装置中,该集成电路装置包括通用互联接口和其他处理装置。计算装置与其他处理装置进行交互,共同完成用户指定的计算操作。集成电路装置还可以包括存储装置,存储装置分别与计算装置和其他处理装置连接,用于计算装置和其他处理装置的数据存储。储。储。

【技术实现步骤摘要】
根据多操作指令及单操作指令运行的计算装置


[0001]本专利技术一般地涉及神经网络领域。更具体地,本专利技术涉及根据多操作指令及多个单操作指令运行的计算装置。

技术介绍

[0002]传统的CPU、GPU、DSP指令集基于最大化可编程性的目的,指令集设计中会采用了一条指令完成一个动作的设计,例如RISC(reduced instruction set computing)指令集或VLIW(very long instruction word)指令集等,这类指令统称为单操作指令,或称为单指令流单数据流(single instruction single data,SISD),指令部件每次仅译码一条指令,而且在执行时仅为操作部件提供一份数据。
[0003]由于单操作指令无法一次性地处理批量数据,因此针对CPU开发出SIMD(single instruction multiple data)指令集,利用一条指令操作多个数据,主要用于支持小碎数据的并行操作。以图像处理为例,图像常用的数据类型有RGB565、RGBA8888、YUV422等格式,这些格式的数据特点是一个像素点的一个分量用小于或等于8比特,而CPU的寄存器的单位存储一般是32比特或是64比特的,如果使用单操作指令来控制,处理一个8比特的像素点却要占用32比特或是64比特的寄存器空间,会造成资源浪费,而SIMD指令可以一次性地处理4个或8个像素点,同步完成4个或8个操作,充分利用寄存器的空间,计算效率也提升了数倍。
[0004]随着人工智能的迅猛发展,越来越多的人工智能专用处理器问世,而神经网络的各种应用场景(例如图像处理)都需要大量且重复的执行一种任务,像是数据搬运、矩阵乘、矩阵加等。如果仅利用单操作指令来控制,同样无法善用硬件资源,因此一种可执行多操作指令的人工智能处理方案是迫切需要的。

技术实现思路

[0005]为了至少部分地解决
技术介绍
中提到的技术问题,本专利技术的方案提供了一种根据多操作指令及单操作指令运行的计算装置。
[0006]在一个方面中,本专利技术揭露一种根据多操作指令及多个单操作指令运行的计算装置,连接至片外内存。所述计算装置包括存储核及处理器核。
[0007]存储核包括共享存储单元,共享存储单元用以根据第一多操作指令,自片外内存载入图像数据及权值,当第一多操作指令为矩阵乘指令时,存储核根据矩阵乘指令将图像数据分割成多个子图,并将权值分割成多个权值子数据,存储核生成第一数据及第二数据,其中第一数据包括第一子图及第一权值子数据,第二数据包括第二子图及第二权值子数据,第一数据及第二数据存储在共享存储单元中。
[0008]处理器核包括运算模块及控制模块。运算模块包括前转数单元、矩阵运算单元及后转数单元;控制模块用以根据多个单操作指令,将第一数据及第二数据输入至运算模块运算。前转数单元读取第一数据及第二数据进行处理,将第一子图及第二子图转换成定点数,矩阵运算单元分别将转换后的第一子图及第二子图与第一权值子数据及第二权值子数
据进行矩阵乘运算,后转数单元将矩阵乘运算的结果转换回浮点数的中间结果。
[0009]本专利技术利用多操作指令处理存在数据依赖的运算序列,批量处理图像数据,不需要额外的处理器结构设计或者编译优化技术来解决数据依赖问题,大大提高了运算序列的执行速度。
附图说明
[0010]通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,并且相同或对应的标号表示相同或对应的部分其中:
[0011]图1是示出本专利技术实施例的板卡的结构图;
[0012]图2是示出本专利技术实施例的集成电路装置的结构图;
[0013]图3是示出本专利技术实施例的计算装置的内部结构示意图;
[0014]图4是示出本专利技术实施例的处理器核的内部结构示意图;
[0015]图5是示出当一个处理器核欲将数据写入至另一个集群的处理器核时的示意图;以及
[0016]图6是示出图像数据自DRAM载入至SRAM再载入至NRAM的示意图。
具体实施方式
[0017]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0018]应当理解,本专利技术的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。本专利技术的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0019]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的,而并不意在限定本专利技术。如在本专利技术说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本专利技术说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0020]如在本说明书和权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。
[0021]下面结合附图来详细描述本专利技术的具体实施方式。
[0022]图1示出本专利技术实施例的一种板卡10的结构示意图。如图1所示,板卡10包括芯片101,其是一种系统级芯片(System on Chip,SoC),或称片上系统,集成有一个或多个组合处理装置,组合处理装置是一种人工智能运算单元,用以支持各类深度学习和机器学习算法,满足计算机视觉、语音、自然语言处理、数据挖掘等领域复杂场景下的智能处理需求。特别是深度学习技术大量应用在云端智能领域,云端智能应用的一个显著特点是输入数据量
大,对平台的存储能力和计算能力有很高的要求,此实施例的板卡10适用在云端智能应用,具有庞大的片外内存、片上存储和强大的计算能力。
[0023]芯片101通过对外接口装置102与外部设备103相连接。外部设备103例如是服务器、计算机、摄像头、显示器、鼠标、键盘、网卡或wifi接口等。待处理的数据可以由外部设备103通过对外接口装置102传递至芯片101。芯片101的计算结果可以经由对外接口装置102传送回外部设备103。根据不同的应用场景,对外接口装置102可以具有不同的接口形式,例如PCIe接口等。
[0024]板卡10还包括用于存储数据的存储器件104,其包括一个或多个存储单元105。存储器件104通过总线与控制器件106和芯片101进行连接和数据传输。板卡10中的控制器件106配置用于对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种根据指令集中的多操作指令及多个单操作指令运行的计算装置,连接至片外内存,所述计算装置包括:存储核,包括共享存储单元,所述共享存储单元用以根据第一多操作指令,自所述片外内存载入图像数据及权值,当所述第一多操作指令为矩阵乘指令时,所述存储核根据所述矩阵乘指令将所述图像数据分割成多个子图,并将所述权值分割成多个权值子数据,所述存储核生成第一数据及第二数据,其中所述第一数据包括第一子图及第一权值子数据,所述第二数据包括第二子图及第二权值子数据,所述第一数据及第二数据存储在所述共享存储单元中;以及处理器核,包括:运算模块,包括前转数单元、矩阵运算单元及后转数单元;以及控制模块,用以根据所述多个单操作指令,将所述第一数据及第二数据输入至所述运算模块运算;其中,所述前转数单元读取所述第一数据及第二数据进行处理,将所述第一子图及第二子图转换成定点数,所述矩阵运算单元分别...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:上海寒武纪信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1