短整形转半精度浮点指令处理装置、方法及相关产品制造方法及图纸

技术编号:27433570 阅读:18 留言:0更新日期:2021-02-25 03:12
本申请涉及一种短整形转半精度浮点指令处理装置、方法及相关产品,用于从其他处理装置中获取待运算数据和控制信息,并执行指定的机器学习运算,将执行结果通过I/O接口传递给其他处理装置。本申请实施例所提供的短整形转半精度浮点指令处理装置、方法及相关产品的适用范围广,对短整形转半精度浮点指令的处理效率高、处理速度快。处理速度快。处理速度快。

【技术实现步骤摘要】
短整形转半精度浮点指令处理装置、方法及相关产品


[0001]本申请涉及计算机
,尤其涉及一种短整形转半精度浮点指令处理装置、方法及相关产品。

技术介绍

[0002]随着科技的不断发展,机器学习,尤其是神经网络算法的使用越来越广泛。其在图像识别、语音识别、自然语言处理等领域中都得到了良好的应用。但由于神经网络算法的复杂度越来越高,需要将张量等数据进行数据类型转换的需求不断增多。但是现有的短整形转半精度浮点指令和相关
[0003]技术当中,无法高效的支持数据短整形转半精度浮点指令的灵活运行,执行效率低、执行速度慢。

技术实现思路

[0004]有鉴于此,本申请提出了一种短整形转半精度浮点指令处理装置、方法及相关产品,以提高短整形转半精度浮点指令的处理的效率和速度。
[0005]根据本申请的第一方面,提供了一种短整形转半精度浮点指令处理装置,所述装置包括:
[0006]控制模块,用于对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;
[0007]执行模块,用于在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址。
[0008]根据本申请的第二方面,提供了一种机器学习运算装置,所述装置包括:
[0009]一个或多个如第一方面所述的短整形转半精度浮点指令处理装置,用于从其他处理装置中获取待运算数据和控制信息,并执行指定的机器学习运算,将执行结果通过I/O接口传递给其他处理装置;
[0010]当所述机器学习运算装置包含多个所述短整形转半精度浮点指令处理装置时,所述多个所述短整形转半精度浮点指令处理装置间可以通过特定的结构进行连接并传输数据;
[0011]其中,多个所述短整形转半精度浮点指令处理装置通过快速外部设备互连总线PCIE总线进行互联并传输数据,以支持更大规模的机器学习的运算;多个所述短整形转半精度浮点指令处理装置共享同一控制系统或拥有各自的控制系统;多个所述短整形转半精度浮点指令处理装置共享内存或者拥有各自的内存;多个所述短整形转半精度浮点指令处理装置的互联方式是任意互联拓扑。
[0012]根据本申请的第三方面,提供了一种组合处理装置,所述组合处理装置包括:
[0013]如上述第二方面的机器学习运算装置、通用互联接口和其他处理装置;
[0014]所述机器学习运算装置与所述其他处理装置进行交互,共同完成用户指定的操
作,
[0015]其中,所述组合处理装置还包括:存储装置,该存储装置分别与所述机器学习运算装置和所述其他处理装置连接,用于保存所述机器学习运算装置和所述其他处理装置的数据。
[0016]根据本申请的第四方面,提供了一种机器学习芯片,所述机器学习芯片包括上述第二方面所述的机器学习络运算装置或上述第三方面所述的组合处理装置。
[0017]根据本申请的第五方面,提供了一种机器学习芯片封装结构,该机器学习芯片封装结构包括上述第四方面所述的机器学习芯片。
[0018]根据本申请的第六方面,提供了一种板卡,该板卡包括上述第五方面所述的机器学习芯片封装结构。
[0019]根据本申请的第七方面,提供了一种电子设备,所述电子设备包括上述第四方面所述的机器学习芯片或上述第六方面所述的板卡。
[0020]根据本申请的第八方面,提供了一种短整形转半精度浮点指令处理方法,所述方法应用于短整形转半精度浮点指令处理装置,所述方法包括:
[0021]对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;
[0022]在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址。
[0023]在一些实施例中,所述电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。
[0024]在一些实施例中,所述交通工具包括飞机、轮船和/或车辆;所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机;所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。
[0025]本申请实施例所提供的短整形转半精度浮点指令处理装置,该装置包括控制模块和执行模块,控制模块,用于对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;执行模块,用于在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在目的地址。本申请实施例所提供的短整形转半精度浮点指令处理装置的适用范围广,对短整形转半精度浮点指令的处理效率高、处理速度快。
[0026]根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。
附图说明
[0027]包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
[0028]图1示出根据本申请一实施例的短整形转半精度浮点指令处理装置的框图。
[0029]图1a、图1b示出了根据本申请一实施例的短整形转半精度浮点指令处理装置的框
图。
[0030]图2a-图2e示出根据本申请一实施例的短整形转半精度浮点指令处理装置的框图。
[0031]图3示出根据本申请一实施例的短整形转半精度浮点指令处理装置的应用场景的示意图。
[0032]图4a、图4b示出根据本申请一实施例的组合处理装置的框图。
[0033]图5示出根据本申请一实施例的板卡的结构示意图。
[0034]图6示出根据本申请一实施例的短整形转半精度浮点指令处理方法的流程图。
具体实施方式
[0035]以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
[0036]在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
[0037]另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
[0038]图1示出根据本申请一实施例的短整形转半精度浮点指令处理装置的框图。如图1所示,该装置包括控制模块11和执行模块12。
[0039]控制模块11,用于对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;
[0040]执行模块12,用于在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种短整形转半精度浮点指令处理装置,其特征在于,所述装置包括:控制模块,用于对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;执行模块,用于在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址。2.根据权利要求1所述的装置,其特征在于,所述控制模块,还用于得到所述短整形转半精度浮点指令的操作域中的元素数量;所述执行模块,还用于根据所述元素数量在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后存储在所述目的地址。3.根据权利要求2所述的装置,其特征在于,所述控制模块,还用于得到所述短整形转半精度浮点指令的操作域中的转换次数;所述执行模块,还用于根据所述元素数量在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后存储在所述目的地址,所述执行模块根据所述转换次数重复执行上述步骤,且每次提取的待转换元素不重叠。4.一种机器学习运算装置,其特征在于,所述装置包括:一个或多个如权利要求1-3任一项所述的短整形转半精度浮点指令处理装置,用于从其他处理装置中获取待运算数据和控制信息,并执行指定的机器学习运算,将执行结果通过I/O接口传递给其他处理装置;当所述机器学习运算装置包含多个所述短整形转半精度浮点指令处理装置时,所述多个所述短整形转半精度浮点指令处理装置间可以通过特定的结构进行连接并传输数据;其中,多个所述短整形转半精度浮点指令处理装置通过快速外部设备互连总线PCIE总线进行互联并传输数据,以支持更大规模的机器学习的运算;多个所述短整形转半精度浮点指令处理装置共享同一控制系统或拥有各自的控制系统;多个所述短整形转半精度浮点指令处理装置共享内存或者拥有各自的内存;多个所述短整形转半精度浮点指令处理装置的互联方式是任意互联拓扑。5.一种组合处...

【专利技术属性】
技术研发人员:ꢀ五一IntClG零六F七四八三
申请(专利权)人:上海寒武纪信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1