使用块浮点的微型机器学习的系统和方法技术方案

技术编号:46366921 阅读:7 留言:0更新日期:2025-09-15 12:43
一种系统,包括第一FP转BFP转换器、第二FP转BFP转换器、8位整数乘法器、加法器、累加器和BFP转FP转换器。第一FP转BFP转换器和第二FP转BFP转换器分别接收32位浮点的像素和滤波器数据,并将其尾数简化为8位BFP格式。8位整数乘法器通过乘法累加运算处理这些BFP格式的值,并以此生成16位乘积的数据。加法器将多个16位乘积的数据累加为64位和的数据,并且累加器进一步将其聚合。BFP转FP转换器将64位累加和的数据转换为32位FP表示的输出数据。

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术涉及一种在资源受限的硬件上,能高效执行深度学习模型的系统和方法。


技术介绍

1、在当前智能城市和智能家居的发展背景下,物联网(iot)设备是实现实时人工智能(ai)并驱动自动化的关键因素。然而,大多数ai应用场景需要大量的硬件资源,包括高计算能力、高数据通信带宽和大的内存。由于物联网设备受到自身资源限制,许多ai应用得依赖云服务来处理计算密集型任务。这种依赖云服务的方式存在一些严重缺陷,例如延迟增加,这在实时应用方面会产生阻碍,并且通过网络传输敏感数据也可能带来隐私问题。

2、为了解决这些限制,高效的ai加速技术对于在物联网系统中能实现设备端推理相当重要。这方面的挑战点在于,如何减少机器学习或深度学习模型推理的计算和内存成本,尤其是在资源有限的环境中,挑战将更加严峻。例如,传统的浮点运算对计算和内存的需求很高,这使得其在物联网应用场景的效率低下。

3、块浮点(block floating point;bfp)算法通过降低计算复杂度和内存带宽需求,能提供一种解决方案。然而,现有的实现方式仍然可能面临与硬件效率以及与现代深度学本文档来自技高网...

【技术保护点】

1.一种系统,用于执行深度学习模型计算,其特征在于,包括:

2.根据权利要求1所述的系统,其特征在于,所述第一FP转BFP转换器和所述第二FP转BFP转换器均还用于在将所述尾数转换为8位之前,先确定浮点值的块的共享指数。

3.根据权利要求2所述的系统,其特征在于,所述共享指数被确定为所述浮点值的所述块中的所有浮点值中的最大指数。

4.如权利要求3所述的系统,其特征在于,所述第一FP转BFP转换器和所述第二FP转BFP转换器均还配置为:

5.如权利要求4所述的系统,其特征在于,所述第一FP转BFP转换器和所述第二FP转BFP转换器均还用于在执...

【技术特征摘要】
【国外来华专利技术】

1.一种系统,用于执行深度学习模型计算,其特征在于,包括:

2.根据权利要求1所述的系统,其特征在于,所述第一fp转bfp转换器和所述第二fp转bfp转换器均还用于在将所述尾数转换为8位之前,先确定浮点值的块的共享指数。

3.根据权利要求2所述的系统,其特征在于,所述共享指数被确定为所述浮点值的所述块中的所有浮点值中的最大指数。

4.如权利要求3所述的系统,其特征在于,所述第一fp转bfp转换器和所述第二fp转bfp转换器均还配置为:

5.如权利要求4所述的系统,其特征在于,所述第一fp转bfp转换器和所述第二fp转bfp转换器均还用于在执行右移和截断之前,将隐藏的前导位合并到所述尾数中。

6.根据权利要求5所述的系统,其特征在于,所述第一fp转bfp转换器或所述第二fp转bfp转换器的所述右移和所述截断的操作包括从右移后的24位扩展尾数中,选择最高8位有效位。

7.根据权利要求1所述的系统,其特征在于,具有8位尾数的所述bfp格式包含17位表示形式,包括从所述第一fp转bfp转换器或所述第二fp转bfp转换器获得的1位符号、8位共享指数和8位尾数。

8.根据权利要求1所述的系统,其特征在于,所述加法器用于接收由所述8位整数乘法器执行的连续乘法累加运算所生成的所述多个16位乘积的数据。

9.根据权利要求1所述的系统,其特征在于,所述bfp转fp转换器用于通过提取共享指数,并相应地调整累积尾数来重构所述32位fp表示的输出数据。

10.根据权利要求1所述的系统,其特征在于,所述8位整数乘法器在卷积神经网络(convolutional neural network;cnn)中对所述像素数据和所述滤波器数据进行元素级乘法。

11.一种方法,用...

【专利技术属性】
技术研发人员:吴智伟李淑玲蓝苾峰
申请(专利权)人:香港应用科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1