迁移学习的硬件加速器扩展—将训练扩展/完成到边缘制造技术

技术编号:29712872 阅读:17 留言:0更新日期:2021-08-17 14:45
一种用于在边缘设备的硬件加速器上训练神经网络的计算机实现的方法,包括将训练好的神经网络划分为领域独立部分和领域依赖部分。神经网络的领域独立部分被部署到边缘设备的硬件加速器的专用神经网络处理单元上,并且神经网络的领域依赖部分被部署到边缘设备的硬件加速器的一个或多个附加处理器上。使用在边缘设备处收集的数据来重新训练硬件加速器的附加处理器上的领域依赖部分。

【技术实现步骤摘要】
【国外来华专利技术】迁移学习的硬件加速器扩展—将训练扩展/完成到边缘
本公开总体上涉及迁移学习的硬件加速器扩展,以便将训练扩展/完成到边缘。例如,本文描述的各种系统、方法和装置可以应用于开发物联网(IoT)和其它边缘设备处的高度定制化的神经网络。
技术介绍
分类是一种机器学习任务,它为给定的数据点集合预测一个类。近年来,在诸如图像和语音识别的分类任务中,准确度有了明显提高。新方法使用人工深度神经网络,并在诸如ImageNet的大型公共数据集上实现超人类精度。这一发展由用于训练的超大数据集和基于数据中心/云的计算能力来推动。关于主要以消费者为中心(例如,基于自由共享的照片)的领域的学习现在正转移到其他领域,例如工业和医疗保健领域。应用包括基于深度强化学习的大型发电燃气轮机排放优化、基于视觉的机器人控制和非标准对象的抓取、制成品的视觉质量控制等。深度神经网络的工业应用面临的一个挑战是,可用的数据通常不如已成功部署这些算法的其他领域那么多。例如,人们不能记录一个具有特定缺陷的零件的成千上万个表示,以在将来自动检测它。此外,许多工业应用程序要求高数据安全性,不是所有供应商都对在云中共享甚至存储这种数据感到舒适。此外,还存在关于延迟、通用实时要求、带宽以及在没有数据连接的情况下离线运行设施的要求的限制。这些考虑促进了当前从云应用到边缘计算应用的趋势。术语“边缘计算”是指与集中式云计算环境相反,在位于机器附近或机器上的设备节点上执行的计算。虽然边缘方法解决了上面所讨论的一些挑战,但是边缘计算也带来了限制可用计算性能的问题。复杂的深度神经网络无法在低功耗CPU上运行实时应用,导致了AI专用硬件加速器的趋势。然而,用于在云中训练大型深层神经网络的数据中心仍然比边缘AI加速器具有显著更高的性能,边缘AI加速器必须以几瓦来运行才能实现被动冷却,从而在不移动部件的情况下实现高可靠性。例如,如Silver,D等人的用深度神经网络和树搜索掌握围棋游戏(MasteringthegameofGowithdeepneuralnetworksandtreesearch),Nature529,484–489(2016)中所描述的AlphaGOLee在数据中心的48个TPU上训练了几个月以实现最佳性能。允许在边缘上进行训练的灵活解决方案是基于CPU或GPU的。不幸的是,这些解决方案要么与AI特定的硬件加速器相比在计算上受到限制,要么需要明显更多的功率,这限制了它们在工业边缘环境和使用边缘设备的其他操作环境中的使用。
技术实现思路
本专利技术的实施例通过提供方法、系统和装置来解决和克服上述缺点和不足中的一个或多个,这些方法、系统和装置与通过将训练扩展/完成到边缘来迁移学习的硬件加速器扩展有关。根据一些实施例,用于在边缘设备的硬件加速器上训练神经网络的计算机实现的方法包括将训练好的神经网络划分成领域独立部分和领域依赖部分。神经网络的领域独立部分被部署到边缘设备的硬件加速器的专用神经网络处理单元上,并且神经网络的领域依赖部分被部署到边缘设备的硬件加速器的一个或多个附加处理器上。使用在边缘设备处收集的数据在硬件加速器的附加处理器上重新训练领域依赖部分。根据其他实施例,边缘设备通过网络连接到远程计算机系统。边缘设备具有硬件加速器,该硬件加速器包括一条或多条通信总线、专用神经网络处理单元以及一个或多个处理器。专用神经网络处理单元执行训练好的神经网络的领域独立部分。处理器执行通过通信总线连接到领域独立部分的训练好的神经网络的领域依赖部分。处理器使用在边缘设备处收集的数据来重新训练领域依赖部分。根据其他实施例,用于训练神经网络的系统包括计算机和边缘设备。计算机将神经网络划分成领域独立部分和领域依赖部分,其中至少领域独立部分是预先训练好的。边缘设备经由网络从计算机接收领域独立部分和领域依赖部分。边缘设备将神经网络的领域独立部分部署到边缘设备的硬件加速器的专用神经网络处理单元上。神经网络的领域依赖部分被部署到边缘设备的硬件加速器的一个或多个附加处理器上。边缘设备使用在边缘设备处收集的数据在硬件加速器的附加处理器上训练领域依赖部分。在部署和重新训练之后,边缘设备使用领域独立部分和领域依赖部分来执行一个或多个任务。作为上述系统的变型,在一些实施例中,边缘设备经由网络从计算机仅接收领域独立部分。神经网络的该领域独立部分被部署到边缘设备的硬件加速器的专用神经网络处理单元上。然后,边缘设备将神经网络的新版本的领域依赖部分生成到边缘设备的硬件加速器的一个或多个附加处理器上。边缘设备使用在边缘设备处收集的数据在硬件加速器的附加处理器上训练新版本的领域依赖部分。在部署和训练之后,边缘设备使用新版本的领域独立部分和领域依赖部分来执行一个或多个任务。从下面参照附图对说明性实施例的具体实施方式中,本专利技术的其他特征和优点将变得显而易见。附图说明当结合附图阅读时,从下面的具体实施方式中可以最好地理解本专利技术的前述和其他方面。为了说明本专利技术的目的,在附图中示出了目前优选的实施例,然而,应当理解,本专利技术不限于所公开的特定手段。附图中包括下面的图:图1A示出了根据本专利技术的一些实施例配置的示例边缘设备架构;图1B示出了根据本专利技术的一些实施例配置的替代边缘设备架构;以及图2示出了根据一些实施例的用于在边缘设备的硬件加速器上训练神经网络的计算机实现的方法。具体实施方式以下公开描述了根据针对与硬件加速器扩展相关的方法、系统和装置的几个实施例的本专利技术,这些硬件加速器扩展通过将训练扩展/完成到边缘来迁移学习。在典型的神经网络部署中,最大的数据集被记录在边缘处,并被上传到云,以重新训练神经网络来获得最佳性能。然后在边缘处下载并应用该网络。每当需要向网络添加新类时,都重复该过程。这种方法的原因是神经网络硬件加速器被设计成最大化它们的推理(interference)性能。在架构中没有考虑训练所需的神经网络权重的快速迭代变化,因为硬件计算能力不足以进行全面训练,并且不会接触到来自边缘处的大型数据库的数百万个示例。一种替代方法是收集数据,并在本地服务器上进行训练以解决数据隐私忧虑。此后,更新后的网络被上传回边缘硬件,以供将来推理。这两种方法都不允许在边缘设备内部用最少的数据进行训练(而无需与其他系统接口),并且同时允许设备推理的连续操作(即,无需停止工厂加工线)。采用本文描述的技术,神经网络被划分为固定部分和灵活部分。固定部分是(例如,用云中的数百万个示例)预先训练好的,并且用作特征提取层。然后,固定部分可以部署在硬件加速器的推理优化的部分上。神经网络的灵活部分用于训练新的类和使当前的分类器动态自适应。然后,该灵活部分可以被部署在硬件加速器的灵活部分(例如,例如流混合架构矢量引擎(StreamingHybridArchitectureVectorEngine,SHAVE)处理器、GPU或CPU)中。通过在边缘处在低功耗硬件上执行神经网络训练/自适应,我们可以实现更灵活的应用,包括基于连续学习的方法。这将使神经网络的本文档来自技高网
...

【技术保护点】
1.一种用于在边缘设备的硬件加速器上训练神经网络的计算机实现的方法,所述方法包括:/n将训练好的神经网络划分成领域独立部分和领域依赖部分;/n将所述神经网络的领域独立部分部署到所述边缘设备的硬件加速器的专用神经网络处理单元上;/n将所述神经网络的领域依赖部分部署到所述边缘设备的硬件加速器的一个或多个附加处理器上;/n使用在所述边缘设备处收集的数据在所述硬件加速器的附加处理器上重新训练所述领域依赖部分。/n

【技术特征摘要】
【国外来华专利技术】1.一种用于在边缘设备的硬件加速器上训练神经网络的计算机实现的方法,所述方法包括:
将训练好的神经网络划分成领域独立部分和领域依赖部分;
将所述神经网络的领域独立部分部署到所述边缘设备的硬件加速器的专用神经网络处理单元上;
将所述神经网络的领域依赖部分部署到所述边缘设备的硬件加速器的一个或多个附加处理器上;
使用在所述边缘设备处收集的数据在所述硬件加速器的附加处理器上重新训练所述领域依赖部分。


2.根据权利要求1所述的方法,其中,在通过网络连接到所述边缘设备的远程计算机系统处划分所述训练好的神经网络。


3.根据权利要求1所述的方法,其中,在所述边缘设备处使用所述附加处理器来划分所述训练好的神经网络。


4.根据权利要求1所述的方法,其中,基于所述边缘设备的硬件特性来选择包括在所述领域依赖部分中的所述训练好的神经网络的层数。


5.根据权利要求1所述的方法,其中,所述领域独立部分对输入数据集执行特征提取,并且所述领域依赖部分对所述领域独立部分的输出执行一个或多个图像处理任务。


6.根据权利要求5所述的方法,其中,所述图像处理任务包括对象检测、对象分割、图像分类或定位中的一个或多个。


7.根据权利要求1所述的方法,其中,使用不特定于工厂操作环境的第一数据集来训练所述神经网络,并且使用特定于所述工厂操作环境的第二数据集来重新训练所述神经网络的领域依赖部分。


8.根据权利要求7所述的方法,其中,所述第一数据集和所述第二数据集包括图像数据。


9.根据权利要求7所述的方法,其中,所述第一数据集和所述第二数据集包括音频数据。


10.根据权利要求1所述的方法,其中,所述硬件加速器的附加处理器是SHAVE向量处理器。


11.根据权利要求1所述的方法,其中,所述硬件加速器的附加处理器是图形处理单元(GPU)。


12.根据权利要求1所述的方法,其中,所述硬件加速器的附加处理器是中央处理单元(CPU)。


13.一种通过网络连接到远程计算机系统的边缘设备,所述边缘设备包括:
硬件加速器,包括:
一条或多条通信总线,
专用神经网络处理单元,执行训练好的神经网络的领域独立部分,以及
一个或多个处理器,执行通过所述通信总线连接到所述领域独立部分的、所述训练好的神经网络的领域依赖部分,

【专利技术属性】
技术研发人员:H克劳森M塞尔E索洛乔C温JL阿帕里希奥奥杰亚
申请(专利权)人:西门子股份公司
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1