用于深度学习应用的存储器带宽管理制造技术

技术编号：17352132 阅读：40 留言：0更新日期：2018-02-25 22:48

在数据中心中，通过使用现场可编程门阵列(FPGA)或其他并行处理器，神经网络评估可以被包括以用于涉及图像或语音识别的服务。将来自外部存储器的加权的数据集提供给FPGA(或其他并行处理器)的存储器带宽限制可以通过以至少两个特征向量的批次对来自在FPGA(或其他并行处理器)处执行服务的多个核心的输入数据排队来管理。至少两个特征向量可以是来自相同数据流或来自不同数据流的至少两个观测向量。FPGA(或其他并行处理器)继而可以针对加权的数据集的每次加载对一批数据采取动作。

Memory bandwidth management for deep learning applications

In data center, by using field programmable gate array (FPGA) or other parallel processors, neural network evaluation can be included for service involving image or speech recognition. Weighted from external memory data sets available to FPGA (or other parallel processor) the memory bandwidth limit by at least two batches of feature vectors from the FPGA (or other parallel processor) input data of a plurality of core executive service queuing management. At least two feature vectors can be at least two observation vectors from the same data stream or from different data streams. FPGA (or other parallel processors) can then act on a batch of data for each load of a weighted data set.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于深度学习应用的存储器带宽管理
技术介绍
人工智能(AI)应用涉及被制作为展现诸如学习、交流、感知、运动和操纵、以及甚至创作的智能行为的机器或软件。这些机器或软件可以通过诸如搜索和优化、逻辑、概率方法、统计学习以及神经网络的各种方法来实现这种智能行为。沿着这些思路，各种深度学习架构，例如包括深度多层感知机(MLP)的深度学习网络(深度NN)(常常被称为DNN)、卷积深度神经网络、深度信念网络、递归神经网络(RNN)、以及长短期记忆(LSTM)RNN，对于其应用到如计算机视觉、图像处理/识别、语音处理/识别、自然语言处理、音频识别、以及生物信息学等领域，已经获得了关注。深度NN通常包括输入层、任意数量的隐藏层以及输出层。每个层包含特定量的单元，其可以遵循神经模型，并且每个单元对应于特征向量中的元素(例如输入数据集的观测向量)。每个单元通常使用加权的函数(例如，逻辑函数)来将其来自下层的总输入映射到被发送到上层的标量状态。(通常经由无监督机器学习)训练神经网络的层并且该层的单元被分配以权重。取决于神经网络层的深度，在系统中使用的权重的总数目可以是巨大的。许多计算机视觉、图像处理/识别、语音处理/识别、自然语言处理、音频识别、以及生物信息学在对大量使用者和企业客户可用的服务进行支持的数据中心处被运行并管理。数据中心被设计为以模块化且灵活的方式运行并操作计算机系统(服务器、存储设备、以及其他计算机)、通信设备以及功率系统。数据中心工作负载要求高计算能力、灵活性、功率高效和低成本。能够加速大规模软件服务的至少一些部分可以实现期望的吞吐量并且使得这些数据中心能够满足它们的...
用于深度学习应用的存储器带宽管理

【技术保护点】
一种执行神经网络过程的方法，所述方法包括：在现场可编程门阵列(FPGA)处接收一批输入数据以用于神经网络评估的加速处理，其中所述一批输入数据包括至少两个特征向量；利用来自外部存储器的用于所述神经网络评估的第一层权重集合来加载所述FPGA；以及在所述FPGA内将所述第一层权重集合应用到所述一批输入数据以生成针对所述神经网络评估的中间结果。

【技术特征摘要】
【国外来华专利技术】2015.06.25 US 14/750,2771.一种执行神经网络过程的方法，所述方法包括：在现场可编程门阵列(FPGA)处接收一批输入数据以用于神经网络评估的加速处理，其中所述一批输入数据包括至少两个特征向量；利用来自外部存储器的用于所述神经网络评估的第一层权重集合来加载所述FPGA；以及在所述FPGA内将所述第一层权重集合应用到所述一批输入数据以生成针对所述神经网络评估的中间结果。2.根据权利要求1所述的方法，其中所述至少两个特征向量包括来自至少两个数据流中的每个数据流的一个观测向量。3.根据权利要求2所述的方法，其中所述神经网络评估为递归神经网络评估。4.根据权利要求1所述的方法，其中所述至少两个特征向量包括来自至少两个数据流中的每个数据流的至少两个观测向量。5.根据权利要求1所述的方法，其中所述至少两个特征向量包括来自单个数据流的至少两个观测向量。6.根据权利要求1所述的方法，还包括：在将所述第一层权重集合应用到所述批次之后，利用来自所述外部存储器的用于所述神经网络评估的第二层权重集合加载所述FPGA；以及在所述FPGA内将所述第二层权重集合应用到所述中间结果。7.一个或多个计算机可读存储介质，具有存储在其上的指令，所述指令当由处理系统执行时引导所述处理系统管理存储器带宽以用于深度学习应用，所述管理通过：引导来自至少一个核心的一批至少两个观测向量在现场可编程门阵列(FPGA)处排队；在所述FPGA上加载至少一个加权的数据集，所述至少一个加权的数据集中的每个加权的数据集按照被引导在所述FPGA处排队的所述至少两个观测向量的批次被一次加载；以及将来自所述FPGA的评估输出引导到所述至少一个核心以用于进一步处理。8.根据权利要求7所述的介质，其中引导来自至少一个核...

【专利技术属性】
技术研发人员：R·A·小彼特纳，F·T·B·塞德，
申请(专利权)人：微软技术许可有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人