用于有效神经网络部署的系统和方法技术方案

技术编号：14854112 阅读：106 留言：0更新日期：2017-03-18 20:58

公开了对于诸如神经网络部署的计算密集型任务实现有效引擎的系统和方法。提供本发明专利技术各实施方式，以针对在诸如实时语音转录的高流量应用中提高串流数据吞吐量的高吞吐量分批。在实施方式中，通过动态聚集成分批以及共同处理在未知定时下随机到达的用户请求来提高吞吐量，使得并非所有数据在进行分批时便立即呈现。一些实施方式允许利用预处理来执行流分类。性能增益允许更有效地使用计算引擎并且极大降低了大规模部署大型神经网络的成本，同时满足严格的应用要求并使增加的计算延迟相对较小，从而保持令人满意的应用体验。

全部详细技术资料下载

【技术实现步骤摘要】
相关申请的交叉引用本申请要求于2015年9月4日提交的、题为“用于有效神经网络部署的系统和方法”以及列出ChristopherFougner和BryanCatanzaro作为专利技术人的第62/214,816号共同受让的未决美国临时专利申请的优先权。前述专利文献就其全部内容以及出于所有目的通过引用并入本文。
本公开大体涉及网络管理，更具体地，涉及用于诸如神经网络部署的计算密集型问题的系统和方法。
技术介绍
图1示出用于部署深度神经网络的现有典型架构。请求经由因特网串流至数据中心中。这些请求被负载均衡器102路由至位于数据中心110处的若干服务器104中之一上。每个请求106由这些服务器104中之一上运行的单个工作线程处理，之后返回结果108。由于仅需要在一个线程上运行用于运行各神经网络中之一的代码，使得代码容易编写，因此架构100易于理解。因为工作线程立即处理每个请求106因而还容易推断出延迟，并且延迟通常是最小化的。最后，因为每个请求106单独被处理，所以该架构使得更容易推断出故障转移。虽然系统100可易于实施，但其不是非常有效。因此，需要提供更有效的神经网络部署并同时满足处理要求的系统和方法。
技术实现思路
本申请的目的在于提供一种用于提高数据处理请求的吞吐量的分批方法、用于处理与神经网络模型有关的请求的批处理系统以及分批生成器。根据一个方面，提供了一种用于提高数据处理请求的吞吐量的分批方法，该方法可包括：以至少部分未知的定时，接收与待通过使用神经网络模型来处理的请求相关的数据，所述请求受一个或多个约束的限制；利用所述一个或多个约束中的至少之一，将所述数据...
用于有效神经网络部署的系统和方法

【技术保护点】
用于提高数据处理请求的吞吐量的分批方法，所述方法包括：以至少部分未知的定时，接收与待通过使用神经网络模型来处理的请求相关的数据，所述请求受一个或多个约束的限制；利用所述一个或多个约束中的至少之一，将所述数据中的至少一些动态聚集成分批；以及利用编排多个线程的单个线程来处理所述分批，以分担从存储器加载所述神经网络模型的负荷，从而提高数据吞吐量。

【技术特征摘要】
2015.09.04 US 62/214,816;2016.07.13 US 15/209,4991.用于提高数据处理请求的吞吐量的分批方法，所述方法包括：以至少部分未知的定时，接收与待通过使用神经网络模型来处理的请求相关的数据，所述请求受一个或多个约束的限制；利用所述一个或多个约束中的至少之一，将所述数据中的至少一些动态聚集成分批；以及利用编排多个线程的单个线程来处理所述分批，以分担从存储器加载所述神经网络模型的负荷，从而提高数据吞吐量。2.根据权利要求1所述的方法，其中所述一个或多个约束包括延迟要求。3.根据权利要求2所述的方法，其中所述延迟要求包括以下要求中的至少之一：在所述请求中的上一包到达之后的预定时间量内处理请求；以及不向已经包含有来自所述请求的数据的分批中添加数据。4.根据权利要求2所述的方法，还包括：将来自对延迟敏感的两个或更多个请求的数据聚集为对延迟敏感的分批；以及将来自对延迟不敏感的两个或更多个请求的数据聚集为用于处理的面向吞吐量的分批，所述对延迟敏感的分批的处理优先级高于所述面向吞吐量的分批的处理优先级。5.根据权利要求1所述的方法，其中，所述分批包括至少一个状态请求。6.根据权利要求1所述的方法，还包括以下步骤：预数据所述数据，所述数据包括包；将经预处理的数据聚集为被所述多个用户中的至少两个用户共享的分批矩阵；以及向计算引擎提供所述分批矩阵。7.根据权利要求6所述的方法，还包括：维护分批列表，以及针对多个用户中的每一个，维护输入缓冲器和预处理缓冲器。8.根据权利要求7所述的方法，还包括执行以下步骤：将来自所述包的数据复制到与所述多个用户中的一个用户相关的输入缓冲器中；丢弃所述包；预处理所述输入缓冲器以获得第一组结果；以及将所述第一组结果放置到与所述多个用户中的所述一个用户相关的预处理缓冲器中。9.根据权利要求8所述的方法，其中，预处理所述输入缓冲器的步骤包括：将表示来自与所述多个用户中的所述一个用户相关的预处理缓冲器的一个图像和一段谱图的预定量数据传送至所述分批列表中的合格分批。10.根据权利要求8所述的方法，还包括：响应于在活跃用户上循环以填充所述分批列表，基于所述计算引擎的状态来判定是否向所述计算引擎提供一个或多个分批。11.根据权利要求10所述的方法，其中，判...

【专利技术属性】
技术研发人员：克里斯托弗·丰纳，布赖恩·卡坦扎罗，
申请(专利权)人：百度美国有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人