缓存部署与任务调度方法、终端和计算机可读存储介质技术

技术编号：27469528 阅读：25 留言：0更新日期：2021-03-02 17:34

本申请公开了一种缓存部署与任务调度方法、终端和计算机可读存储介质，该方法包括：获取训练集的增益矩阵，基于增益矩阵中的缓存增益将训练集部署至各缓存节点中；接收任务调度指令，获取任务中使用的训练集和第一处理器数量；根据使用的训练集和第一处理器数量遍历部署矩阵以确定缓存节点，将任务调度至缓存节点中。解决了目前针对HDFS性能优化的研究多停留在其自身，忽略了上层业务的特点，从而难以解决上层应用的痛点以及优化效果不佳的技术问题，提高了人工智能应用场景下的计算节点缓存利用率和命中率，降低了HDFS集群网络、I/O口压力和深度学习任务数据的加载时间，提高了深度学习任务的执行效率。学习任务的执行效率。学习任务的执行效率。

全部详细技术资料下载

【技术实现步骤摘要】
缓存部署与任务调度方法、终端和计算机可读存储介质

[0001]本申请涉及计算机网络
，尤其涉及一种缓存部署与任务调度方法、终端和计算机可读存储介质。

技术介绍

[0002]随着大数据技术的应用和发展，大量实际应用中的数据量已经超过了传统单机的存储和计算能力，因此，分布式水平扩展就成为了大数据系统的解决方案。HDFS(分布式文件系统)旨在解决大数据的分布式存储问题，并已广泛应用于各行各业的大数据系统中，作为底层的文件存储系统，HDFS支持非常丰富的应用程序场景，例如复杂查询分析、交互式分析、详细订单查询、键值对存储和查询、迭代计算等。HDFS作为通用的分布式存储系统，向上支撑了丰富的应用场景，其中，人工智能应用场景具有训练集数量固定，读多写少，训练集很少修改，各训练集访问热度随时间变化不大的特点。同时，训练集多为图像文本等小文件，HDFS不能高效地处理大量小文件的读写操作，对集群网络、IO等具有较大压力。而传统的优化方法很少考虑上层应用的特点，仅针对HDFS本身，如网络协议，元数据结构等，进行优化。也即，目前针对HDFS性能优化的研究多停留在其自身，忽略了上层业务的特点，导致实际应用时，或是难以解决上层应用的痛点，或是优化效果不佳。

技术实现思路

[0003]本申请实施例通过提供一种缓存部署与任务调度方法、终端和计算机可读存储介质，旨在解决目前针对HDFS性能优化的研究多停留在其自身，忽略了上层业务的特点，从而难以解决上层应用的痛点以及优化效果不佳的问题。
[0004]为实现上述目的，本申...

【技术保护点】

【技术特征摘要】
1.一种缓存部署与任务调度方法，其特征在于，所述方法包括：获取训练集的增益矩阵，基于所述增益矩阵中的缓存增益将所述训练集部署至各缓存节点中；接收任务调度指令，获取任务中使用的训练集和第一处理器数量，所述第一处理器数量为所述训练集所需的处理器数量；根据所述使用的训练集和所述第一处理器数量遍历部署矩阵以确定缓存节点，将所述任务调度至所述缓存节点中。2.根据权利要求1所述的缓存部署与任务调度方法，其特征在于，所述基于所述增益矩阵中的缓存增益将所述训练集部署至各缓存节点中的步骤包括：获取所述增益矩阵中的最大增益值；当所述最大增益值满足设定条件时，确定所述各缓存节点中最小缓存收益值；将所述最大增益值的训练集副本部署至所述最小缓存收益值对应的第一缓存节点中。3.根据权利要求1所述的缓存部署与任务调度方法，其特征在于，所述根据所述使用的训练集和所述第一处理器数量遍历部署矩阵以确定缓存节点的步骤包括：获取所述各缓存节点分别对应的第二处理器数量，所述第二处理器数量为所述缓存节点当前可用的处理器数量；根据所述使用的训练集和所述第一处理器数量遍历所述部署矩阵，以获取所述第二处理器数量大于或等于所述第一处理器数量对应的第二缓存节点。4.根据权利要求2所述的缓存部署与任务调度方法，其特征在于，所述获取所述增益矩阵中的最大增益值的步骤之后，还包括：当所述最大增益值未满足设定条件时，对所述各缓存节点的缓存矩阵分别进行遍历，生成遍历结果；根据所述遍历结果确定所述各缓存节点分别缓存的所述训练集副本。5.根据权利要求2所述的缓存部署与任务调度方法，其特征在于，所述将所述最大增益值的训练集副本部署至所述最小缓存收益值对应的第一缓存节点中的步骤包括：获取所述第一缓存节点的第一...

【专利技术属性】
技术研发人员：郑烇，鲍裕麟，陈双武，
申请(专利权)人：中国科学技术大学先进技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人