北京矩量无限科技有限公司专利技术

北京矩量无限科技有限公司共有6项专利

  • 本发明公开了一种异构GPU自适应调度与分配方法及系统,所述分配方法包括:采用分层架构,包括:资源抽象与标准化及云原生调度与分配;异构资源统一抽象:构建算力能力单元;自学习算力适配器的机制与优化算法;基于Kubernetes DRA的调度...
  • 本发明公开了一种基于大语言模型对话上下文信息下降到推理方法,所述下降到推理方法包括:增加推理接口能力以支持基于部分上下文推理;在推理引擎中引入可植入的SPI;若在推理时发现有植入SPI,则在推理成功后,将本次推理请求与结果存入缓存,将历...
  • 本发明公开了一种基于LSTM动态预测的大模型混合精度量化方法,所述量化方法包括:进行权重量化;LSTM动态预测,获得预测结果;根据所述预测结果进行激活值量化。量化精度提升,计算效率与资源优化,硬件兼容性与动态适应性。
  • 本发明公开了一种算子层面分布式调度的大模型推理方法,所述大模型推理方法包括:步骤S1:算子解耦与依赖建模;步骤S2:异构硬件能力画像;步骤S3:动态调整策略。在大模型推理中实现算子级细粒度调度,最大化异构GPU集群的算力利用率。
  • 本发明公开了一种基于创新人机交互的大模型算力参数动态调整方法,所述动态调整方法包括:参数相关性建模与可视化建立各项参数的相关性;拖拽交互驱动的参数联动调整;预估算力消耗实时反馈,实时计算各项参数联动后的计算结果。实现大模型算力参数的优化...
  • 本发明公开了一种大语言模型推理的算力评估与资源配置方法,所述算力评估与资源配置方法包括:步骤S101:输入待评估的大语言模型;步骤S102:解析所述大语言模型,并识别虚拟算子;步骤S103:所述虚拟算子算力需求剖析;步骤S104:生成算...
1