当前位置: 首页 > 专利查询>刘宇专利>正文

一种自动弹性伸缩的AI运行时装置制造方法及图纸

技术编号：39009155 阅读：13 留言：0更新日期：2023-10-07 10:40

本申请公开了一种自动弹性伸缩的AI运行时装置，包括API网关、核心可插拔模块、Kafka消息中间件、模型推理模块和公共模块。本申请天然集成了弹性伸缩的特性，能够快速响应客户需求，且能够保证高效稳定的性能，从而解决了传统架构下因为高并发导致的性能下降的问题，且提供插件思路，使得AI应用平台具备排队、限流、内容安全等能力，在AI应用中，可以最大化地发挥异步排队的特性，通过整合这些功能，本申请平台能够为用户提供更好的服务质量，防止恶意用户攻击和非节点合理占用等情况，本申请具有较高技术实用性和商业价值，可以降低应用平台的部署和维护难度，节省了时间和人力成本，提高了效率，同时也有较强的商业化应用前景。同时也有较强的商业化应用前景。同时也有较强的商业化应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
一种自动弹性伸缩的AI运行时装置

[0001]本申请涉及一种AI运行时装置，具体是一种自动弹性伸缩的AI运行时装置，属于AI应用服务

技术介绍

[0002]在AI应用发展至今日，尤其是AIGC应用的快速发展中，GPU资源的不足成为了影响应用性能和部署效果的瓶颈之一，传统的GPU计算方式需要在特定服务器上预配置，运行较为僵化，不便于应用的弹性伸缩和部署，同时，GPU资源价格的高昂也给企业带来了沉重的负担，限制了许多创新应用的发展。
[0003]另外，在AI应用的发展中，高并发度、内容安全等也成为了AI应用开发者和用户所关注的重点。实现高可用的AI应用构建需要极专业的知识和技能，但很多企业和开发者并不具备这些技术能力和经验，传统的银行卡充值方式多数较为单一，影响人们的使用体验，同时在银行卡丢失后多数难以预防内部的财产丢失，存在一定的安全隐患，同时在银行卡丢失后也缺乏一定的应变手段。
[0004]当前AI模型或应用托管平台大多采用传统的基于虚拟机(VM)或容器的云计算架构，实现AI训练或推理应用的托管和运行。这些平台需要提前预留计算、存储等各种资源，且需要大量运维人员来进行平台管理和维护。同时，这些平台的计费模式大多是基于虚拟机或容器的数量和时长计费，导致成本较高。详细的已有技术实现AI应用构建和托管的原理大致如下：
[0005]Docker容器技术：使用Docker容器技术可以将应用程序和其所需要的依赖项(如库、依赖包等)封装为一个独立的容器，从而实现应用程序的可移植性和隔离性。Dock...

【技术保护点】

【技术特征摘要】
1.一种自动弹性伸缩的AI运行时装置，包括API网关、核心可插拔模块、Kafka消息中间件、模型推理模块和公共模块；所述API网关与客户端同步或异步连接，所述API网关通过核心可插拔模块与Kafka消息中间件连接，且所述Kafka消息中间件与模型推力模块连接，且所述API网关、核心可插拔模块、Kafka消息中间件和模型推理模块都与公共模块连接，所述公共模块包括对象存储单元、数据库单元、日志服务单元、链路追踪和其它模块单元。2.根据权利要求1所述的一种自动弹性伸缩的AI运行时装置，其特征在于：所述API网关过滤流量后与核心可插拔模块连接，所述API网关用于接收请求和做出响应，且所述API网关还包括鉴权等相关能力。3.根据权利要求1所述的一种自动弹性伸缩的AI运行时装置，其特征在于：所述核心可插拔模块包括内容安全、排队、限流等模块的动态插拔，所述心可插拔模块通过将筛选的数据以事件形式投递到下游Kafka消息中间件。4.根据权利要求1所述的一种自动弹性伸缩的AI运行时装置，其特征在于：所述核心可插拔模块包括生产者单元、内容安全单元和其他模块单元，所述生产者单元由Serverless架构组成，且所述核心可插拔模块分别与API网关可Kafka消息中间件双向连通。5.根据权利要求1所述的一种自动弹性伸缩的AI运行时装置，其特征在于：所述...

【专利技术属性】
技术研发人员：刘宇，边江，
申请(专利权)人：刘宇，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人