分布式人工智能结构控制器制造技术

技术编号:39311529 阅读:8 留言:0更新日期:2023-11-12 15:56
通常,本公开描述了用于利用分布式人工智能(AI)结构控制器配置和供应AI结构中的网络资源以供AI应用使用的技术。在一个示例中,AI结构控制器被配置为发现通信地耦合到云交换的可用资源;获取一组候选解决方案,一组候选解决方案中的每个候选解决方案包括AI应用和供AI应用使用的资源配置;基于与候选解决方案中的每一个对应的一个或多个执行度量来过滤一组候选解决方案,以生成经过滤的一组候选解决方案;生成针对经过滤的一组候选解决方案的供应脚本;执行供应脚本以针对经过滤的一组候选解决方案中的每个候选解决方案供应资源;以及创建针对所述经过滤的一组候选解决方案中的每个候选解决方案的执行环境。的每个候选解决方案的执行环境。的每个候选解决方案的执行环境。

【技术实现步骤摘要】
【国外来华专利技术】分布式人工智能结构控制器
[0001]相关申请
[0002]本申请要求于2020年12月29日提交的美国临时专利申请号63/131,695的权益,其全部内容通过引用并入本文。


[0003]本公开涉及计算机网络,更具体地,涉及控制计算机网络中的人工智能结构。

技术介绍

[0004]云计算是指使用可经由网络(如互联网)接入的动态可扩展计算资源。计算资源,通常被称为“云”,可以用于数据存储和向用户提供服务。这些服务可以根据服务类型进行分类,服务类型可以包括例如应用/软件、平台、基础设施、虚拟化以及服务器和数据存储。服务类型的名称通常以“即服务”为前缀,例如,使得应用/软件和基础设施的交付可以分别称为软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。
[0005]术语“基于云的服务”,或者更简单地说,”云服务”不仅指由云提供的服务,还指一种服务提供形式,在这种形式中,云客户与云服务提供商签订合同,以在线交付云所提供的服务。云服务提供商管理公共、私有或混合云,以促进向一个或多个云客户在线交付云服务。
[0006]人工智能(AI)服务现在正经由云架构提供。例如,训练数据可以从云存储系统提供,并用于训练机器学习模型。此外,可以从云存储系统提供部分或完全训练的机器学习模型。此外,训练算法可以由基于云的服务提供商存储和执行。

技术实现思路

[0007]总体上,本公开描述了用于利用分布式AI结构控制器配置和供应AI结构中的网络资源以供AI应用使用的技术。目前,许多AI应用都集中在AI模型训练中,并且推理发生在同一个位置。然而,为了提高响应时间,可能需要将训练和推理移到更靠近生成数据的边缘。因此,由于性能、成本和隐私的原因,AI应用正在从集中式模型转向分布式模型,在分布式模型中,训练和推理操作正在向设备边缘靠拢。然而,可能还有许多其他因素会影响训练和推理操作的发生地点。例如,AI应用中使用的数据集可能分布在云、私人数据中心和可能位于多个地理位置的数据代理中。此外,不同的云和供应商可以为AI硬件提供各种选择。此外,这些资源的利用率和性能可能会随着时间的推移而变化。AI应用管理员可能需要通过共同考虑模型准确性、隐私和基础设施成本和性能来选择是使用集中式(数据移动到计算资源)还是联合式(计算资源移动到数据)AI训练方法。鉴于上述情况,在试图优化AI应用性能时,可能需要考虑大量网络资源、计算资源和AI应用位置的可能组合。
[0008]AI结构控制器可以发现可用的网络和计算资源,使用可用资源的各种组合分析AI应用性能,并确定资源和AI应用位置的适当组合,以优化AI应用的性能。AI结构控制器还可以监控可用的和新发现的资源,并更新AI应用的布局和资源使用情况,如果这样的更新可
以提高AI应用性能,或以较低的成本提供足够的AI应用表现。
[0009]上面描述的各方面以及本文中描述的另外的方面可以提供呈现至少一个实际应用的一个或多个技术优点。例如,AI结构控制器可以使用本文所述的技术来提供关于最佳站点的建议,以用于在互连站点的网络结构上执行分布式AI训练和推理工作负载,并且可以通知任何所需底层基础设施资源的供应。作为另一个示例,AI结构控制器可以使用本文所述的技术来并发尝试不同的AI模型训练配置,以确定哪种配置提供了性能、模型准确度、成本和隐私的期望组合。AI结构控制器可以确定在哪里通过网络结构提供AI训练和推理工作负载,该网络结构将公共云和城域边缘上的数据源、多个AI训练位置以及多个AI推理位置互连。此外,本文描述的技术可以从各种AI解决方案提供商向AI PaaS层提供AI结构控制层接口,从而使解决方案提供商能够轻松部署分布式AI解决方案。
[0010]在一个示例中,本公开描述了一种计算设备,该计算设备包括耦合到存储器的处理电路;人工智能(AI)结构控制器,该AI结构控制器被配置为由所述处理电路执行,其中,所述AI结构控制器包括:监控服务,所述监控服务被配置为发现通信地耦合到云交换的可用资源并监控该可用资源;分析服务,该分析服务被配置为:获取一组候选解决方案,一组候选解决方案中的每个候选解决方案包括AI应用和供AI应用使用的资源配置,其中资源配置针对候选解决方案中的每个候选解决方案不同,并且其中候选解决方案中的每个候选解决方案与对应的执行度量相关联,并且基于对应的执行度量中的一个或多个对应的执行度量来过滤一组候选解决方案以生成经过滤的一组候选解决方案;规划服务,规划服务被配置为生成针对经过滤的一组候选解决方案的供应脚本;以及执行服务,执行服务被配置为执行供应脚本以针对经过滤的一组候选解决方案中的每个候选解决方案供应资源,并创建针对经过滤的一组候选解决方案中的每个候选解决方案的执行环境。
[0011]在另一个示例中,本公开描述了一种方法,该方法包括由一个或多个处理器发现通信地被耦合到云交换的可用资源;通过一个或多个处理器获取一组候选解决方案,一组候选解决方案中的每个候选解决方案包括AI应用和供AI应用使用的资源配置,其中资源配置针对每个候选解决方案不同,并且其中候选解决方案中的每个候选解决方案与对应的执行度量相关联,并且由一个或多个处理器基于对应的执行度量中的一个或多个对应的执行度量来过滤一组候选解决方案,以生成经过滤的一组候选解决方案;由一个或多个处理器生成针对经过滤的一组候选解决方案的供应脚本;由一个或多个处理器执行供应脚本以针对经过滤的一组候选解决方案中的每个候选解决方案供应资源;以及创建针对经过滤的一组候选解决方案中的每个候选解决方案的执行环境。
[0012]在另一个示例中,本公开描述了一种包括指令的非暂态计算机可读介质,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器:发现通信地被耦合到云交换的可用资源;获取一组候选解决方案,一组候选解决方案中的每个候选解决方案包括AI应用和供所述AI应用使用的资源配置,其中资源配置针对每个候选解决方案不同,并且其中候选解决方案中的每个候选解决方案与对应的执行度量相关联,并且基于对应的执行度量中的一个或多个对应的执行度量来过滤一组候选解决方案,以生成经过滤的一组候选解决方案;生成针对经过滤的一组候选解决方案的供应脚本;执行供应脚本以针对经过滤的一组候选解决方案中的每个候选解决方案供应资源;并且创建针对经过滤的一组候选解决方案中的每个候选解决方案的执行环境。
[0013]在附图和以下描述中阐述了一个或多个示例的细节。根据说明书和附图以及权利要求,其他特征、目的和优点可以是显而易见的。
附图说明
[0014]图1是图示出根据本文所述技术的分布在各种边缘系统上并由人工智能结构控制器控制的人工智能系统的概念图的框图。
[0015]图2是图示出根据本文所述技术的由人工智能结构控制器控制的示例分布式AI系统的框图。
[0016]图3是图示出根据本文所述技术的分布式AI控制器功能堆栈的概念图的框图。
[0017]图4是图示出用于分析监视数据的示例分布式AI应用和控制器架构的概念图的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算设备,包括:被耦合到存储器的处理电路;人工智能(AI)结构控制器,所述AI结构控制器被配置用于由所述处理电路执行,其中所述AI结构控制器包括:监控服务,所述监控服务被配置为发现通信地被耦合到云交换的可用资源以及监控所述可用资源;分析服务,所述分析服务被配置为:获取一组候选解决方案,所述一组候选解决方案中的每个候选解决方案包括AI应用和供所述AI应用使用的资源配置,其中所述资源配置针对所述候选解决方案中的每个候选解决方案不同,并且其中所述候选解决方案中的每个候选解决方案与对应的执行度量相关联,以及基于所述对应的执行度量中的一个或多个对应的执行度量,过滤所述一组候选解决方案,以生成经过滤的一组候选解决方案;规划服务,所述规划服务被配置为生成针对所述经过滤的一组候选解决方案的供应脚本;以及执行服务,所述执行服务被配置为执行所述供应脚本以针对所述经过滤的一组候选解决方案中的每个候选解决方案供应资源,以及所述执行服务被配置为创建针对所述经过滤的一组候选解决方案中的每个候选解决方案的执行环境。2.根据权利要求1所述的计算设备,其中所述AI结构控制器被配置为根据与所述候选解决方案中的对应的候选解决方案相关联的所述资源配置,执行针对所述对应的候选解决方案的所述AI应用的实例,以确定与所述对应的候选解决方案相关联的所述执行度量。3.根据权利要求1所述的计算设备,其中所述AI结构控制器被配置为基于与所述候选解决方案中的每个候选解决方案相关联的所述执行度量,从所述经过滤的候选解决方案选择最佳候选解决方案,以及所述AI结构控制器被配置为将所述最佳候选解决方案部署到生产环境。4.根据权利要求1所述的计算设备,其中所述监控服务将描述可用资源的资源数据作为节点添加到可用资源的图,并且所述监控服务监控与所述图中的所述节点相关联的所述可用资源。5.根据权利要求1所述的计算设备,其中所述监控服务监控针对所述可用资源中的每个对应的可用资源的以下一项或多项:资源利用率、资源可用性、资源容量、以及资源性能。6.根据权利要求1所述的计算设备,其中所述分析服务响应于新的资源被添加为可用资源而被触发以执行。7.根据权利要求1所述的计算设备,其中针对与对应的解决方案相关联的所述执行度量包括以下一项或多项:机器学习模型准确度、资源成本、以及隐私设置。8.根据权利要求1所述的计算设备,其中所述分析服务根据与所述一组候选解决方案中的每个相应候选解决方案相关联的基础设施成本来对所述一组候选解决方案进行排序。9.根据权利要求1所述的计算设备,其中候选解决方案包括被配置为以集中式模式操作的所述AI应用,并且其中所述规划服务被配置为:响应于所述AI应用能够以联合模式执行的确定,生成与以所述联合模式操作所述AI应
用相对应的附加候选解决方案,以及将所述附加候选解决方案添加到所述一组候选解决方案。10.根据权利要求1所述的计算设备,其中创建针对所述相应候选解决方案中的每个相应候选解决方案的所述执行环境包括:使用容器编排平台来创建所述执行环境。11.一种方法,包括:由一个或多个处理器发现通信地被耦合到云交换的可用资源;由所述一个或多个处理器获取一组候选解决方案,所述一组候选解决方案中的每个候选解决方案包括AI应...

【专利技术属性】
技术研发人员:K
申请(专利权)人:环球互连及数据中心公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1