计算系统中的推理端点发现技术方案

技术编号:39288423 阅读:16 留言:0更新日期:2023-11-07 10:58
本文公开了用于分布式计算系统中的机器学习推理端点发现的技术。在一个示例中,一种方法包括搜索包含机器学习端点记录的数据库,该机器学习端点记录具有表示与部署在分布式计算系统中的推理端点相对应的执行时延或预测准确度的值的数据。该方法还包括:生成与各个目标值匹配的推理端点的列表,以及确定所生成的列表中的推理端点的计数是否超过预设阈值。响应于确定所识别的计数未超过预设阈值,该方法包括:基于接收到的查询中的各个目标值来实例化分布式计算系统中的一个或多个附加推理端点。推理端点。推理端点。

【技术实现步骤摘要】
【国外来华专利技术】计算系统中的推理端点发现

技术介绍

[0001]在计算领域,机器学习涉及计算机算法,这些计算机算法经过训练以通过体验已知数据来改进。机器学习可用于构建软件模型来做出预测,而无需显式地编程来执行此操作。例如,具有先前识别的项目(例如建筑物、汽车、人等)的数字图像集合可用于训练模型的计算机算法,该计算机算法可用于预测性地识别附加数字图像中的未知项目。在另一示例中,数字化的语音数据和相对应的文本可以用于训练模型的另一计算机算法,该另一计算机算法可以用于将附加语音数据转换成单词。

技术实现思路

[0002]提供本
技术实现思路
是为了以简化的形式介绍一些概念的选择,这些概念将在下面的具体实施方式中进一步描述。本
技术实现思路
并不旨在识别所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。
[0003]在一些计算系统中,不同机器学习模型的实例可以被部署作为推理端点以执行预测。根据所使用的训练数据、模型架构、模型版本或其他参数,部署的推理端点可以具有不同的预测准确度、执行时延和/或其他特性。在某些实现方式中,计算系统可以在接收到来自应用的请求时实例化新的推理端点。随着时间的推移,计算系统可以托管大量的推理端点。这种实例化方案在计算资源方面可能是浪费的,这是因为部署的推理端点通常可以重新调整用途来服务额外的请求。然而,对于用户来说,从数千甚至数百万个推理端点中发现可用的推理端点可能很困难。
[0004]所公开技术的几个实施例涉及被配置为监视和跟踪计算系统中部署的推理端点的模型目录服务。模型目录服务还可以配置为允许用户搜索可用的推理端点并促进对一个或多个用户选择的推理端点的访问。在某些实施例中,模型目录服务可以被配置为在检测到推理端点被部署在计算系统中时收集所部署的推理端点的元数据。然后,模型目录服务可以将收集的元数据插入和/或格式化到数据结构中,并将该数据结构与收集的元数据一起存储为数据库中的数据库记录。示例元数据可以包括使用的训练数据、模型架构、模型版本、预测准确度、执行时延、部署位置(物理和/或逻辑)、部署的日期/时间、当前健康状态、和/或其他合适的特性。在其他实施例中,外部计算服务可以被配置为收集元数据并将其存储为数据库中的数据库记录,同时向模型目录服务提供对数据库记录的访问。
[0005]模型目录服务还可以被配置为允许基于用户提供的标准来对可用推理端点的列表进行搜索。在某些实施例中,用户可以首先向计算系统中的认证服务提交凭证。在成功的认证后,认证服务向用户颁发认证令牌。在某些实现方式中,利用认证令牌,用户然后可以使用对可用推理端点的列表的查询来调用模型目录服务的应用编程接口(API)。查询还可以包括表示针对推理端点的各种期望参数的数据,例如执行时延、预测准确度、执行预测的成本(例如,以每请求的美元为单位)和/或其他合适的参数。在其他实现方式中,查询还可以包括用户的物理位置的标识、访问许可、优先级和/或其他信息。在进一步的实现方式中,用户可以以其他合适的方式调用模型目录服务。
[0006]响应于接收到来自用户的查询,模型目录服务可以被配置为验证认证令牌,并且在成功的验证后,向数据库查询具有满足用户提供的各种参数的元数据的数据库记录。例如,模型目录服务可以被配置为实现模糊逻辑来定位一个或多个推理端点,这些推理端点的执行时延为50到100毫秒,预测准确度为80%到90%,每请求执行预测的成本为0.10美元,和/或其他合适的标准。在其他示例中,模型目录服务还可以被配置为根据接收到的查询确定用户的物理位置,并且定位在地理上最接近用户的物理位置的一个或多个推理端点。在进一步的示例中,模型目录服务还可以被配置为针对隐私和/或政府合规性而筛选推理端点。例如,由于隐私和/或政府合规性问题,一些推理端点对某些物理位置的用户而言可能不可用。
[0007]在获得推理端点的列表后,模型目录服务可以被配置为向用户提供推理端点的列表以及用于访问推理端点的可用认证机制。在某些实施例中,模型目录服务可以被配置为提供与列表中的每个推理端点相对应的统一资源定位符(URL)和证书指纹。在接收到该列表后,用户可以从例如本地存储库中定位到合适的认证证书,并利用该认证证书访问相对应的URL处的推理端点之一。在其他实施例中,模型目录服务还可以被配置为提供基于距用户的物理位置的地理距离、执行时延、预测准确度或其他合适的标准而排序的推理端点的列表,以供用户选择。
[0008]在另外的实施例中,模型目录服务可以被配置为确定列表中的推理端点的计数以及所确定的数量是否等于或超过预设阈值。响应于确定列表中的推理端点的计数小于预设阈值,在某些实现方式中,模型目录服务可以被配置为提示用户修改先前提供的搜索标准以例如扩大搜索范围。例如,可以将预测准确度设置为70%到90%,而不是80%到90%。在接收到修改的搜索条件之后,模型目录服务然后可以利用修改后的标准重新查询数据库并确定列表中的推理端点的新计数是否等于或超过预设阈值。可以重复上述操作,直到列表中的推理端点的计数不小于预设阈值为止。
[0009]在其他实施例中,除了提示用户修改搜索标准之外或代替提示用户修改搜索标准,模型目录服务还可以被配置为生成指令并将其传输到例如平台控制器以实例化新的推理端点。在某些实现方式中,可以基于用户提供的搜索标准来实例化新的推理端点。例如,在上面的示例中,新的推理端点可以被实例化为具有以下特性:50到100毫秒的执行时延、80%到90%的预测准确度、每请求执行预测的成本为0.10美元。在接收到新的推理端点被实例化的通知后,模型目录服务可以被配置为向用户提供实例化的新推理端点。在进一步的实现方式中,可以实例化多个新的推理端点,使得列表中的推理端点的总数不小于预设阈值。
[0010]所公开的技术的几个实施例可以允许计算系统中的推理端点的高效发现和访问。通过记录和跟踪已部署的推理端点,模型目录服务可以高效地提供适合用户所需参数的推理端点。用户可以轻松地从提供的列表中确定最合适的推理端点,而不是尝试每个推理端点。模型目录服务还可以减少计算系统中的资源消耗。例如,可以提供满足用户要求的现有推理端点,而不是响应于来自用户的每个请求来实例化新的推理端点。这样,可以减少计算系统中的计算、存储、网络和/或其他合适类型的资源。
附图说明
[0011]图1是示出根据所公开技术的实施例的在分布式计算系统中实现推理端点发现的分布式计算系统的示意图。
[0012]图2是示出根据所公开技术的实施例的图1的分布式计算系统的某些示例硬件/软件组件的示意图。
[0013]图3A

3D是示出根据所公开技术的实施例的图1的分布式计算系统中的推理端点发现的某些操作的示意图。
[0014]图4A和图4B是示出根据所公开技术的实施例的用于包含推理端点的信息的示例数据结构的示意图。
[0015]图5A和图5B是示出根据所公开技术的实施例的推理端点发现的示例过程的流程图。
[0016]图6是适合于图1中的分布式计算系统的某些组件的计算设备。...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种在具有分别托管一个或多个推理端点的多个服务器的分布式计算系统中的推理端点发现的方法,所述方法包括:在所述分布式计算系统中的服务器处,接收对部署在所述分布式计算系统中的推理端点的查询,所述查询包括表示与所述推理端点的执行时延或预测准确度相对应的各个目标值的数据;以及响应于接收到所述查询,在所述服务器处,进行对包含端点记录的数据库的搜索,所述端点记录分别具有表示与部署在所述分布式计算系统中的所述推理端点中的一个推理端点相对应的执行时延或预测准确度的值的数据;基于所进行的搜索,生成与各个目标值相匹配的推理端点的列表,所述各个目标值与接收到的查询中包括的所述执行时延或所述预测准确度相对应;以及识别生成的列表中的各个推理端点的网络位置和证书指纹;以及响应于接收到的查询,提供所述生成的列表作为查询结果,所述生成的列表标识与所述各个目标值以及相对应的网络位置和证书指纹相匹配的推理端点。2.根据权利要求1所述的方法,还包括:识别所述生成的列表中的推理端点的计数;确定列表中的所识别的所述推理端点的计数是否超过预设阈值;以及响应于确定所识别的计数没有超过所述预设阈值,经由计算机网络发送用于基于与接收到的查询中的所述执行时延或所述预测准确度相对应的所述各个目标值来实例化一个或多个附加推理端点的请求。3.根据权利要求1所述的方法,还包括:识别所述生成的列表中的推理端点的计数;确定列表中的所识别的所述推理端点的计数是否超过预设阈值;以及响应于确定所识别的计数确实超过所述预设阈值,响应于接收到的查询而提供所述生成的列表作为查询结果,所述生成的列表标识与所述各个目标值以及相对应的网络位置和证书指纹相匹配的推理端点。4.根据权利要求1所述的方法,还包括:识别所述生成的列表中的推理端点的计数;确定列表中的所识别的所述推理端点的计数是否超过预设阈值;以及响应于确定所识别的计数没有超过所述预设阈值,经由计算机网络发送用于基于与接收到的查询中的所述执行时延或所述预测准确度相对应的各个目标值来实例化一个或多个附加推理端点的请求;接收表示所述分布式计算系统中的所述一个或多个附加推理端点的部署通知的数据;以及更新所述生成的列表以包括部署在所述分布式计算系统中的所述一个或多个附加推理端点中的至少一个附加推理端点。5.根据权利要求1所述的方法,还包括:识别所述生成的列表中的推理端点的计数;
确定列表中的所识别的所...

【专利技术属性】
技术研发人员:黄浩杨正华邱龙A
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1