分布式机器学习系统、装置和方法制造方法及图纸

技术编号:21041103 阅读:33 留言:0更新日期:2019-05-04 09:48
提出了一种分布式在线机器学习系统。预期的系统包括许多私人数据服务器,每个私人数据服务器都具有本地私人数据。研究人员可以请求相关的私人数据服务器用其当地私人数据训练机器学习算法的实现,而无需对私人数据取消标识,或无需将私人数据暴露给未授权的计算系统。所述私人数据服务器还根据实际数据的数据分布生成合成数据或代理数据。然后,所述服务器使用所述代理数据来训练代理模型。当所述代理模型与训练后的实际模型足够相似时,所述代理数据、代理模型参数或其他学习到的知识可以被发送到一个或多个非私人计算设备。然后,可以将来自许多私人数据服务器的学习到的知识聚合到一个或多个训练后的全局模型中,而不暴露私人数据。

Distributed Machine Learning System, Device and Method

【技术实现步骤摘要】
【国外来华专利技术】分布式机器学习系统、装置和方法相关申请的交叉引用本申请根据美国法案第35章第119条要求Szeto的2016年7月18提交的名称为“分布式机器学习系统、装置和方法”的序列为62/363,697的美国临时专利申请的优先权,其内容通过引用整体并入此文。
本专利技术的领域为分布式机器学习技术。
技术介绍
背景描述包括可用于理解本专利技术主题的信息。此处提供的任何信息是现有技术或此处提供的任何信息与当前要求保护的专利技术主题相关,或者任何具体或隐含地引用的出版物是现有技术都是不承认的。随着最近高度可访问且具有成本效益的机器学习平台(例如,包括TensorFlow的谷歌人工智能、亚马逊的机器学习、微软的Azure机器学习、OpenAI、SciKit-Learn、Matlab等)的增长,数据分析人员可以有许多现成的选择来获取它们以进行大数据集的自动分析。此外,机器学习平台增长的同时,目标数据集的规模也在增长。例如,雅虎已向公众发布了几个大型数据集,其大小约为太字节。癌症基因组图谱(TCGA)数据门户提供了获取大量临床信息和基因组特征数据的通道。这些预建立的数据集随时可供数据分析人员使用。遗憾的是,研究人员在为正在进行的研究编辑数据集时,特别是在尝试建立能够使用现场数据生成目标预测的训练机器学习模型时,经常遇到障碍。一个主要障碍是研究人员经常无法获得所需的数据。例如,考虑这样一个场景:研究人员希望根据患者数据建立训练模型,然而患者数据存储在多个医院的电子病历数据库中。由于隐私限制或遵从健康保险流通与责任法案(HIPAA,HealthInsurancePortabilityandAccountabilityAct),研究人员可能无权访问每家医院的患者数据。为了编辑所需的数据集,研究人员必须从医院请求数据。假设医院肯接受该请求,则医院必须在将数据提供给研究人员之前取消对数据的识别,以去除对特定患者的引用。然而,取消标识导致数据集中可能有价值的信息丢失,这些可能有价值的信息可能有助于训练机器学习算法,并反过来可以提供发现数据中新关系的机会或提供价值预测属性。因此,由于安全限制,研究人员可用的数据集可能缺乏信息。显然,研究人员将受益于可以提取学习信息或“知识”的技术,同时还考虑了分布在多个数据存储中的私人信息或安全信息。有趣的是,之前与分析分布式数据相关的工作集中在机器学习的本质上,而不是处理分隔的私人数据。例如,Collins等人的2006年10月26日提交的标题为“利用医学图像数据的临床状态预测系统和方法”的美国专利7,899,225,描述了创建和合并统计模型以创建最终的多维分类空间。所述统计模型是数学变化模型,其定义了可以表示主体的空间。不幸的是,Collins假设系统有权访问所有数据以建立所述预测模型。Collins也没能深入了解非集中数据必须保持安全或私密的情况。尽管如此,能够以某种方式组合训练模型将是有用的。考虑Criminisi等人的2012年6月21日提交的标题为“密度估计和/或流形学习”的美国专利8,954,365。Criminisi专注于简化数据集,而不是专注于组合模型的方法。Criminisi描述了一种降维技术,该技术将未标记的数据映射到较低维空间,同时保留未标记数据点之间的相对距离或其他关系。虽然这对于减少计算工作很有用,但是这些技术无法解决如何组合依赖于不同的私人数据集的模型。试图解决给数据取消标识的另一个例子包括Higgins等人的2014年1月15日提交的标题为“用于药物基因组分类的系统和方法”的美国专利申请公开2014/0222349。Higgins描述了使用替代表型(surrogatephenotypes)来表示取消标识的吸收、分布、代谢和排泄(ADME,absorption,distribution,metabolismandexcretion)药物数据中的药物基因组学群体中的集群。然后,使用所述替代表型来训练学习机器(例如,支持向量机),然后可以将其用于实时患者数据的分类。尽管Higgins提供了基于替代表型来建立训练的学习机器,但Higgins需要访问取消标识的数据来建立初始训练集。如前所述,取消标识的数据会使其具有价值的某些训练数据集丢丧失。在分布式环境中,可能有许多存储私人数据的实体,因此不可能确保访问大量高质量、取消标识的数据。当启动一个新的学习任务并且还不存在能够服务于所述新任务的数据时,这一点尤其正确。因此,对于能够在分布式环境中从私人数据集中收集学习信息或知识而无需在训练开始前对数据进行取消标识的学习系统,仍然有相当大的需求。本文中提到的所有出版物通过引用并入,其程度如同每个单独的出版物或专利申请被具体和单独地说明以通过引用并入。如果并入的引用中术语的定义或用法与本文提供的术语的定义不一致或相反,则适用本文提供的该术语的定义,而不适用该术语在引用中的定义。在一些实施例中,表示成分的量、性质的数字(用于描述和保护本专利技术主题的某些实施例),例如浓度、反应条件等,应理解为在某些情况下由术语“约”修改。因此,在一些实施例中,撰写的说明书和所附权利要求书中列出的数值参数是近似值,其可以根据特定实施例寻求获得的所需性质而变化。在一些实施例中,所述数值参数应通过应用普通的舍入技术根据报告的有效数字的数量来解释。尽管阐述本专利技术主题的一些实施例的宽范围的数值范围和参数是近似值,但具体实施例中列出的数值是尽可能精确地报告。在本专利技术主题的一些实施例中呈现的数值可能包含由在其各自的测试测量中发现的标准偏差所必然导致的某些误差。除非上下文指出相反的情况,否则本文所述的所有范围应解释为包括其端点,并且开放式范围应解释为仅包括商业实用值。同样,除非上下文指出相反的情况,否则应将所有值的列表视为包含中间值。如本文的说明书和随后的权利要求书中所使用的,“不定冠词(a/an)”和“所述”的含义包括复数指代,除非上下文另有明确说明。此外,如本文的说明书中所使用的,“在...中”的含义包括“在...中”和“在......上”,除非上下文另有明确规定。本文中对数值范围的描述仅旨在用作单独提及落入该范围内的每个单独值的速记方法。除非本文另有说明,否则每个单独的值被并入说明书中,如同其在本文中单独引用一样。除非本文另有说明或上下文明显矛盾,否则本文所述的所有方法均可以任何合适的顺序进行。关于本文的某些实施例提供的任何和所有示例或示例性语言(例如,“诸如”)的使用,仅旨在更好地说明本专利技术的主题,而不是对本专利技术主题的范围构成限制,除非声称了。说明书中的任何语言都不应被解释为表示对于本专利技术主题实践必不可少的任何未要求保护的要素。本文公开的专利技术主题的可选元素或实施例的分组不应解释为限制。每个群组成员可以单独地指代和要求保护,或者与群组中的其他成员或本文中找到的其他元素进行任何组合。出于方便和/或可专利性的原因,可以将一个或多个组成员包括在组中或从组中删除。当发生任何这样的包括或删除时,本说明书在此被认为包含经修改的组,从而实现所附权利要求中使用的所有Markush组的书面描述。
技术实现思路
本专利技术的主题提供了装置、系统和方法,其中分布式在线机器学习计算机能够从私人数据中学习信息或获得知识,并在不能访问私人数据的对等机之间分布本文档来自技高网
...

【技术保护点】
1.一种分布式机器学习系统,包括:多个私人数据服务器,每个私人数据服务器有权访问当地私人数据并具有至少一个建模引擎,其中所述多个私人数据服务器通过网络通信耦合至至少一个非私人计算设备;并且其中每个私人数据服务器在由存储在非暂时性计算机可读存储器的至少一个处理器软件指令执行时,致使所述每个私人数据服务器的至少一个建模引擎:接收模型指令,以根据机器学习算法的实现从至少一些当地私人数据中创建训练后的实际模型;通过用所述当地私人数据训练所述机器学习算法的实现,根据所述模型指令并根据所述至少一些当地私人数据创建所述训练后的实际模型,所述训练后的实际模型包括训练后的实际模型参数;从所述私人数据中生成多个私人数据分布,其中所述私人数据分布表示聚合的当地私人数据,所述聚合的当地私人数据用于创建所述训练后的实际模型;根据所述多个私人数据分布生成代理数据集;通过用所述代理数据集训练机器学习模型的类型,从所述代理数据集中创建训练后的代理模型,所述训练后的代理模型包括代理模型参数;根据所述代理模型参数和所述训练后的实际模型参数计算模型相似度得分;以及根据所述模型相似度得分将所述代理数据集通过所述网络发送至所述至少一个非私人计算设备。...

【技术特征摘要】
【国外来华专利技术】2016.07.18 US 62/363,6971.一种分布式机器学习系统,包括:多个私人数据服务器,每个私人数据服务器有权访问当地私人数据并具有至少一个建模引擎,其中所述多个私人数据服务器通过网络通信耦合至至少一个非私人计算设备;并且其中每个私人数据服务器在由存储在非暂时性计算机可读存储器的至少一个处理器软件指令执行时,致使所述每个私人数据服务器的至少一个建模引擎:接收模型指令,以根据机器学习算法的实现从至少一些当地私人数据中创建训练后的实际模型;通过用所述当地私人数据训练所述机器学习算法的实现,根据所述模型指令并根据所述至少一些当地私人数据创建所述训练后的实际模型,所述训练后的实际模型包括训练后的实际模型参数;从所述私人数据中生成多个私人数据分布,其中所述私人数据分布表示聚合的当地私人数据,所述聚合的当地私人数据用于创建所述训练后的实际模型;根据所述多个私人数据分布生成代理数据集;通过用所述代理数据集训练机器学习模型的类型,从所述代理数据集中创建训练后的代理模型,所述训练后的代理模型包括代理模型参数;根据所述代理模型参数和所述训练后的实际模型参数计算模型相似度得分;以及根据所述模型相似度得分将所述代理数据集通过所述网络发送至所述至少一个非私人计算设备。2.根据权利要求1所述的系统,其中,所述当地私人数据包括当地私人医疗数据。3.根据权利要求2所述的系统,其中,所述当地私人医疗数据包括针对患者的数据。4.根据权利要求1所述的系统,其中,所述当地私人数据包括以下数据类型中的至少一种:基因组数据、全基因组序列数据、整个外泌体序列数据、蛋白质组数据、蛋白质组路径数据、k-mer数据、新表位数据、RNA数据、过敏信息、遭遇数据、治疗数据、成果数据、预约数据、订单数据、账单代码数据、诊断代码数据、结果数据、治疗反应数据、肿瘤反应数据、人口统计数据、药物治疗数据、生命体征数据、付款人数据、药物研究数据、药物反应数据、纵向研究数据、生物特征数据、财务数据、专有数据、电子病历数据、研究数据、人力资本数据、工作特性数据、分析结果数据和事件数据。5.根据权利要求1所述的系统,其中,所述网络包括以下网络类型中的至少一种:无线网络、分组交换网络、因特网、内联网、虚拟私人网络、蜂窝网络、自组网和对等网络。6.根据权利要求1所述的系统,其中,所述至少一个非私人计算设备是与所述多个私人数据服务器不同的计算设备,所述至少一个非私人计算设备无权访问所述当地私人数据,所述训练后的实际模型是在所述当地私人数据上创建的。7.根据权利要求1所述的系统,其中,所述至少一个非私人计算设备包括全局模型服务器。8.根据权利要求8所述的系统,其中,所述全局模型服务器被配置为从所述多个私人数据服务器的至少两个中聚合代理数据集,并被配置为用所述代理数据集训练全局模型。9.根据权利要求1所述的系统,其中,每个私人数据服务器与存储所述当地私人数据的当地存储系统通信耦合。10.根据权利要求9所述的系统,其中,所述当地存储系统包括以下中的至少一种:RAID系统、文件服务器、网络可访问存储设备、存储区域网络设备、当地计算机可读存储器、硬盘驱动器、光学存储设备、磁带驱动器、磁带库和固态盘。11.根据权利要求9所述的系统,其中,所述当地存储系统包括以下中的至少一种:当地数据库、BAM服务器、SAM服务器、GAR服务器、BAMBAM服务器和临床操作系统服务器。12.根据权利要求1所述的系统,其中,所述模型指令包括以下中的至少一个:当地命令、远程命令、可执行文件、协议命令和选择命令。13.根据权利要求1所述的系统,其中,所述多个私人数据分布的分布遵从以下分布类型中的至少一种:高斯分布、泊松分布、伯努利分布、Rademacher分布、离散分布、二项分布、ζ分布、伽马分布、β分布和直方图分布。14.根据权利要求1所述的系统,其中,所述多个私人数据分布是基于从所述训练后的实际模型参数推导出的特征值和所述私人当地数据。15.根据权利要求1所述的系统,其中,所述代理数据集包括从所述训练后的实际模型参数推导出的特征值和所述当地私人数据的组合。16.根据权利要求15所述的系统,其中,所述代理数据包括所述特征值的线性组合。17.根据权利要求15所述的系统,其中,所述特征值包括以下中的至少一个:特征患者、特征图谱、特征药物、特征健康记录、特...

【专利技术属性】
技术研发人员:克里斯托弗·塞托斯蒂芬·查尔斯·本茨尼古拉斯·J·韦切
申请(专利权)人:河谷生物组学有限责任公司河谷控股IP有限责任公司
类型:发明
国别省市:美国,US

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1