分布式机器学习系统、装置和方法制造方法及图纸

技术编号：21041103 阅读：33 留言：0更新日期：2019-05-04 09:48

提出了一种分布式在线机器学习系统。预期的系统包括许多私人数据服务器，每个私人数据服务器都具有本地私人数据。研究人员可以请求相关的私人数据服务器用其当地私人数据训练机器学习算法的实现，而无需对私人数据取消标识，或无需将私人数据暴露给未授权的计算系统。所述私人数据服务器还根据实际数据的数据分布生成合成数据或代理数据。然后，所述服务器使用所述代理数据来训练代理模型。当所述代理模型与训练后的实际模型足够相似时，所述代理数据、代理模型参数或其他学习到的知识可以被发送到一个或多个非私人计算设备。然后，可以将来自许多私人数据服务器的学习到的知识聚合到一个或多个训练后的全局模型中，而不暴露私人数据。

Distributed Machine Learning System, Device and Method

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】分布式机器学习系统、装置和方法相关申请的交叉引用本申请根据美国法案第35章第119条要求Szeto的2016年7月18提交的名称为“分布式机器学习系统、装置和方法”的序列为62/363,697的美国临时专利申请的优先权，其内容通过引用整体并入此文。
本专利技术的领域为分布式机器学习技术。
技术介绍
背景描述包括可用于理解本专利技术主题的信息。此处提供的任何信息是现有技术或此处提供的任何信息与当前要求保护的专利技术主题相关，或者任何具体或隐含地引用的出版物是现有技术都是不承认的。随着最近高度可访问且具有成本效益的机器学习平台(例如，包括TensorFlow的谷歌人工智能、亚马逊的机器学习、微软的Azure机器学习、OpenAI、SciKit-Learn、Matlab等)的增长，数据分析人员可以有许多现成的选择来获取它们以进行大数据集的自动分析。此外，机器学习平台增长的同时，目标数据集的规模也在增长。例如，雅虎已向公众发布了几个大型数据集，其大小约为太字节。癌症基因组图谱(TCGA)数据门户提供了获取大量临床信息和基因组特征数据的通道。这些预建立的数据集随时可供数据分析人员使用。遗憾的是，研究人员在为正在进行的研究编辑数据集时，特别是在尝试建立能够使用现场数据生成目标预测的训练机器学习模型时，经常遇到障碍。一个主要障碍是研究人员经常无法获得所需的数据。例如，考虑这样一个场景：研究人员希望根据患者数据建立训练模型，然而患者数据存储在多个医院的电子病历数据库中。由于隐私限制或遵从健康保险流通与责任法案(HIPAA，HealthInsurancePortabilit...

【技术保护点】
1.一种分布式机器学习系统，包括：多个私人数据服务器，每个私人数据服务器有权访问当地私人数据并具有至少一个建模引擎，其中所述多个私人数据服务器通过网络通信耦合至至少一个非私人计算设备；并且其中每个私人数据服务器在由存储在非暂时性计算机可读存储器的至少一个处理器软件指令执行时，致使所述每个私人数据服务器的至少一个建模引擎：接收模型指令，以根据机器学习算法的实现从至少一些当地私人数据中创建训练后的实际模型；通过用所述当地私人数据训练所述机器学习算法的实现，根据所述模型指令并根据所述至少一些当地私人数据创建所述训练后的实际模型，所述训练后的实际模型包括训练后的实际模型参数；从所述私人数据中生成多个私人数据分布，其中所述私人数据分布表示聚合的当地私人数据，所述聚合的当地私人数据用于创建所述训练后的实际模型；根据所述多个私人数据分布生成代理数据集；通过用所述代理数据集训练机器学习模型的类型，从所述代理数据集中创建训练后的代理模型，所述训练后的代理模型包括代理模型参数；根据所述代理模型参数和所述训练后的实际模型参数计算模型相似度得分；以及根据所述模型相似度得分将所述代理数据集通过所述网络发送至所述至少一个非私人计算设备。...

【技术特征摘要】
【国外来华专利技术】2016.07.18 US 62/363,6971.一种分布式机器学习系统，包括：多个私人数据服务器，每个私人数据服务器有权访问当地私人数据并具有至少一个建模引擎，其中所述多个私人数据服务器通过网络通信耦合至至少一个非私人计算设备；并且其中每个私人数据服务器在由存储在非暂时性计算机可读存储器的至少一个处理器软件指令执行时，致使所述每个私人数据服务器的至少一个建模引擎：接收模型指令，以根据机器学习算法的实现从至少一些当地私人数据中创建训练后的实际模型；通过用所述当地私人数据训练所述机器学习算法的实现，根据所述模型指令并根据所述至少一些当地私人数据创建所述训练后的实际模型，所述训练后的实际模型包括训练后的实际模型参数；从所述私人数据中生成多个私人数据分布，其中所述私人数据分布表示聚合的当地私人数据，所述聚合的当地私人数据用于创建所述训练后的实际模型；根据所述多个私人数据分布生成代理数据集；通过用所述代理数据集训练机器学习模型的类型，从所述代理数据集中创建训练后的代理模型，所述训练后的代理模型包括代理模型参数；根据所述代理模型参数和所述训练后的实际模型参数计算模型相似度得分；以及根据所述模型相似度得分将所述代理数据集通过所述网络发送至所述至少一个非私人计算设备。2.根据权利要求1所述的系统，其中，所述当地私人数据包括当地私人医疗数据。3.根据权利要求2所述的系统，其中，所述当地私人医疗数据包括针对患者的数据。4.根据权利要求1所述的系统，其中，所述当地私人数据包括以下数据类型中的至少一种：基因组数据、全基因组序列数据、整个外泌体序列数据、蛋白质组数据、蛋白质组路径数据、k-mer数据、新表位数据、RNA数据、过敏信息、遭遇数据、治疗数据、成果数据、预约数据、订单数据、账单代码数据、诊断代码数据、结果数据、治疗反应数据、肿瘤反应数据、人口统计数据、药物治疗数据、生命体征数据、付款人数据、药物研究数据、药物反应数据、纵向研究数据、生物特征数据、财务数据、专有数据、电子病历数据、研究数据、人力资本数据、工作特性数据、分析结果数据和事件数据。5.根据权利要求1所述的系统，其中，所述网络包括以下网络类型中的至少一种：无线网络、分组交换网络、因特网、内联网、虚拟私人网络、蜂窝网络、自组网和对等网络。6.根据权利要求1所述的系统，其中，所述至少一个非私人计算设备是与所述多个私人数据服务器不同的计算设备，所述至少一个非私人计算设备无权访问所述当地私人数据，所述训练后的实际模型是在所述当地私人数据上创建的。7.根据权利要求1所述的系统，其中，所述至少一个非私人计算设备包括全局模型服务器。8.根据权利要求8所述的系统，其中，所述全局模型服务器被配置为从所述多个私人数据服务器的至少两个中聚合代理数据集，并被配置为用所述代理数据集训练全局模型。9.根据权利要求1所述的系统，其中，每个私人数据服务器与存储所述当地私人数据的当地存储系统通信耦合。10.根据权利要求9所述的系统，其中，所述当地存储系统包括以下中的至少一种：RAID系统、文件服务器、网络可访问存储设备、存储区域网络设备、当地计算机可读存储器、硬盘驱动器、光学存储设备、磁带驱动器、磁带库和固态盘。11.根据权利要求9所述的系统，其中，所述当地存储系统包括以下中的至少一种：当地数据库、BAM服务器、SAM服务器、GAR服务器、BAMBAM服务器和临床操作系统服务器。12.根据权利要求1所述的系统，其中，所述模型指令包括以下中的至少一个：当地命令、远程命令、可执行文件、协议命令和选择命令。13.根据权利要求1所述的系统，其中，所述多个私人数据分布的分布遵从以下分布类型中的至少一种：高斯分布、泊松分布、伯努利分布、Rademacher分布、离散分布、二项分布、ζ分布、伽马分布、β分布和直方图分布。14.根据权利要求1所述的系统，其中，所述多个私人数据分布是基于从所述训练后的实际模型参数推导出的特征值和所述私人当地数据。15.根据权利要求1所述的系统，其中，所述代理数据集包括从所述训练后的实际模型参数推导出的特征值和所述当地私人数据的组合。16.根据权利要求15所述的系统，其中，所述代理数据包括所述特征值的线性组合。17.根据权利要求15所述的系统，其中，所述特征值包括以下中的至少一个：特征患者、特征图谱、特征药物、特征健康记录、特...

【专利技术属性】
技术研发人员：克里斯托弗·塞托，斯蒂芬·查尔斯·本茨，尼古拉斯·J·韦切，
申请(专利权)人：河谷生物组学有限责任公司，河谷控股IP有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人