抗生素敏感性的分析预测制造技术

技术编号:21637703 阅读:25 留言:0更新日期:2019-07-17 14:06
一种用于使用基因组数据集预测细菌性病原体对抗生素的敏感性的方法和系统。本文描述的各种实施例接收基因组数据集和标签的集合,并在其上运行主方差分量分析以确定标签的效应量。一个或多个标签然后基于其效应量被选择,并且被用于机器学习模型中以对未来数据集进行预测。

Analysis and Prediction of Antibiotic Sensitivity

【技术实现步骤摘要】
【国外来华专利技术】抗生素敏感性的分析预测
本文描述的实施例总体上涉及用于根据基因组数据集来预测细菌性病原体的抗生素药物敏感性的系统和方法,并且更具体地但非排他地,涉及用于使用主方差分量分析加强的机器学习根据基因组数据集来预测细菌性病原体的抗生素药物敏感性的系统和方法。
技术介绍
机器学习技术已经变为广泛用作分析和处理复杂数据集的强大工具。盲目地将机器学习技术应用于这些大型且常常不兼容的数据集有时导致过度杀伤分析、错误解释和对数据的过度拟合。具体地,这些数据集的结构常常包括特征的矩阵和标签的矩阵或单个向量。在基因组数据集的领域中,特征的矩阵可以包括例如分离株和基因。在技术上,可以构建多标签分类器以了解跨矩阵中所有特征和标签的特征-标签关联的细微差别,从而将新的输入观察结果映射到标签的向量。然而,时常地,所使用的标签对于对特征进行分类并不显著,或者能够导致不准确的分类。因此,存在对甚至在构建机器学习模型之前评估来自数据集的标签准确地预测针对药物敏感性的特征的能力的方法和系统的需要。
技术实现思路
该总结被提供为以简化形式介绍概念的选择,所述概念将在下面的具体实施方式部分中进一步描述。该总结不旨在识别或排除所要求保护的主题的关键特征或实质特征,也不旨在用于帮助确定所要求保护的主题的范围。在一个方面中,实施例涉及一种训练用于预测抗生素药物敏感性的模型的方法。所述方法包括:经由接口接收多个特征的数据集;经由所述接口接收与所述多个特征有关的标签的集合;将所述多个特征的数据集和所述标签的集合供应给处理器,所述处理器被配置为执行存储于存储器上的指令以提供方差分析引擎,其中,所述方差分析引擎被配置为针对关于所述多个特征的数据集的标签中的每个生成效应量;将针对标签生成的至少一个效应量作为来自所述方差分析引擎的输出供应给筛分(sizing)模块;并且经由所述筛分模块基于至少一个供应的效应量来选择要用于机器学习模型中的至少一个标签。在一些实施例中,所述多个特征的数据集是基因组数据集,包括以下中的至少一种:基因存在-不存在矩阵、SNP矩阵、质粒剖析矩阵、移动基因元件矩阵、基因表达矩阵、RNA序列矩阵和微阵列矩阵。在一些实施例中,所述标签的集合是包括多个表型的协变量矩阵。在一些实施例中,所述标签的集合是二元值的单个向量。在一些实施例中,所述标签的集合是多类别值的单个向量。在一些实施例中,经由所述筛分模块选择至少一个标签包括基于超过预定阈值的其生成的效应量来选择所述至少一个标签。在一些实施例中,所述方法还包括:经由所述筛分模块基于多个标签的效应量对所述多个标签进行排序,并且经由所述筛分模块基于所述排序选择所述至少一个标签。根据另一方面,实施例涉及一种用于训练用于预测抗生素药物敏感性的模型的系统。所述系统包括:接口,其用于接收多个特征的数据集和与所述多个特征有关的标签的集合;存储器;以及处理器,其被配置为执行存储于存储器上的指令以提供方差分析引擎,所述方差分析引擎被配置为接收所述多个特征的数据集和所述标签的集合,并且还被配置为输出针对标签中的每个的效应量,其中,至少一个标签基于其效应量被选择为用于机器学习模型中。在一些实施例中,所述多个特征的数据集是基因组数据集,包括以下中的至少一种:基因存在-不存在矩阵、SNP矩阵、质粒剖析矩阵、移动基因元件矩阵、基因表达矩阵、RNA序列矩阵和微阵列矩阵。在一些实施例中,所述标签的集合是包括多个表型的协变量矩阵。在一些实施例中,所述标签的集合是二元值的单个向量。在一些实施例中,所述标签的集合是多类别值的单个向量。在一些实施例中,基于超过预定阈值的其生成的效应量来选择至少一个选定的标签。在一些实施例中,所述方差分析引擎还被配置为基于标签的集合的效应量对所述标签的集合进行排序,并且基于所述排序选择所述至少一个标签。根据又一方面,实施例涉及一种用于训练抗生素抗性模型的方法。所述方法包括:经由接口接收包括多个基因组特征和多个分离株的特征矩阵;经由所述接口接收包括多个表型和多个分离株的协变量矩阵;将所述特征矩阵和所述协变量矩阵输入到处理器中,所述处理器执行存储于存储器上的指令以提供方差分析引擎;从所述方差分析引擎向筛分模块提供所述多个表型中的每个的效应量;并且经由所述筛分模块基于表型中的至少一个表型的效应量选择至少一个选定的表型来训练抗生素抗性机器学习模型。附图说明参考以下附图描述了本专利技术的非限制性和非穷举性实施例,其中,相似的附图标记贯穿各视图指代相似的部分,除非另有说明。图1图示了根据一个实施例的用于训练模型的系统;图2描绘了根据一个实施例的用于使用图1的系统训练模型的方法的流程图;图3描绘了根据一个实施例的示出在抗生素抗性矩阵和基因矩阵上的若干协变量的方差的条形图;图4描绘了根据一个实施例的在图3的抗生素基因抗性特征集上的协变量的错误率的条形图;并且图5描绘了根据一个实施例的图3的基因特征集上的协变量的错误率的条形图。具体实施方式下面参考附图更详细地描述了各种实施例,附图形成实施例的部分,并且示出了具体的示范性实施例。然而,本公开的概念可以以许多不同的形式实施,并且不应该被解释为限于本文中阐述的实施例;相反,这些实施例是作为全面和完整公开的部分提供的,以向本领域技术人员充分传达本公开的概念、技术和实施方式的范围。各实施例可以被实践为方法、系统或设备。因此,实施例可以采取硬件实施方式、完全软件实施方式或组合了软件和硬件方面的实施方式的形式。因此,以下详细描述不应被认为是限制性的。说明书中对“一个实施例”或“实施例”的引用意味着结合所述实施例描述的特定特征、结构或特性被包括在根据本公开的至少一个范例实施方式或技术中。在说明书中的各位置,短语“在一个实施例中”的出现不一定都指代相同的实施例。以下描述的一些部分是依据对存储在计算机存储器内的非瞬态信号的操作的符号表示来呈现的。这些描述和表示由数据处理领域的技术人员使用,以最有效地将他们工作的实质传达给本领域其他技术人员。这种操作通常需要物理量的物理操纵。通常,但不是必须的,这些量采取能够被存储、传输、组合、比较和以其它方式操纵的电信号、磁信号或光学信号的形式。有时,主要出于通常使用的原因,将这些信号称为比特、值、元素、符号、字符、项、数字等是方便的。此外,有时也方便地将需要物理量的物理操纵的步骤的特定布置称为模块或代码设备,而不失一般性。然而,所有这些和类似术语都与适当的物理量相关联,并且仅仅是应用于这些量的方便标签。除另行具体说明,如根据以下讨论而显而易见的,否则应意识到,贯穿说明书,利用诸如“处理”或“计算”或“运算”或“确定”或“显示”等的术语的讨论指的是计算机系统或类似电子计算设备的动作和过程,其操纵和变换被表示为计算机系统存储器或寄存器或其它此类信息存储、传输或显示设备内的物理(电子)量的数据。本公开的各部分包括可以实现在软件、固件或硬件中的过程和指令,并且当以软件实现时,可以被下载以驻留在由各种操作系统使用的不同平台上并且从所述不同平台操作。本公开还涉及用于执行本文的操作的装置。该装置可以为所需目的而专门构造,或者其可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。这样的计算机程序可以存储在计算机可读存储介质中,例如但不限于任何类型的本文档来自技高网...

【技术保护点】
1.一种用于训练抗生素抗性模型的方法,所述方法包括:经由接口接收包括多个基因组特征和多个分离株的特征矩阵;经由所述接口接收包括多个表型和所述多个分离株的协变量矩阵;将所述特征矩阵和所述协变量矩阵输入到处理器中,所述处理器执行被存储于存储器上的指令以提供方差分析引擎;将来自所述方差分析引擎的所述多个表型中的每个表型的效应量供应到筛分模块;并且经由所述筛分模块基于所述表型中的至少一个表型的所述效应量选择至少一个选定的表型来训练抗生素抗性机器学习模型。

【技术特征摘要】
【国外来华专利技术】2016.11.28 US 62/426,775;2017.05.25 US 62/511,0511.一种用于训练抗生素抗性模型的方法,所述方法包括:经由接口接收包括多个基因组特征和多个分离株的特征矩阵;经由所述接口接收包括多个表型和所述多个分离株的协变量矩阵;将所述特征矩阵和所述协变量矩阵输入到处理器中,所述处理器执行被存储于存储器上的指令以提供方差分析引擎;将来自所述方差分析引擎的所述多个表型中的每个表型的效应量供应到筛分模块;并且经由所述筛分模块基于所述表型中的至少一个表型的所述效应量选择至少一个选定的表型来训练抗生素抗性机器学习模型。2.一种训练用于预测抗生素药物敏感性的模型的方法,所述方法包括:经由接口接收多个特征的数据集;经由所述接口接收与所述多个特征有关的标签的集合;将所述多个特征的所述数据集和所述标签的集合供应到处理器,所述处理器被配置为执行被存储于存储器上的指令以提供方差分析引擎,其中,所述方差分析引擎被配置为针对关于所述多个特征的所述数据集的所述标签中的每个标签生成效应量;将针对标签生成的至少一个效应量作为输出从所述方差分析引擎供应到筛分模块;并且经由所述筛分模块基于至少一个供应的效应量来选择要用于机器学习模型中的至少一个标签。3.根据权利要求2所述的方法,其中,所述多个特征的所述数据集是基因组数据集,所述基因组数据集包括以下中的至少一种:基因存在-不存在矩阵、SNP矩阵、质粒剖析矩阵、移动基因矩阵、基因表达矩阵、RNA序列矩阵以及微阵列矩阵。4.根据权利要求2所述的方法,其中,所述标签的集合是包括多个表型的协变量矩阵。5.根据权利要求4所述的方法,其中,所述标签的集合是二元值的...

【专利技术属性】
技术研发人员:K·穆鲁格桑
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰,NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1