纳米孔测量结果的机器学习分析制造技术

技术编号:22758153 阅读:26 留言:0更新日期:2019-12-07 05:17
本公开提供了纳米孔测量结果的机器学习分析。采用使用递归神经网络(RNN)的机器学习技术分析在通过纳米孔易位期间从聚合物获取的一系列测量结果。所述RNN可以导出后验概率矩阵,每个后验概率矩阵表示:就聚合物单元的对应于相应测量之前的测量结果的不同相应历史序列而言,聚合物单元的所述相应历史序列的多个不同变化的后验概率产生新的聚合物单元序列。可替代地,所述RNN可以输出关于所述一系列聚合物单元的连续聚合物单元的标识的决策,其中所述决策被反馈到所述递归神经网络中。所述分析可以包括使用如卷积神经网络等经过训练的特征检测器对连续测量结果组执行卷积,以导出作为RNN操作对象的一系列特征向量。

Machine learning analysis of nanopore measurement results

The present disclosure provides machine learning analysis of nanopore measurement results. A machine learning technique using recurrent neural network (RNN) was used to analyze a series of measurements obtained from polymers during nanopore translocation. The RNN can derive a posterior probability matrix, and each posterior probability matrix represents: in terms of different corresponding historical sequences of the polymer unit corresponding to the measurement results before the corresponding measurement, multiple different posterior probabilities of the corresponding historical sequences of the polymer unit generate a new polymer unit sequence. Alternatively, the RNN may output a decision on the identification of a continuous polymer unit of the series of polymer units, wherein the decision is fed back to the recurrent neural network. The analysis may include performing convolution of consecutive measurement result groups using trained feature detectors such as convolution neural networks to derive a series of feature vectors as RNN operation objects.

【技术实现步骤摘要】
【国外来华专利技术】纳米孔测量结果的机器学习分析
本专利技术涉及在聚合物(例如但不限于多核苷酸)相对于纳米孔易位期间对从所述聚合物中的聚合物单元获取的测量结果进行分析。
技术介绍
用于估计聚合物中聚合物单元的目标序列的一种类型的测量系统使用纳米孔,并且聚合物相对于纳米孔易位。该系统的一些性质取决于纳米孔中的聚合物单元,并且对所述性质进行测量。这种使用纳米孔的测量系统具有相当大的前景,特别是在对如DNA或RNA等多核苷酸进行测序的领域中,并且已经成为最近发展的主题。
技术实现思路
这种纳米孔测量系统可以提供对多核苷酸的长时间连续读取,读取范围从数百到数十万(并且可能更多)个核苷酸不等。以这种方式收集的数据包括测量结果,如离子电流的测量结果,其中序列相对于纳米孔的敏感部分的每次易位可能导致测量性质的变化。根据本专利技术的第一方面,提供了一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,所述方法包括使用机器学习技术分析所述一系列测量结果并导出对应于相应测量结果或相应测量结果组的一系列后验概率矩阵,每个后验概率矩阵表示:就聚合物单元的对应于相应测量之前或之后的测量结果的不同相应历史序列而言,聚合物单元的所述相应历史序列的多个不同变化的后验概率产生新的聚合物单元序列。表示后验概率的所述一系列后验概率矩阵提供了关于所述一系列聚合物单元的改进信息,测量结果从所述一系列聚合物单元中获取并且可以用于多种应用中。所述一系列后验概率矩阵可以用于导出关于至少一个参考系列聚合物单元的得分,所述得分表示所述聚合物的所述一系列聚合物单元是所述参考系列聚合物单元的概率。因此,所述一系列后验概率矩阵能够实现例如以下多种应用。许多应用涉及从所述一系列后验概率矩阵导出所述一系列聚合物单元的估计值。这可以是所述一系列聚合物单元整体上的估计值。这可以通过从所有可能的系列中找到得分最高的此类系列来完成。例如,这可以通过估计通过所述一系列后验概率矩阵的最可能路径来执行。可替代地,可以通过选择最可能对应于所述一系列后验概率矩阵的一组多个参考系列聚合物单元中的一个来找到所述一系列聚合物单元的估计值,例如基于得分。通过估计所述聚合物的所述一系列聚合物单元与参考系列聚合物单元之间的差异,可以找到所述一系列聚合物单元的另一种类型的估计值。这可以通过对所述参考系列的变化进行评分来完成。可替代地,所述估计可以是对所述一系列聚合物单元的部分的估计。例如,可以估计所述一系列聚合物单元的部分是否为参考系列聚合物单元。这可以通过针对所述一系列后验概率矩阵的部分对所述参考序列进行评分来完成。这种方法提供了优于比较方法的优势,所述比较方法导出表示多个不同聚合物单元序列的后验概率的一系列后验概率向量。具体地税,所述一系列后验概率矩阵为这种后验概率向量提供另外的信息,从而允许以更准确的方式对所述一系列聚合物单元进行估计。举例来说,这一技术允许更好地估计重复序列的区域,包含重复一个或多个聚合物单元的短序列的区域。对均聚物进行更好的估计是重复区域中的优势的特定实例。为了直观地了解为什么存在这种优势,考虑预测包裹将在哪一天交付的问题。每个包裹的到达类似于将预测的聚合物序列扩展一个单元。预测状态的模型(例如等人,《DeepNano:用于微纳孔读取中的基础调用的深度递归神经网络(DeepNano:DeepRecurrentNeuralNetworksforBaseCallinginMinionNanoporeReads)》,康奈尔大学网站,2016年3月)将产生在未来每一天递送包裹的概率。如果交付日期存在很大的不确定性,那么在任何特定日期交付包裹的概率可能低于50%,在这种情况下,根据模型,最可能的事件序列是包裹永远不会交付。另一方面,预测相对于历史状态的变化的模型可能针对每一天产生2个概率:1)如果包裹尚未交付,则交付的概率随着更多天数过去而增加,以及2)如果包裹已经交付,则交付的概率将始终为0。与之前的模型不同,这一模型始终预测包裹最终会交付。类似地,与预测相对于历史的变化的模型相比,基于状态的模型往往会低估重复聚合物序列的长度。这为均聚物序列提供了特别的优势,因为由均聚物产生的一系列测量结果往往非常相似,从而使得难以将测量结果分配给每个另外的聚合物单元。在纳米孔测序的背景下确定均聚物区域是特别具有挑战性的,所述纳米孔测序涉及以逐步方式通过纳米孔将聚合物链(例如多核苷酸链)易位,例如通过酶促分子马达的方式。在易位期间测量的电流通常取决于多个核苷酸并且可以近似于特定数量的核苷酸。当在酶控制下易位时,所述多核苷酸链通常一次移动通过纳米孔一个碱基。因此,对于均聚物长度长于产生电流信号的近似核苷酸数的多核苷酸链,可能难以确定均聚物区域中聚合物单元的数量。本专利技术的一个方面旨在改进对均聚物区域的确定。机器学习技术可以采用递归神经网络,其可以任选地是双向递归神经网络和/或包括多个层。后验概率表示的变化具有例如以下各种不同的可能性。所述变化可以包含以下变化:从聚合物单元的历史序列的起点或末端移除单个聚合物单元,以及将单个聚合物单元添加到聚合物单元的历史序列的末端或起点。所述变化可以包含以下变化:从聚合物单元的历史序列的起点或末端移除两个或更多个聚合物单元,以及将两个或更多个聚合物单元添加到聚合物单元的历史序列的末端或起点。所述变化可以包含空变化。所述方法可以采用事件调用并将机器学习技术应用于从每个事件导出的量。例如,所述方法可以包括:将所述一系列测量结果中的连续测量结果组识别为属于共同事件;从每个经过识别的测量结果组中导出一个或多个量;以及使用所述机器学习技术对从每个经过识别的测量结果组中导出的一个或多个量进行操作。所述方法可以对所述量的窗口进行操作。所述方法可以导出对应于相应经过识别的测量结果组(其通常含有先验未知且可以是可变的多个测量结果)的后验概率矩阵,因此所述后验概率矩阵与所述测量结果之间的关系取决于经过识别的组中的测量结果的数量。所述方法可以可替代地将所述机器学习技术应用于所述测量结果本身。在这种情况下,所述方法可以导出对应于相应测量结果或相应预定数量测量结果的组的后验概率矩阵,因此预先确定所述后验概率矩阵与所述测量结果之间的关系。例如,对所述一系列测量结果进行的分析可以包括:在所述一系列测量结果的连续窗口中对连续测量结果执行卷积,以导出关于每个窗口的特征向量;以及使用所述机器学习技术对所述特征向量进行操作。所述窗口可以是重叠的窗口。可以通过使用经过训练的特征检测器(例如卷积神经网络)对所述一系列测量结果进行操作来执行所述卷积。根据本专利技术的第二方面,提供了一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,所述方法包括使用输出关于所述一系列聚合物单元的连续聚合物单元的标识的决策的递归神经网络分析所述一系列测量结果,其中所述决策被反馈到所述递归神经网络中以便通知随后的输出本文档来自技高网...

【技术保护点】
1.一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,/n所述方法包括使用机器学习技术分析所述一系列测量结果并导出对应于相应测量结果或相应测量结果组的一系列后验概率矩阵,/n每个后验概率矩阵表示:就聚合物单元的对应于相应测量之前或之后的测量结果的不同相应历史序列而言,聚合物单元的所述相应历史序列的多个不同变化的后验概率产生新的聚合物单元序列。/n

【技术特征摘要】
【国外来华专利技术】20170504 GB 1707138.21.一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,
所述方法包括使用机器学习技术分析所述一系列测量结果并导出对应于相应测量结果或相应测量结果组的一系列后验概率矩阵,
每个后验概率矩阵表示:就聚合物单元的对应于相应测量之前或之后的测量结果的不同相应历史序列而言,聚合物单元的所述相应历史序列的多个不同变化的后验概率产生新的聚合物单元序列。


2.根据权利要求1所述的方法,其中所述机器学习技术采用递归神经网络。


3.根据权利要求2所述的方法,其中所述递归神经网络是双向递归神经网络。


4.根据权利要求2或3所述的方法,其中所述递归神经网络包括多个层。


5.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括从所述一系列后验概率矩阵导出所述一系列聚合物单元的估计值。


6.根据权利要求5所述的方法,其中从所述一系列后验概率矩阵导出所述一系列聚合物单元的估计值的步骤通过估计通过所述一系列后验概率矩阵的最可能路径来执行。


7.根据权利要求5所述的方法,其中导出所述一系列聚合物单元的估计值的步骤通过选择与所述聚合物的所述一系列聚合物单元最相似的一组多个参考系列聚合物单元中的一个来执行。


8.根据权利要求5所述的方法,其中导出所述一系列聚合物单元的估计值的步骤通过估计所述聚合物的所述一系列聚合物单元与来自所述一系列后验概率矩阵的参考系列聚合物单元之间的差异来执行。


9.根据权利要求5所述的方法,其中所述估计是对所述聚合物的所述一系列聚合物单元的部分是否为参考系列聚合物单元的估计。


10.根据前述权利要求中任一项所述的方法,其进一步包括导出关于至少一个参考系列聚合物单元的得分,所述得分表示所述聚合物的所述一系列聚合物单元是所述参考系列聚合物单元的概率。


11.根据前述权利要求中任一项所述的方法,其中所述多个不同变化包含以下变化:从聚合物单元的所述历史序列的起点或末端移除单个聚合物单元;以及将单个聚合物单元添加到聚合物单元的所述历史序列的末端或起点。


12.根据前述权利要求中任一项所述的方法,其中所述多个不同变化包含以下变化:从聚合物单元的所述历史序列的起点或末端移除两个或更多个聚合物单元;以及将两个或更多个聚合物单元添加到聚合物单元的所述历史序列的末端或起点。


13.根据前述权利要求中任一项所述的方法,其中所述多个不同变化包含空变化。


14.根据前述权利要求中任一项所述的方法,其中分析所述一系列测量结果包括:
将所述一系列测量结果中的连续测量结果组识别为属于共同事件;
从每个经过识别的测量结果组中导出一个或多个量;以及
使用所述机器学习技术对从每个经过识别的测量结果组中导出的所述一个或多个量进行操作,所述后验概率矩阵对应于相应经过识别的测量结果组。


15.根据权利要求1到13中任一项所述的方法,其中所述后验概率矩阵对应于相应测量结果或相应预定数量测量结果的组。


16.根据权利要求15所述的方法,其中分析所述一系列测量结果包括:
在所述一系列测量结果的连续窗口中对连续测量结果执行卷积,以导出关于每个窗口的特征向量;以及
使用所述机器学习技术对所述特征向量进行操作。


17.根据权利要求16所述的方法,其中所述窗口是重叠的窗口。


18.根据权利要求16或17所述的方法,其中在所述一系列测量结果中对连续测量结果执行卷积的所述步骤包括使用经过训练的特征检测器对所述一系列测量结果进行操作。


19.根据权利要求18所述的方法,其中所述经过训练的特征检测器是卷积神经网络。


20.一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,
所述方法包括使用输出关于所述一系列聚合物单元的连续聚合物单元的标识的决策的递归神经网络分析所述一系列测量结果,其中所述决策被反馈到所述递归神经网络中以便通知随后输出的决策。<...

【专利技术属性】
技术研发人员:蒂莫西·李·马辛厄姆约瑟夫·爱德华·哈尔韦
申请(专利权)人:牛津楠路珀尔科技有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1