The present disclosure provides machine learning analysis of nanopore measurement results. A machine learning technique using recurrent neural network (RNN) was used to analyze a series of measurements obtained from polymers during nanopore translocation. The RNN can derive a posterior probability matrix, and each posterior probability matrix represents: in terms of different corresponding historical sequences of the polymer unit corresponding to the measurement results before the corresponding measurement, multiple different posterior probabilities of the corresponding historical sequences of the polymer unit generate a new polymer unit sequence. Alternatively, the RNN may output a decision on the identification of a continuous polymer unit of the series of polymer units, wherein the decision is fed back to the recurrent neural network. The analysis may include performing convolution of consecutive measurement result groups using trained feature detectors such as convolution neural networks to derive a series of feature vectors as RNN operation objects.
【技术实现步骤摘要】
【国外来华专利技术】纳米孔测量结果的机器学习分析
本专利技术涉及在聚合物(例如但不限于多核苷酸)相对于纳米孔易位期间对从所述聚合物中的聚合物单元获取的测量结果进行分析。
技术介绍
用于估计聚合物中聚合物单元的目标序列的一种类型的测量系统使用纳米孔,并且聚合物相对于纳米孔易位。该系统的一些性质取决于纳米孔中的聚合物单元,并且对所述性质进行测量。这种使用纳米孔的测量系统具有相当大的前景,特别是在对如DNA或RNA等多核苷酸进行测序的领域中,并且已经成为最近发展的主题。
技术实现思路
这种纳米孔测量系统可以提供对多核苷酸的长时间连续读取,读取范围从数百到数十万(并且可能更多)个核苷酸不等。以这种方式收集的数据包括测量结果,如离子电流的测量结果,其中序列相对于纳米孔的敏感部分的每次易位可能导致测量性质的变化。根据本专利技术的第一方面,提供了一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,所述方法包括使用机器学习技术分析所述一系列测量结果并导出对应于相应测量结果或相应测量结果组的一系列后验概率矩阵,每个后验概率矩阵表示:就聚合物单元的对应于相应测量之前或之后的测量结果的不同相应历史序列而言,聚合物单元的所述相应历史序列的多个不同变化的后验概率产生新的聚合物单元序列。表示后验概率的所述一系列后验概率矩阵提供了关于所述一系列聚合物单元的改进信息,测量结果从所述一系列聚合物单元中获取并且可以用于多种应用中。所述一系列后验概率矩阵可以用于导出关于至少一个 ...
【技术保护点】
1.一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,/n所述方法包括使用机器学习技术分析所述一系列测量结果并导出对应于相应测量结果或相应测量结果组的一系列后验概率矩阵,/n每个后验概率矩阵表示:就聚合物单元的对应于相应测量之前或之后的测量结果的不同相应历史序列而言,聚合物单元的所述相应历史序列的多个不同变化的后验概率产生新的聚合物单元序列。/n
【技术特征摘要】
【国外来华专利技术】20170504 GB 1707138.21.一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,
所述方法包括使用机器学习技术分析所述一系列测量结果并导出对应于相应测量结果或相应测量结果组的一系列后验概率矩阵,
每个后验概率矩阵表示:就聚合物单元的对应于相应测量之前或之后的测量结果的不同相应历史序列而言,聚合物单元的所述相应历史序列的多个不同变化的后验概率产生新的聚合物单元序列。
2.根据权利要求1所述的方法,其中所述机器学习技术采用递归神经网络。
3.根据权利要求2所述的方法,其中所述递归神经网络是双向递归神经网络。
4.根据权利要求2或3所述的方法,其中所述递归神经网络包括多个层。
5.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括从所述一系列后验概率矩阵导出所述一系列聚合物单元的估计值。
6.根据权利要求5所述的方法,其中从所述一系列后验概率矩阵导出所述一系列聚合物单元的估计值的步骤通过估计通过所述一系列后验概率矩阵的最可能路径来执行。
7.根据权利要求5所述的方法,其中导出所述一系列聚合物单元的估计值的步骤通过选择与所述聚合物的所述一系列聚合物单元最相似的一组多个参考系列聚合物单元中的一个来执行。
8.根据权利要求5所述的方法,其中导出所述一系列聚合物单元的估计值的步骤通过估计所述聚合物的所述一系列聚合物单元与来自所述一系列后验概率矩阵的参考系列聚合物单元之间的差异来执行。
9.根据权利要求5所述的方法,其中所述估计是对所述聚合物的所述一系列聚合物单元的部分是否为参考系列聚合物单元的估计。
10.根据前述权利要求中任一项所述的方法,其进一步包括导出关于至少一个参考系列聚合物单元的得分,所述得分表示所述聚合物的所述一系列聚合物单元是所述参考系列聚合物单元的概率。
11.根据前述权利要求中任一项所述的方法,其中所述多个不同变化包含以下变化:从聚合物单元的所述历史序列的起点或末端移除单个聚合物单元;以及将单个聚合物单元添加到聚合物单元的所述历史序列的末端或起点。
12.根据前述权利要求中任一项所述的方法,其中所述多个不同变化包含以下变化:从聚合物单元的所述历史序列的起点或末端移除两个或更多个聚合物单元;以及将两个或更多个聚合物单元添加到聚合物单元的所述历史序列的末端或起点。
13.根据前述权利要求中任一项所述的方法,其中所述多个不同变化包含空变化。
14.根据前述权利要求中任一项所述的方法,其中分析所述一系列测量结果包括:
将所述一系列测量结果中的连续测量结果组识别为属于共同事件;
从每个经过识别的测量结果组中导出一个或多个量;以及
使用所述机器学习技术对从每个经过识别的测量结果组中导出的所述一个或多个量进行操作,所述后验概率矩阵对应于相应经过识别的测量结果组。
15.根据权利要求1到13中任一项所述的方法,其中所述后验概率矩阵对应于相应测量结果或相应预定数量测量结果的组。
16.根据权利要求15所述的方法,其中分析所述一系列测量结果包括:
在所述一系列测量结果的连续窗口中对连续测量结果执行卷积,以导出关于每个窗口的特征向量;以及
使用所述机器学习技术对所述特征向量进行操作。
17.根据权利要求16所述的方法,其中所述窗口是重叠的窗口。
18.根据权利要求16或17所述的方法,其中在所述一系列测量结果中对连续测量结果执行卷积的所述步骤包括使用经过训练的特征检测器对所述一系列测量结果进行操作。
19.根据权利要求18所述的方法,其中所述经过训练的特征检测器是卷积神经网络。
20.一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,
所述方法包括使用输出关于所述一系列聚合物单元的连续聚合物单元的标识的决策的递归神经网络分析所述一系列测量结果,其中所述决策被反馈到所述递归神经网络中以便通知随后输出的决策。<...
【专利技术属性】
技术研发人员:蒂莫西·李·马辛厄姆,约瑟夫·爱德华·哈尔韦,
申请(专利权)人:牛津楠路珀尔科技有限公司,
类型:发明
国别省市:英国;GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。