有噪声的多核苷酸序列读段的高效聚类制造技术

技术编号:21208328 阅读:32 留言:0更新日期:2019-05-25 03:53
描述了用于将来自多核苷酸测序的DNA读段进行聚类的技术。具有可能由测序中的错误引起的一定水平差异的DNA读段被一起分组在相同簇中。表示不同DNA分子的读段的DNA读段被放置在不同簇中。簇基于编辑距离,其是用以将给定DNA读段转换成另一DNA读段所需的改变的数目。形成簇的过程可以被迭代地执行并且可以使用用作针对编辑距离的近似的其他类型的距离。良好聚类的DNA读段提供用于进一步分析的起始点。

Efficient Clustering of Noisy Reading Sequences of Polynucleotide Sequences

A technique for clustering DNA readings from polynucleotide sequencing is described. DNA reading segments with certain level differences that may be caused by errors in sequencing are grouped together in the same cluster. DNA reading segments representing different DNA molecules are placed in different clusters. Clusters are based on editing distance, which is the number of changes needed to convert a given DNA reading segment into another. The clustering process can be performed iteratively and other types of distances can be used as approximations for editing distances. Good clustering of DNA readings provides a starting point for further analysis.

【技术实现步骤摘要】
【国外来华专利技术】有噪声的多核苷酸序列读段的高效聚类
技术介绍
诸如脱氧核糖核酸(DNA)的多核苷酸的测序产生错误。多核苷酸测序仪不能以100%准确性来读取DNA分子上的核苷酸碱基的序列。然而,由于核苷酸碱基的序列不能被直接观察到,所以难以标识错误何时由多核苷酸测序仪产生。因此,DNA分析的正确序列最好能够仅从由多核苷酸测序仪生成的数据来推测。对来自多核苷酸测序仪的输出的分析可以校正一些错误。有时,针对DNA序列的中等水平的准确性是足够的。然而,在其他的一些情况下中,期望具有尽可能准确的DNA序列。各种技术可用于减少序列数据中的错误。一些技术涉及校准或以其他方式改变多核苷酸测序仪的操作。其他技术涉及处理由多核苷酸测序仪生成的序列数据。
技术实现思路
提供本
技术实现思路
从而以简化的形式介绍下面在具体实施方式中进一步描述的一系列概念。本
技术实现思路
不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制要求保护的技术方案的范围。从多核苷酸测序仪接收DNA链的大量读段(read)并对其进行分析。DNA读段的序列之间的差异可能由于DNA读段为不同DNA链的表示或者由于在测序过程中的某个点处引入了错误。表示完全不同的DNA链的DNA读段可能具有与彼此大不相同的序列。作为相同开始DNA链的所有表示的DNA读段也由于错误而不同,可能具有相当相似的序列。从多核苷酸测序仪接收的大量DNA读段被聚类成分组,使得每个分组应当仅包含表示相同原始DNA链的那些DNA读段。换句话说,一个簇内的DNA读段的变化应当仅归因于错误。分析可以确定相应读段之间的编辑距离并基于编辑距离将读段分组到簇中。编辑距离测量将一个DNA读段改变为另一个所需的插入、删除以及替代的最小数目。编辑距离可以通过DNA读段的其他特性来近似。在一个实现方式中,散列值用于确定DNA读段的相似性,并且因此它们用作针对编辑距离的近似。存在计算散列值的多种方式。一种计算散列值的方式是生成针对DNA读段的二进制签名并从二进制签名和随机数的串来创建散列。迭代的过程可以使用散列值之间的距离和/或编辑距离来重复地分析大量DNA读段。具有低于阈值距离的距离的DNA读段可以被一起分组在相同簇中。已经被放置到簇中的一些DNA读段可以从后续迭代中省略,由此减少后续迭代的计算开支。附图说明参考附图阐述具体实施方式。在附图中,附图标记的最左边的(一个或多个)数字识别该附图标记首次出现的附图。在不同的附图中对相同的附图标记的使用指示相似或相同的项。图1示出了创建DNA读段并对DNA读段进行聚类的示意性表示。图2示出了说明性计算设备的框图。图3示出了对DNA读段进行聚类的过程。图4A和图4B示出了对DNA读段进行聚类的过程。具体实施方式本公开提供用于对序列数据中的读段进行聚类使得针对相同原始DNA链的读段被放置在相同簇中的计算上高效的技术。对读段进行聚类本身不能校正序列数据中的错误但是其却能以使错误校正更高效和/或准确的方式来组织DNA读段。在美国临时专利申请No.62/329,945中描述了使用聚类的针对序列数据的错误校正的一个示例。由于由多核苷酸测序仪生成的大量数据,对于涉及DNA序列的应用期望计算效率。例如,通过多核苷酸测序仪的一次运行输出的数据可以包含超过表示数百万个不同的DNA链的十亿个不同的DNA读段。术语“DNA链”或简单的“链”是指DNA分子。如本文中所使用的,“读段”可以是指代当多核苷酸测序仪读取DNA链的序列时由多核苷酸测序仪生成的一串数据的名词。由多核苷酸测序仪产生的读段常常包含错误,并且因此不能以100%准确性表示DNA链的结构。然而,DNA测序技术产生相同区域DNA的多个读段或相同DNA链的多个不同副本的多个读段。读段被称为“有噪声的读段”,因为核苷酸的相同序列的读段的汇集可能包含具有近似随机分布的错误,即“噪声”。尽管给定的读段可能无错误,但是不能够知道哪些读段无错误或者哪些错误存在,除非序列是已知的。但是在DNA链的序列已知的情况下测序通常不必要。自然出现的DNA链包括四类核苷酸:腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)。DNA链或多核苷酸是这些核苷酸的线性序列。DNA链的两端(被称为5’和3’端)在化学上是不同的。DNA序列通常以在左边的5’核苷酸端开始来表示。不同链之间的交互可基于序列来预测:两个单链可以结合到彼此并且在它们互补的情况下形成双螺旋:一个链中的A与另一个链中的T,并且对于C和G类似。双螺旋中的两个链具有相反的方向性(5’端被附接到另一链的3’端),并且因此两个序列是彼此的“反向互补”。两个链不需要完全互补以结合到彼此。核糖核酸(RNA)具有与DNA类似的结构并且自然出现的RNA包括四种核苷酸A、C、G以及尿嘧啶(U)而非T。本公开中的讨论为简洁和可读性起见提到了DNA,但是RNA可以代替或组合DNA来使用。附加地,本公开中提出的技术可以容易地适用于DNA或包含多于或少于四种不同单体的其他聚合物。例如,与A、C、G和T一起使用合成碱基的DNA将具有五种不同字母的字母表。此外,除了DNA或RNA之外的能够以类似的方式被扩增和测序的其他聚合物也可以与本文中公开的技术一起使用。鉴于利用字母A、C、G和T来表示DNA核苷酸的惯例,由DNA测序仪生成的读段是包括字母A、C、G和T的文本串。一些读段可以包括描述读段的特性的元数据,读段的特性诸如针对读段中的个体碱基响应的准确性的置信度水平。读段还可以包含表示碱基响应中的不确定性的其他字母,例如,字母N可以表示未知的碱基响应。图1示出了创建DNA读段114并对DNA读段114进行聚类的示意性表示100。原始DNA链102表示要被测序的单个分子。DNA链102可以从生物样本来提取、被化学合成、或来自其他源。原始DNA链102被扩增以制作DNA链的大量相同副本。用于扩增DNA链的常见机器是热循环器104。尽管本文中描述了热循环器104,但是用于扩增DNA链的任何其他技术可以来替代。热循环器104(也称为热循环仪、PCR机、或DNA扩增器)可以利用热块来实现,热块具有保持扩增反应混合物的管可以被插入其中的孔。术语“扩增反应混合物”是指包括用于扩增目标核酸的各种试剂的水溶液。热循环器104可以然后以离散的、预编程的步骤来升高和降低块的温度。另一实现方式是扩增反应混合物经由通过微流控芯片上的热区和冷区的通道移动的小型化热循环器。包括各种技术修改的热循环器的行为和使用对于本领域普通技术人员而言是众所周知的。热循环器104用于通过聚合酶链式反应(PCR)来扩增原始DNA链102。PCR是用于扩增所选择的DNA序列的浓度的方法。通常是指目标核酸的副本数目的“指数”增加的术语“扩增”在本文中用于描述核酸的所选择的目标序列的数目的线性增加和指数增加两者。PCR反应具有三个主要组成:模板、测序引物、以及酶。模板是包含将被扩增的(子)序列的单链或双链分子。DNA测序引物是限定要被扩增的区域的开始和结束的短合成链。酶包括聚合酶和耐热性聚合酶,诸如DNA聚合酶、RNA聚合酶和反转录酶。酶从单链模板通过从引物边界开始到该模板通过核苷三磷酸的添加逐个地“填充”互补核苷酸来创建双链DNA。PCR“循环”发生,其中的每一个将溶液中的模板的数目加本文档来自技高网...

【技术保护点】
1.一种系统,包括:至少一个处理单元;与所述处理单元通信的存储器;以及聚类模块,所述聚类模块被存储在所述存储器中,并且在所述处理单元上可执行以:至少部分地基于以下项将多个DNA读段划分成簇:(i)将编辑距离空间确定性地嵌入到汉明空间中的签名;和(ii)随机化的局部敏感散列(LSH)。

【技术特征摘要】
【国外来华专利技术】2016.09.30 US 62/402,8731.一种系统,包括:至少一个处理单元;与所述处理单元通信的存储器;以及聚类模块,所述聚类模块被存储在所述存储器中,并且在所述处理单元上可执行以:至少部分地基于以下项将多个DNA读段划分成簇:(i)将编辑距离空间确定性地嵌入到汉明空间中的签名;和(ii)随机化的局部敏感散列(LSH)。2.根据权利要求1所述的系统,其中所述聚类模块包括编辑距离模块,所述编辑距离模块被存储在所述存储器中,并且在所述处理单元上可执行以:基于将所述多个DNA读段中的第一读段改变为所述多个DNA读段中的第二读段的插入、删除和替代的最小数目,来计算所述多个DNA读段中的所述第一读段与所述多个DNA读段中的所述第二读段之间的编辑距离。3.根据权利要求1所述的系统,其中所述聚类模块包括散列模块,所述散列模块至少部分地基于以下项来确定所述随机化的LSH:(i)数字的随机排列并且其中所述签名包括二进制签名,或者(ii)与DNA读段内的随机选择的串的出现相邻的核苷酸。4.根据权利要求3所述的系统,其中所述聚类模块包括桶模块,所述桶模块将具有相同散列的DNA读段分组到相同桶中。5.根据权利要求1-4中的任一项所述的系统,还包括签名模块,所述签名模块被存储在所述存储器中,并且在所述处理单元上可执行以:查找针对所述多个DNA读段的k元组;将所述k元组编码为位串;以及将所述位串级联成签名。6.一种方法,包括:将多个DNA读段分离到多个桶...

【专利技术属性】
技术研发人员:L·策泽S·耶卡尼恩S·D·安格K·施特劳斯C·拉施特奇安R·坎南K·玛卡彻夫
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1