有噪声的多核苷酸序列读段的高效聚类制造技术

技术编号：21208328 阅读：32 留言：0更新日期：2019-05-25 03:53

描述了用于将来自多核苷酸测序的DNA读段进行聚类的技术。具有可能由测序中的错误引起的一定水平差异的DNA读段被一起分组在相同簇中。表示不同DNA分子的读段的DNA读段被放置在不同簇中。簇基于编辑距离，其是用以将给定DNA读段转换成另一DNA读段所需的改变的数目。形成簇的过程可以被迭代地执行并且可以使用用作针对编辑距离的近似的其他类型的距离。良好聚类的DNA读段提供用于进一步分析的起始点。

Efficient Clustering of Noisy Reading Sequences of Polynucleotide Sequences

A technique for clustering DNA readings from polynucleotide sequencing is described. DNA reading segments with certain level differences that may be caused by errors in sequencing are grouped together in the same cluster. DNA reading segments representing different DNA molecules are placed in different clusters. Clusters are based on editing distance, which is the number of changes needed to convert a given DNA reading segment into another. The clustering process can be performed iteratively and other types of distances can be used as approximations for editing distances. Good clustering of DNA readings provides a starting point for further analysis.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】有噪声的多核苷酸序列读段的高效聚类
技术介绍
诸如脱氧核糖核酸(DNA)的多核苷酸的测序产生错误。多核苷酸测序仪不能以100％准确性来读取DNA分子上的核苷酸碱基的序列。然而，由于核苷酸碱基的序列不能被直接观察到，所以难以标识错误何时由多核苷酸测序仪产生。因此，DNA分析的正确序列最好能够仅从由多核苷酸测序仪生成的数据来推测。对来自多核苷酸测序仪的输出的分析可以校正一些错误。有时，针对DNA序列的中等水平的准确性是足够的。然而，在其他的一些情况下中，期望具有尽可能准确的DNA序列。各种技术可用于减少序列数据中的错误。一些技术涉及校准或以其他方式改变多核苷酸测序仪的操作。其他技术涉及处理由多核苷酸测序仪生成的序列数据。
技术实现思路
提供本
技术实现思路
从而以简化的形式介绍下面在具体实施方式中进一步描述的一系列概念。本
技术实现思路
不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制要求保护的技术方案的范围。从多核苷酸测序仪接收DNA链的大量读段(read)并对其进行分析。DNA读段的序列之间的差异可能由于DNA读段为不同DNA链的表示或者由于在测序过程中的某个点处引入了错误。表示完全不同的DNA链的DNA读段可能具有与彼此大不相同的序列。作为相同开始DNA链的所有表示的DNA读段也由于错误而不同，可能具有相当相似的序列。从多核苷酸测序仪接收的大量DNA读段被聚类成分组，使得每个分组应当仅包含表示相同原始DNA链的那些DNA读段。换句话说，一个簇内的DNA读段的变化应当仅归因于错误。分析可以确定相应读段之间的编辑距离并基于编辑距离将读段分组到簇中。编辑距离测...

【技术保护点】
1.一种系统，包括：至少一个处理单元；与所述处理单元通信的存储器；以及聚类模块，所述聚类模块被存储在所述存储器中，并且在所述处理单元上可执行以：至少部分地基于以下项将多个DNA读段划分成簇：(i)将编辑距离空间确定性地嵌入到汉明空间中的签名；和(ii)随机化的局部敏感散列(LSH)。

【技术特征摘要】
【国外来华专利技术】2016.09.30 US 62/402,8731.一种系统，包括：至少一个处理单元；与所述处理单元通信的存储器；以及聚类模块，所述聚类模块被存储在所述存储器中，并且在所述处理单元上可执行以：至少部分地基于以下项将多个DNA读段划分成簇：(i)将编辑距离空间确定性地嵌入到汉明空间中的签名；和(ii)随机化的局部敏感散列(LSH)。2.根据权利要求1所述的系统，其中所述聚类模块包括编辑距离模块，所述编辑距离模块被存储在所述存储器中，并且在所述处理单元上可执行以：基于将所述多个DNA读段中的第一读段改变为所述多个DNA读段中的第二读段的插入、删除和替代的最小数目，来计算所述多个DNA读段中的所述第一读段与所述多个DNA读段中的所述第二读段之间的编辑距离。3.根据权利要求1所述的系统，其中所述聚类模块包括散列模块，所述散列模块至少部分地基于以下项来确定所述随机化的LSH：(i)数字的随机排列并且其中所述签名包括二进制签名，或者(ii)与DNA读段内的随机选择的串的出现相邻的核苷酸。4.根据权利要求3所述的系统，其中所述聚类模块包括桶模块，所述桶模块将具有相同散列的DNA读段分组到相同桶中。5.根据权利要求1-4中的任一项所述的系统，还包括签名模块，所述签名模块被存储在所述存储器中，并且在所述处理单元上可执行以：查找针对所述多个DNA读段的k元组；将所述k元组编码为位串；以及将所述位串级联成签名。6.一种方法，包括：将多个DNA读段分离到多个桶...

【专利技术属性】
技术研发人员：L·策泽，S·耶卡尼恩，S·D·安格，K·施特劳斯，C·拉施特奇安，R·坎南，K·玛卡彻夫，
申请(专利权)人：微软技术许可有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人