使用分级反向索引表的DNA比对制造技术

技术编号：18179104 阅读：19 留言：0更新日期：2018-06-09 20:59

用于构建可用于将检索序列与参考数据匹配的分级索引表的系统和方法。所述索引表可经构建以含有与给定长度的所有子序列的穷尽性列表相关联的条目，其中每个条目含有在所述参考数据中的每个子序列的匹配的数量和位置。可以迭代方式构建所述分级索引表，其中基于匹配的数量大于一组相应阈值中的每一个，选择性地和迭代地构建用于每个延长子序列的条目。所述分级索引表可用于搜索在检索序列和参考数据之间的匹配，并且对每个相应候选匹配执行错配鉴别和表征。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用分级反向索引表的DNA比对
本申请大体上涉及将数据模式映射到参考数据组上，且更具体地说，涉及在DNA测序和DNA比对应用中执行这类数据比对或模式匹配。
技术介绍
现代技术涉及越来越大量数据的收集和处理。其中，所谓的“大数据”的应用和使用情况范围是数据挖掘、播发、机器学习和DNA测序。在许多情况下，有必要搜索在少量样品数据和大得多的参考数据组之间的匹配。随着参考数据组的尺寸增加，样本数据与此参考数据组的比对(模式匹配)变成以指数方式更为计算密集型任务。数据比对的示例性案例在DNA比对领域中进行。活生物体由细胞构成并且细胞的操作和繁殖受从一代细胞传送到下一代的基因信息控制。物种和个体生物体的基因信息的详细知识对于更精确生命科学的保持巨大希望，从而支持改善的健康护理、农业、环境管理和犯罪解析。实现这些益处的障碍中的一个为对生物体的基因信息进行测序的成本。为了做到这一点的技术已经在数十年的最后十年内显著改善，使得将成本减少到小于US$1000/人表现为可实现的。然而，仍然存在数据的完整性、精确度、解释的问题，和可靠诊断疾病的问题。从生物样品获取基因信息的天数也是需要快速响应的用途的障碍，如已知供急救室患者使用的对于敏感个体具有严重副作用的医药适合性。因此，期望用于数据比对并且具体来说DNA测序的改善的技术和工具。
技术实现思路
公开用于将数据模式映射到显著地较大数据组上的系统和方法的各种实施例。在一些实施例中，较大数据组可为参考数据组。在一些实施例中，较大数据组可为从头测序的结果，其中多个数据模式用于构建与多个数据模式自一致的大数据组。本文中呈现的许多实施例涉及D...
使用分级反向索引表的DNA比对

【技术保护点】
一种用于将检索序列与参考数据匹配的方法，所述方法包含：通过计算装置执行：a)将参考数据存储在存储器中；b)基于所述参考数据创建分级索引表，其中所述创建包含创建在所述分级索引表中的多个层级处的多个条目，其中对于在每个相应层级n处的条目，其中n为非零正整数，所述创建包含响应于所述相应层级n条目的匹配准则为大于阈值，创建在所述分级索引表中用于相应层级n条目的额外n+1层级条目；c)接收指定检索序列的输入；和d)使用所述分级索引表，对所述参考数据搜索所述检索序列的子区段的匹配。

【技术特征摘要】
【国外来华专利技术】2015.10.21 US 62/244,5411.一种用于将检索序列与参考数据匹配的方法，所述方法包含：通过计算装置执行：a)将参考数据存储在存储器中；b)基于所述参考数据创建分级索引表，其中所述创建包含创建在所述分级索引表中的多个层级处的多个条目，其中对于在每个相应层级n处的条目，其中n为非零正整数，所述创建包含响应于所述相应层级n条目的匹配准则为大于阈值，创建在所述分级索引表中用于相应层级n条目的额外n+1层级条目；c)接收指定检索序列的输入；和d)使用所述分级索引表，对所述参考数据搜索所述检索序列的子区段的匹配。2.根据权利要求1所述的方法，其中对于具有第一长度的所述参考数据的每个可能子序列，执行所述创建在所述分级索引表中的第一层级条目；其中对于具有与所述n+1层级对应的相应长度的所述参考数据的每个可能子序列，对于每个第n层级条目执行所述创建在所述分级索引表中的n+1层级条目，其中所述相应层级n条目的所述匹配准则为大于阈值。3.根据权利要求2所述的方法，其中所述创建在所述分级索引表的任何相应层级中的相应条目通过以下来执行：在所述参考数据中搜索所述相应长度的所述相应子序列的匹配；和将信息存储在所述分级索引表的相应层级中的所述相应条目中，其中所述信息指定在所述参考数据中相应长度的所述相应子序列的匹配的数量，其中所述信息进一步指定所述匹配中的每一个的位置。4.根据权利要求3所述的方法，其中，对于n+1层级，在与所述n层级中的所述对应条目相关联的位置处执行所述搜索所述n+1层级的所述相应子序列的匹配。5.根据权利要求3所述的方法，其中指示与每个条目相关联的匹配的数量的数据存储在第一数据结构中，并且与每个条目相关联的所述匹配中的每一个的数据位置存储在第二数据结构中，其中所述第一和第二数据结构各自包含在所述分级索引表内。6.根据权利要求1所述的方法，进一步包含：对于每个相应n层级条目，将引用对应于所述相应n层级条目的n+1层级条目的指标存储在存储器中。7.根据权利要求1所述的方法，其中所述参考数据包含参考基因组并且搜索所述参考数据包含将短读数(SR)与所述参考基因组进行比对。8.一种计算机可读存储媒体，包含用于将短读数与参考基因组进行比对的程序指令，其中所述程序指令可执行以：a)将所述参考基因组存储在存储器中；b)基于所述参考基因组创建分级索引表，其中所述创建包含创建在所述分级索引表中的多个层级处的多个条目，其中每个相应条目含有关于与所述相应条目相关联的碱基对序列的在所述参考基因组中的位置的信息，其中对于非零正整数n，对于在每个相应层级n处的条目，所述创建包含响应于所述相应层级n条目的匹配准则为大于阈值，创建在所述分级索引表中用于相应层级n条目的额外n+1层级条目；c)接收指定短读数的输入；和d)使用所述分级索引表，对所述参考基因组搜索所述短读数的子区段的匹配。9.根据权利要求8所述的存储媒体，其中对于具有第一长度的所述参考基因组的每个可能子序列，执行所述创建在所述分级索引表中的第一层级条目；其中对于具有与所述n+1层级对应的相应长度的所述参考基因组的每个可能子序列，对于每个第n层级条目执行所述创建在所述分级索引表中的n+1层级条目，其中所述相应层级n条目的所述匹配准则为大于阈值。10.根据权利要求8所述的存储媒体，其中所述创建在所述分级索引表的任何相应层级中的相应条目通过以下来执行：在所述参考数据中搜索所述相应长度的所述相应子序列的匹配；和将信息存储在所述分级索引表的相应层级中的所述相应条目中，其中所述信息指定在所述参考基因组中相应长度的所述相应子序列的匹配的数量，其中所述信息进一步指定所述匹配中的每一个的位置。11.根据权利要求10所述的方法，其中，对于n+1层级，在与所述n层级中的所述对应条目相关联的位置处执行所述搜索所述n+1层级的所述相应子序列的匹配。12.根据权利要求10所述的方法，其中指示与每个条目相关联的匹配的数量的数据存储在第一数据结构中，并且与每个条目相关联的所述匹配中的每一个的数据位置存储在第二数据结构中，其中所...

【专利技术属性】
技术研发人员：M·B·多尔，J·D·加玛尼，S·V·伍德，D·G·阿拉斯塔斯，M·A·亨特，
申请(专利权)人：相干逻辑公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人