参考引导的基因组测序制造技术

技术编号:34083839 阅读:58 留言:0更新日期:2022-07-11 19:31
本发明专利技术提供了用于处理多个样本读段以进行基因组测序的方法和系统,该方法和系统包括:对于该多个样本读段中的每个样本读段,将来自该样本读段的子串序列与代表参考基因组的不同部分的参考序列进行比较。识别与一个或多个所比较的子串序列相匹配的一个或多个参考序列,并且基于一个或多个所识别的参考序列确定该样本读段在该参考基因组内的概率性位置。基于所确定的相应样本读段的概率性位置将该多个样本读段分类成多个样本组。该多个样本读段分类成多个样本组。该多个样本读段分类成多个样本组。

【技术实现步骤摘要】
【国外来华专利技术】参考引导的基因组测序
[0001]相关申请的交叉引用
[0002]本申请涉及2020年3月17日提交的并且名称为“DEVICES AND METHODS FOR LOCATING A SAMPLE READ IN A REFERENCE GENOME”的共同未决的美国申请16/820,711(代理人案卷号WDA

4726

US),其全部内容据此以引用方式并入。本申请还涉及2020年3月18日提交的并且名称为“REFERENCE

GUIDED GENOME SEQUENCING”的共同未决的美国申请16/822,010(代理人案卷号WDA

4725

US),其全部内容据此以引用方式并入。

技术介绍

[0003]目前的DNA(脱氧核糖核酸)样本处理的局限性导致样本读段或样本基因组的部分在样本基因组中具有通常未知的位置。对于在将样本读段彼此比较以在样本基因组内定位样本读段时不使用参考基因组的从头测序,通常将样本读段作为单个大组分析,这需要大量的存储器资源和高计算成本来将大组中的样本读段彼此比较以确定样本读段在样本基因组内的位置。此类从头测序的常规方法相对于基因组测序需要处理的大量数据是不可扩展的。更详细地,常规的从头测序方法通常将一大组样本读段存储在共享存储器诸如昂贵的2TB DRAM中。由于可通过独立的高带宽信道连接到共享DRAM的计算核的数量是有限的(例如,至多24个核),所以这种布置限制了可用于从头测序的独立计算线程的数量(例如,至多128个计算线程)。
[0004]对于使用参考基因组在样本基因组内定位样本读段的参考比对测序,通常针对每个样本读段搜索完整参考基因组以在参考基因组内定位样本读段。此类参考比对测序还需要大量的存储器资源来存储完整参考基因组,并且需要高计算成本来将每个样本读段与完整参考基因组进行比较。参考比对测序的常规方法也具有有限的可扩展性。更详细地,参考比对测序的常规方法可将样本读段随机地分成由对应的计算线程处理的组。然而,每个计算线程通常需要诸如16GB DRAM的大型专用存储器来存储整个参考基因组。在其他技术中,参考基因组可存储在单个共享的16GB DRAM中,但如上针对常规的从头测序所指出的,这种共享存储器布置限制了可访问共享存储器的核和计算线程的数量。因此,需要在计算成本、存储器资源和可扩展性方面改进基因组测序。
附图说明
[0005]通过下文所述的具体实施方式并且结合附图,本公开的实施方案的特征和优势将变得更加显而易见。提供附图和相关联描述是为了说明本公开的实施方案,而不是限制所要求保护的范围。
[0006]图1是根据一个或多个实施方案的用于基因组测序的系统的框图。
[0007]图2示出了根据一个或多个实施方案的图1的系统的参考引导设备中的多个单元组的示例。
[0008]图3示出了根据一个或多个实施方案的从头基因组测序的示例。
[0009]图4是根据一个或多个实施方案的从头基因组测序过程的流程图。
[0010]图5示出了根据一个或多个实施方案的参考比对基因组测序的示例。
[0011]图6是根据一个或多个实施方案的参考比对基因组测序过程的流程图。
具体实施方式
[0012]在以下具体实施方式中阐述了许多具体细节,以便提供对本公开的彻底理解。然而,对于本领域普通技术人员显而易见的是,可在不具有这些具体细节中的一些细节的情况下实践所公开的各种实施方案。在其他情况下,并未详细示出众所周知的结构和技术以避免不必要地模糊各种实施方案。
[0013]系统示例
[0014]图1是根据一个或多个实施方案的用于基因组测序的系统100的框图,该系统包括主机1011至101
N
和参考引导设备102。主机101与参考引导设备102通信以从参考引导设备102接收包括已由参考引导设备102分类的样本读段的相应样本组111至11
N
。在其他具体实施中,相反,主机101可接收指示或数据结构,该指示或数据结构指示从共享存储器获得样本读段池中的哪些样本读段以供相应主机101进一步处理。
[0015]在其中主机101执行参考比对测序的具体实施中,主机101还可接收对应于为样本读段所确定的概率性位置的任选的参考分区121至12
N
,其包括参考基因组(诸如人参考基因组H38)的一部分。任选的参考分区121至12
N
可从设备102或从另一设备接收,诸如从存储完整参考基因组的共享存储器接收。如下文参考图5和图6更详细地讨论的,主机101可使用任选的参考分区121至12
N
,通过将样本组11中的样本读段与相关联的参考分区12进行比较,将相应样本组11中的样本读段比对成重叠片段或重叠群。
[0016]在其中主机101执行从头测序的具体实施中,主机101可不接收任选的参考分区121至12
N
。在此类从头测序具体实施中,主机101通过将样本组11中的样本读段与样本组中的其他样本读段进行比较,将相应样本组11中的样本读段比对成重叠片段或重叠群。
[0017]为了便于描述,将在DNA测序的上下文中描述本公开中的示例性实施方案。然而,本公开的实施方案不限于DNA测序,并且通常可应用于任何基于核酸的测序,包括RNA(核糖核酸)测序。
[0018]图1的示例中的样本读段可最初由一个或多个主机101或由图1中未示出的另一设备提供给参考引导设备102,以确定样本读段在存储在设备102的一个或多个阵列104中的参考基因组内的概率性位置。在一些具体实施中,生成样本读段的读取设备,诸如Illumina设备(得自Illumina,Inc.,San Diego,California)或纳米孔设备,可向参考引导设备102提供样本读段。在其他具体实施中,主机101或另一设备中的一者或多者可为参考引导设备102提供来自样本读段的样本子串,用于确定样本读段在参考基因组内的概率性位置。就其本身而言,设备102可为主机101提供存储在设备102的存储器108中的索引10,其基于与存储在设备102的一个或多个阵列104中的参考基因组相比较的样本子串来指示样本读段的概率性位置。在相关的共同未决申请16/820,711中提供了设备102和使用设备102在参考基因组内概率性地定位样本读段的方法的示例,该申请以引用方式并入上文。
[0019]主机101可包括例如计算机,诸如台式机或服务器、智能存储设备或其他处理节点,其可使用处理器109来实现基因组测序算法,诸如用于精确匹配的种子和扩展算法和/或用于基因组中的样本读段的近似匹配的计算上更复杂的算法,诸如Burrows

Wheeler算
法或Smith

Waterman算法。如下文更详细讨论的,设备102可用于在从头或参考比对测序之前将样本读段预处理成样本组11。就这一点而言,由参考引导设备本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种处理多个样本读段以进行基因组测序的方法,所述方法包括:对于所述多个样本读段中的每个样本读段:将来自所述样本读段的子串序列与代表参考基因组的不同部分的参考序列进行比较;识别与一个或多个所比较的子串序列相匹配的一个或多个参考序列;以及基于与所述一个或多个所比较的子串序列相匹配的一个或多个所识别的参考序列确定所述样本读段在所述参考基因组内的概率性位置;以及至少部分地基于所确定的相应样本读段的概率性位置将所述多个样本读段分类成多个样本组。2.根据权利要求1所述的方法,还包括将所述多个样本组中的每个样本组存储在不同的存储器中。3.根据权利要求1所述的方法,其中所述多个样本组中的每个样本组包括大致相同数量的样本读段。4.根据权利要求1所述的方法,还包括通过将样本组中的样本读段与所述样本组中的其他样本读段进行比较来比对所述多个样本组中的每个样本组中的样本读段。5.根据权利要求1所述的方法,还包括使用不同的处理器来比对所述多个样本组中的相应样本组中的样本读段。6.根据权利要求1所述的方法,其中在执行用于基因组测序的精确匹配算法和近似匹配算法中的至少一者之前,将所述多个样本读段分类成所述多个样本组。7.根据权利要求1所述的方法,其中将来自所述样本读段的子串序列与参考序列进行比较还包括:将所述子串序列一次一个子串序列地存储在多个单元组中,其中所述多个单元组中的每个单元组还存储与存储在所述多个单元组中的至少一个其他单元组中的另一参考序列部分重叠的参考序列;以及识别所述多个单元组中的其中所存储的参考序列与存储在所述单元组中的所述子串序列相匹配的单元组。8.根据权利要求1所述的方法,还包括使用所述多个样本组进行从头基因组测序。9.一种操作用于处理多个样本读段以进行基因组测序的系统的方法,所述方法包括:对于所述多个样本读段中的每个样本读段:将来自所述样本读段的子串序列与代表参考基因组的不同部分的参考序列进行比较,所述比较包括:将所述子串序列一次一个子串序列地存储在所述系统的多个单元组中,其中每个单元组还存储与存储在至少一个其他单元组中的另一参考序列部分重叠的参考序列;以及识别所述多个单元组中的其中所存储的参考序列与存储在所述单元组中的所述子串序列相匹配的一个或多个单元组;以及基于一个或多个所识别的单元组确定所述样本读段在所述参考基因组内的概率性位置;以及至少部分地基于所确定的相应样本读段的概率性位...

【专利技术属性】
技术研发人员:J
申请(专利权)人:西部数据技术公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1