用于在参考基因组中定位样本读段的设备和方法技术

技术编号:34084829 阅读:37 留言:0更新日期:2022-07-11 19:44
本发明专利技术提供了一种用于相对于参考基因组来定位样本读段的设备,该设备包括多个单元组。每个单元组存储代表来自该参考基因组的参考碱基的参考序列,该参考序列对应于相应单元组中的单元的顺序。每个单元组还存储代表来自该样本读段的样本碱基的当前子串序列,该当前子串序列对应于相应单元组中的单元的顺序。每个单元组存储相同的当前子串序列和代表该参考基因组的一部分的参考序列,该参考基因组的该部分与由存储在一个或多个其他单元组中的一个或多个其他参考序列所代表的该参考基因组的至少一个其他部分部分地重叠。在该多个单元组中识别其中所存储的参考序列与该当前子串序列相匹配的单元组。串序列相匹配的单元组。串序列相匹配的单元组。

【技术实现步骤摘要】
【国外来华专利技术】用于在参考基因组中定位样本读段的设备和方法
[0001]相关申请的交叉引用
[0002]本申请涉及2020年3月17日提交的并且名称为“REFERENCE

GUIDED GENOME SEQUENCING”的共同未决的美国申请16/821,849(代理人案卷号WDA

4724

US),其全部内容据此以引用方式并入。本申请还涉及2020年3月18日提交的并且名称为“REFERENCE

GUIDED GENOME SEQUENCING”的共同未决的美国申请16/822,010(代理人案卷号WDA

4725

US),其全部内容据此以引用方式并入。

技术介绍

[0003]目前的DNA(脱氧核糖核酸)样本处理的局限性导致样本读段或样本基因组的部分在样本基因组中具有通常未知的位置。对于在将样本读段彼此比较以在样本基因组内定位样本读段时不使用参考基因组的从头测序,通常将样本读段作为单个大组分析,这需要大量的存储器资源和高计算成本来将大组中的样本读段彼此比较以确定样本读段在样本基因组内的位置。此类从头测序的常规方法相对于基因组测序需要处理的大量数据是不可扩展的。更详细地,常规的从头测序方法通常将一大组样本读段存储在共享存储器诸如昂贵的2TB DRAM中。由于可通过独立的高带宽信道连接到共享DRAM的计算核的数量是有限的(例如,至多24个核),所以这种布置限制了可用于从头测序的独立计算线程的数量(例如,至多128个计算线程)。
[0004]对于使用参考基因组在样本基因组内定位样本读段的参考比对测序,通常针对每个样本读段搜索完整参考基因组以在参考基因组内定位样本读段。此类参考比对测序还需要大量的存储器资源来存储完整参考基因组,并且需要高计算成本来将每个样本读段与完整参考基因组进行比较。参考比对测序的常规方法也具有有限的可扩展性。更详细地,参考比对测序的常规方法可将样本读段随机地分成由对应的计算线程处理的组。然而,每个计算线程通常需要诸如16GB DRAM的大型专用存储器来存储整个参考基因组。在其他技术中,参考基因组可存储在单个共享的16GB DRAM中,但如上针对常规的从头测序所指出的,这种共享存储器布置限制了可访问共享存储器的核和计算线程的数量。因此,需要在计算成本、存储器资源和可扩展性方面改进基因组测序。
附图说明
[0005]通过下文所述的具体实施方式并且结合附图,本公开的实施方案的特征和优势将变得更加显而易见。提供附图和相关联描述是为了说明本公开的实施方案,而不是限制所要求保护的范围。
[0006]图1是根据一个或多个实施方案的包括参考引导设备的用于基因组测序的系统的框图。
[0007]图2示出了根据一个或多个实施方案的参考引导设备中的多个单元组的示例。
[0008]图3是描述人参考基因组H38中不同长度的子串的唯一性的图。
[0009]图4A示出了根据一个或多个实施方案的在参考引导设备中识别其中所存储的当
前子串序列与参考序列相匹配的单元组的示例。
[0010]图4B是根据一个或多个实施方案的用于将子串碱基值与存储在单元中的参考碱基值进行比较的电路的示例。
[0011]图4C是根据一个或多个实施方案的用于比较单元组中的单元输出值的电路的示例。
[0012]图5是根据一个或多个实施方案的样本读段定位过程的流程图。
[0013]图6是根据一个或多个实施方案的使用逻辑运算的匹配识别子过程的流程图。
[0014]图7是根据一个或多个实施方案的使用参考向量和子串向量的内积的匹配识别子过程的流程图。
具体实施方式
[0015]在以下具体实施方式中阐述了许多具体细节,以便提供对本公开的彻底理解。然而,对于本领域普通技术人员显而易见的是,可在不具有这些具体细节中的一些细节的情况下实践所公开的各种实施方案。在其他情况下,并未详细示出众所周知的结构和技术以避免不必要地模糊各种实施方案。
[0016]系统示例
[0017]图1是根据一个或多个实施方案的用于基因组测序的系统100的框图,该系统包括主机101和参考引导设备102。主机101与参考引导设备102通信以确定样本读段在参考基因组内的概率性位置。在一些具体实施中,设备102可为主机101提供存储在设备102的存储器108中的指示样本读段的概率性位置的索引10。在其他具体实施中,设备102可为主机101提供样本读段的概率性位置的另一数据结构或指示。
[0018]样本读段或从样本读段取得的样本子串序列最初可由主机101和/或由图1中未示出的另一设备(诸如由附加的主机)提供给参考引导设备102,以确定样本读段在存储在设备102的一个或多个阵列104中的参考基因组内的概率性位置。在一些具体实施中,生成样本读段的读取设备,诸如Illumina设备(得自Illumina,Inc.,San Diego,California)或纳米孔设备,可向参考引导设备102提供样本读段。
[0019]为了便于描述,将在DNA测序的上下文中描述本公开中的示例性实施方案。然而,本公开的实施方案不限于DNA测序,并且通常可应用于任何基于核酸的测序,包括RNA(核糖核酸)测序。
[0020]主机101可包括例如计算机,诸如台式机或服务器,其可实现基因组测序算法,诸如用于精确匹配的种子和扩展算法和/或用于基因组中的样本读段的近似匹配的计算上更复杂的算法,诸如Burrows

Wheeler算法或Smith

Waterman算法。如下文更详细讨论的,设备102可用于在从头或参考比对测序之前预处理样本读段。就这一点而言,由参考引导设备102提供的概率性位置可在存储器资源和计算成本方面替代或提高由主机101执行的算法的效率。此外,并且如相关共同未决申请16/821,849和16/822,010中所述,这两个申请均以引用方式并入上文,由设备102提供的样本读段的概率性位置可允许提高基因组测序的可扩展性,从而降低执行从头或参考比对基因组测序的费用和时间。
[0021]在一些具体实施中,参考引导设备102可包括例如一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA),用于生成指示来自样本读段的样本子串序列相对于参
考基因组的概率性位置的索引10。样本子串序列的概率性位置可为主机101提供从其取得该样本子串序列的样本读段的概率性位置。在一些具体实施中,主机101或另一设备可为参考引导设备102提供当前样本子串序列以加载到设备102的一个或多个阵列104中。在其他具体实施中,主机101或另一设备可为参考引导设备102提供样本读段,并且参考引导设备102可从样本读段中确定要加载到一个或多个阵列104中的样本子串序列。
[0022]主机101和设备102可以在物理上协同定位或可以不在物理上协同定位。例如,在一些具体实施中,主机101和设备1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种设备,所述设备包括:多个单元组,其中每个单元组被配置为:存储代表来自参考基因组的参考碱基的参考序列,所述参考序列对应于相应单元组中的单元的顺序;以及存储代表来自样本读段的样本碱基的当前子串序列,所述当前子串序列对应于所述相应单元组中的所述单元的所述顺序;其中所述多个单元组中的每个单元组被进一步配置为存储相同的当前子串序列和代表所述参考基因组的一部分的参考序列,所述参考基因组的所述部分与由存储在一个或多个其他单元组中的一个或多个其他参考序列所代表的所述参考基因组的至少一个其他部分部分地重叠;和电路,所述电路被配置为识别所述多个单元组中的其中所存储的参考序列与存储在所述单元组中的所述当前子串序列相匹配的单元组。2.根据权利要求1所述的设备,其中所述电路和每个单元组中的至少一者被进一步配置为执行一个或多个逻辑运算以确定所存储的参考序列是否与存储在所述单元组中的所述当前子串序列相匹配。3.根据权利要求1所述的设备,其中所述多个单元组的每个单元被进一步配置为:执行至少一个XNOR运算,以将来自所述当前子串序列的样本碱基的存储在所述单元中的第一值与来自存储在所述相应单元组中的所述参考序列的参考碱基的存储在所述单元中的第二值进行比较;以及将所述至少一个XNOR运算的比较值输出到所述电路,所述比较值指示所述单元的所述样本碱基是否与所述单元的所述参考碱基相匹配。4.根据权利要求3所述的设备,其中所述电路被进一步配置为通过对从相应单元组的所述单元输出的所述比较值执行AND运算来识别其中所存储的参考序列与存储在所述单元组中的所述当前子串序列相匹配的单元组。5.根据权利要求1所述的设备,其中所述多个单元组的每个单元被进一步配置为:计算存储在所述单元中代表所述样本碱基和所述参考碱基的值的乘积;以及将所述乘积输出到所述电路;并且其中所述电路被进一步配置为至少部分地基于由所述单元输出的所述乘积来识别其中所存储的参考序列与存储在所述单元组中的所述当前子串序列相匹配的单元组。6.根据权利要求5所述的设备,其中所述电路被进一步配置为,对于所述多个单元组中的每个单元组:对由所述单元组中的所述单元输出的乘积求和;将所述和与所述单元组中的单元数量的预定倍数进行比较;以及响应于所述和等于所述单元组中的所述单元数量的所述预定倍数,将所述单元组识别为其中所存储的参考序列与存储在所述单元组中的所述当前子串序列相匹配。7.根据权利要求1所述的设备,其中所述多个单元组中的每个单元组由预定数量的单元组成,所述预定数量的单元在17至25个单元的范围内。8.根据权利要求1所述的设备,其中所述多个单元的每个单元组被进一步配置为:用代表来自所述样本读段的样本碱基的后续子串序列重写所述当前子串序列,以将所
述后续子串序列存储在所述单元组中;以及保留存储在所述单元组中的相应参考序列;并且其中所述电路被进一步配置为识别所述多个单元组中的其中存储在所述单元组中的所保留的参考序列与存储在所述单元组中的所述后续子串序列相匹配的单元组。9.根据权利要求1所述的设备,其中所述电路被进一步配置为基于以下步骤的迭代来确定所述样本读段在所述参考基因组内的概率性位置:将所述样本读段的不同子串序列存储在所述多个单元组中;以及识别所述多个单元组中的其中所存储的参考序列与存储在所述单元组中的所述子串序列相匹配的单元组。10.根据权利要求1所述的设备,其中所述设备包括现场可编程门阵列(FPGA)和专用集成电路(ASIC)中的至少一者。11.根据权利要求1所述的设备,其中所述多个单元组中的所述单元包括寄存器、锁存器和触发器中的至少一者。12.一种相对于参考基因组来定位样本读段的方法,所述方法包括:在多个单元组中存储代表来自所述参考基因组的参考碱基的参考序列,所述参考序列对应于所述多个单元组中的相应单元组中的单元的顺序,其中所述多个单元组中的每个单元组存储代表所述参考基因组的一部分的参考序列,所述参考基因组的所述部分与由存储在一个或多个其他单元组中的一个或多个其他参考序列所代表的所述参考基因组的至少一个其他部分部分地重叠;在所述多个单元组中的每个单元组中存储样本碱基的当前子串序列,所述当前子串序列对应于所述多个单元组中的所述相应单元组中的单元的所述顺序;以及识别所述多个单元组中的其中所存储的参考序列与存储在所述单元组中的所述当...

【专利技术属性】
技术研发人员:J
申请(专利权)人:西部数据技术公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1