软件加速基因组读段映射制造技术

技术编号:37608009 阅读:21 留言:0更新日期:2023-05-18 11:59
公开了用于软件加速基因组数据读段映射的方法、系统、装置和计算机程序。在一个方面,该方法可包括以下动作:从基因组数据读段获得k聚体种子;基于所获得的k聚体种子生成基因组签名;使用散列数据结构确定与该k聚体种子的至少一部分匹配的参考序列位置,其中该散列数据结构包括N个数据单元,这些数据单元包括第一部分和第二部分,该第一部分存储预先确定的基因组签名,该第二部分存储与同该预先确定的基因组签名所来源于的k聚体种子的至少一部分匹配的参考序列位置的第一次出现相对应的值;以及基于一个或多个比对分数选择所确定的参考序列位置作为所获得的k聚体种子的实际比对。对。对。

【技术实现步骤摘要】
【国外来华专利技术】软件加速基因组读段映射

技术介绍

[0001]本申请要求2020年9月15日提交的美国申请序列号63/078,890的权益,该申请全文以引用方式并入。
[0002]
技术介绍

[0003]在一些情况下,基因组读段映射描述识别基因的基因座和基因之间的距离的方法。计算机可用于分析一组或多组基因组数据并将分子标志物的集合(诸如一连串核苷酸)与分子标志物在给定参考基因组上的相应位置相关联。以此方式,计算机可用于将分子标志物的集合“映射”到参考基因组上。

技术实现思路

[0004]本公开涉及用于软件加速基因组读段映射的方法、系统和计算机程序。在一个方面,本公开涉及有利于软件加速基因组读段映射的散列表的生成。该散列表可包括表示使用基因组数据签名索引的参考基因组的数据。在一些具体实施中,所生成的散列表可用于确定所接收的基因组读段和参考基因组之间的映射。
[0005]根据本公开的一个创新方面,公开了一种用于软件加速基因组数据读段映射的方法。在一个方面,该方法可包括以下动作:由一个或多个计算机从基因组数据读段获得k聚体种子;由一个或多个计算机基于所获得的k聚体种子生成基因组签名;由一个或多个计算机使用散列数据结构确定与该k聚体种子的至少一部分匹配的参考序列位置,其中该散列数据结构包括N个数据单元,这些数据单元包括第一部分和第二部分,该第一部分存储预先确定的基因组签名,该第二部分存储与同该预先确定的基因组签名所来源于的k聚体种子的至少一部分匹配的参考序列位置的第一次出现相对应的值;以及由一个或多个计算机基于一个或多个比对分数选择所确定的参考序列位置作为所获得的k聚体种子的实际比对。
[0006]其他版本包括已经被配置为执行前述方法的动作的对应系统、装置和计算机程序。
[0007]这些和其他版本可任选地包括以下特征中的一个或多个特征。例如,在一些具体实施中,该预先确定的基因组签名可仅占用一个存储器存储字节。
[0008]在一些具体实施中,该值可仅占用四个存储器存储字节。
[0009]在一些具体实施中,该散列数据结构是具有N个数据单元的单个数组。
[0010]在一些具体实施中,该方法还可包括:由一个或多个计算机基于与该基因组数据读段的一个或多个k聚体种子相对应的第一值集过滤该基因组数据读段。
[0011]在一些具体实施中,该第一值集可包括应用于该基因组数据读段的该一个或多个k聚体种子的预先确定的操作的结果,并且其中该第一值集用于从该基因组数据读段获得该k聚体种子。
[0012]在一些具体实施中,该预先确定的操作可包括该基于基因组数据读段的该一个或多个k聚体种子和散列函数生成散列值。
[0013]在一些具体实施中,确定该参考序列位置可包括:由一个或多个计算机计算该基
因组数据读段的该k聚体种子的第一位置,其中该第一位置对应于该k聚体种子在该基因组数据读段内的位置;以及计算该k聚体种子的第二位置,其中该第二位置对应于该k聚体种子在该参考基因组数据内的位置,并且其中该第二位置是基于该散列数据结构计算的。
[0014]在一些具体实施中,该方法还可包括:由一个或多个计算机基于该散列数据结构和该基因组数据读段对该一个或多个参考序列位置进行排序。
[0015]在一些具体实施中,该方法还可包括:由一个或多个计算机基于对该一个或多个参考序列位置进行排序来生成该一个或多个比对分数。
[0016]在一些具体实施中,该方法还可包括:选择所确定的参考序列位置中的至少一个参考序列位置作为所获得的k聚体种子的该实际比对包括:将该一个或多个比对分数与阈限值进行比较。
[0017]在一些具体实施中,该方法还可包括:该一个或多个比对分数包括表示来自该基因组数据读段的所获得的k聚体种子和该参考序列位置之间的不匹配的数量的数值。
[0018]在一些具体实施中,丢弃在与该预先确定的基因组签名所来源于的该k聚体种子的至少一部分匹配的参考序列位置的第一次出现之后的每次后续出现。
[0019]根据本公开的另一创新方面,公开了一种用于生成用于软件加速基因组数据读段映射的散列表的方法。在一个方面,该方法可包括:由一个或多个计算机接收基因组数据,其中该基因组数据来源于亲本基因组数据;由一个或多个计算机基于该基因组数据生成第一值集;由一个或多个计算机基于该第一值集生成该基因组数据的子集;由一个或多个计算机计算该基因组数据的该子集中的每个k聚体的签名,其中该签名是基于第一散列函数计算的;由一个或多个计算机计算该基因组数据的该子集中的每个k聚体的第一属性,其中该第一属性包括该基因组数据的给定k聚体在该基因组数据的序列内的位置;由一个或多个计算机计算该基因组数据的该子集中的每个k聚体的索引,其中该索引是基于第二散列函数计算的;以及由一个或多个计算机基于该基因组数据的该子集中的每个k聚体的该索引将该基因组数据的该子集中的每个k聚体的该签名和该第一属性存储在散列数据结构内。
[0020]其他版本包括已经被配置为执行前述方法的动作的对应系统、装置和计算机程序。
[0021]这些和其他版本可任选地包括以下特征中的一个或多个特征。例如,在一些具体实施中,该基因组数据的该子集中的每个k聚体是包括表示一串一个或多个核苷酸的k个字母的k聚体。
[0022]在一些具体实施中,该第一值集可包括该基因组数据的给定k聚体在该亲本基因组数据内出现的次数的表示。
[0023]在一些具体实施中,该第一值集包括基于该基因组数据的对应k聚体计算的散列值的表示。
[0024]在一些具体实施中,用于存储该子集中的给定k聚体的签名的存储器分配大小小于用于存储该给定k聚体的存储器分配大小。
[0025]在一些具体实施中,该方法还可包括:由一个或多个计算机将对应于该散列数据结构的数据作为数据包发送到第一设备。
[0026]在一些具体实施中,该第一设备是存储器存储设备。
[0027]在一些具体实施中,第二设备从第一设备读取对应于该散列数据结构的该数据。在此类具体实施中,该第二设备可执行一连串操作以基于对应于该散列数据结构的该数据生成第二散列数据结构。
[0028]如本文所用的种子通常是指从基因组数据读段识别、获得或提取的一连串碱基调用或核苷酸。
[0029]k聚体(在本文中也称为k聚体种子)是元素(诸如碱基调用或核苷酸)的序列,其中给定k聚体的序列中的元素(例如,碱基调用或核苷酸)的数量由“k”定义。
[0030]基因组数据读段通常包括由核酸测序仪生成的数据,该数据对应于由该核酸测序仪测序的样品基因组的一部分的碱基调用或核苷酸。
[0031]基因组签名(在本文中也称为签名)是或包括识别散列表位置(例如,桶、时隙或单元)的数据。这种数据也可称为散列键,例如,基因组散列键。如果签名是从识别基因组数据的位置生成或指向该位置,则该签名是基因组签名。
[0032]参考序列位置是指参考序列(例如,参考核酸序列)的特定位点或部分。
[0033]散列数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于软件加速基因组数据读段映射的方法,所述方法包括:由一个或多个计算机从基因组数据读段获得k聚体种子;由所述一个或多个计算机基于所获得的k聚体种子生成基因组签名;由一个或多个计算机使用散列数据结构确定与所述k聚体种子的至少一部分匹配的参考序列位置,其中所述散列数据结构包括N个数据单元,所述数据单元包括第一部分和第二部分,所述第一部分存储预先确定的基因组签名,所述第二部分存储与同所述预先确定的基因组签名所来源于的k聚体种子的至少一部分匹配的参考序列位置的第一次出现相对应的值;以及由一个或多个计算机基于一个或多个比对分数选择所确定的参考序列位置作为所获得的k聚体种子的实际比对。2.根据权利要求1所述的方法,其中所述预先确定的基因组签名占用一个存储器存储字节。3.根据任一项前述权利要求所述的方法,其中所述值占用四个存储器存储字节。4.根据任一项前述权利要求所述的方法,其中所述散列数据结构是具有N个数据单元的单个数组。5.根据前述权利要求中任一项所述的方法,所述方法还包括:由一个或多个计算机基于与所述基因组数据读段的一个或多个k聚体种子相对应的第一值集过滤所述基因组数据读段。6.根据权利要求5所述的方法,其中所述第一值集包括应用于所述基因组数据读段的所述一个或多个k聚体种子的预先确定的操作的结果,并且其中所述第一值集用于从所述基因组数据读段获得所述k聚体种子。7.根据权利要求6所述的方法,其中所述预先确定的操作包括基于所述基因组数据读段的所述一个或多个k聚体种子和散列函数生成散列值。8.根据前述权利要求中任一项所述的方法,其中确定所述参考序列位置包括:由一个或多个计算机计算所述基因组数据读段的所述k聚体种子的第一位置,其中所述第一位置对应于所述k聚体种子在所述基因组数据读段内的位置;以及由一个或多个计算机计算所述k聚体种子的第二位置,其中所述第二位置对应于所述k聚体种子在所述参考基因组数据内的位置,并且其中所述第二位置是基于所述散列数据结构计算的。9.根据前述权利要求中任一项所述的方法,所述方法还包括:由一个或多个计算机基于所述散列数据结构和所述基因组数据读段对所述一个或多个参考序列位置进行排序。10.根据前述权利要求中任一项所述的方法,所述方法还包括:由一个或多个计算机基于对所述一个或多个参考序列位置进行排序生成所述一个或多个比对分数。11.根据前述权利要求中任一项所述的方法,其中选择所确定的参考序列位置中的至少一个参考序列位置作为所获得的k聚体种子的所述实际比对包括:将所述一个或多个比对分数与阈限值进行比较。12.根据前述权利要求中任一项所述的方法,其中所述一个或多个比对分数包括表示
来自所述基因组数据读段的所获得的k聚体种子和所述参考序列位置之间的不匹配的数量的数值。13.根据前述权利要求中任一项所述的方法,其中丢弃在与所述预先确定的基因组签名所来源于的所述k聚体种子的至少一部分匹配的参考序列位置的第一次出现之后的每次后续出现。14.一种用于软件加速基因组数据读段映射的系统,所述方法包括:一个或多个计算机;以及一个或多个存储器设备,所述一个或多个存储器设备存储指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行操作,所述操作包括:由所述一个或多个计算机从基因组数据读段获得k聚体种子;由所述一个或多个计算机基于所获得的k聚体种子生成基因组签名;由所述一个或多个计算机使用散列数据结构确定与所述k聚体种子的至少一部分匹配的参考序列位置,其中所述散列数据结构包括N个数据单元,所述数据单元包括第一部分和第二部分,所述第一部分存储预先确定的基因组签名,所述第二部分存储与同所述预先确定的基因组签名所来源于的k聚体种子的至少一部分匹配的参考序列位置的第一次出现相对应的值;以及由所述一个或多个计算机基于一个或多个比对分数选择所确定的参考序列位置作为所获得的k聚体种子的实际比对。15.根据权利要求14所述的系统,其中所述预先确定的基因组签名占用一个存储器存储字节。16.根据前述权利要求14或15中任一项所述的系统,其中所述值占用四个存储器存储字节。17.根据前述权利要求14至16中任一项所述的系统,其中所述散列数据结构是具有N个数据单元的单个数组。18.根据前述权利要求14至17中任一项所述的系统,所述操作还包括:由所述一个或多个计算机基于与所述基因组数据读段的一个或多个k聚体种子相对应的第一值集过滤所述基因组数据读段。19.根据权利要求18所述的系统,其中所述第一值集包括应用于所述基因组数据读段的所述一个或多个k聚体种子的预先确定的操作的结果,并且其中所述第一值集用于从所述基因组数据读段获得所述k聚体种子。20.根据权利要求19所述的系统,其中所述预先确定的操作包括基于所述基因组数据读段的所述一个或多个k聚体种子和散列函数生成散列值。21.根据前述权利要求14至20中任一项所述的系统,其中确定所述参考序列位置包括:由所述一个或多个计算机计算所述基因组数据读段的所述k聚体种子的第一位置,其中所述第一位置对应于所述k聚体种子在所述基因组数据读段内的位置;以及由所述一个或多个计算机计算所述k聚体种子的第二位置,其中所述第二位置对应于所述k聚体种子在所述参考基因组数据内的位置,并且其中所述第二位置是基于所述散列数据结构计算的。22.根据前述权利要求14至21中任一项所述的系统,其中所述操作还包括:
由所述一个或多个计算机基于所述散列数据结构和所述基因组数据读段对所述一个或多个参考序列位置进行排序。23.根据前述权利要求14至22中任一项所述的系统,所述操作还包括:由一个或多个计算机基于对所述一个或多个参考序列位置进行排序生成所述一个或多个比对分数。24.根据前述权利要求14至23中任一项所述的系统,其中选择所确定的参考序列位置中的至少一个参考序列位置作为所获得的k聚体种子的所述实际比对包括:将所述一个或多个比对分数与阈限值进行比较。25.根据前述权利要求14至24中任一项所述的系统,其中所述一个或多个比对分数包括表示来自所述基因组数据读段的所获得的k聚体种子和所述参考序列位置之间的不匹配的数量的数值。26.根据前述权利要求14至25中任一项所述的系统,其中丢弃在与所述预先确定的基因组签名所来源于的所述k聚体种子的至少一部分匹配的参考序列位置的第一次出现之后的每次后续出现。27.一种存储指令的计算机可读介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行用于软件加速基因组数据读段映射的操作,所述操作包括:从基因组数据读段获得k聚体种子;基于所获得的k聚体种子生成基因组签名;使用散列数据结构确定与所述k聚体种子的至少一部分匹配的参考序列位置,其中所述散列数据结构包括N个数据单元,所述数据单元包括第一部分和第二部分,所述第一部分存储预先确定的基因组签名,所述第二部分存储与同所述预先确定的基因组签名所来源于的k聚体种子的至少一部分匹配的参考序列位置的第一次出现相对应的值;以及基于一个或多个比对分数选择所确定的参考序列位置作为所获得的k聚体种子的实际比对。28.根据权利要求27所述的计算机可读介质,其中所述预先确定的基因组签名占用一个存储器存储字节。29.根据前述权利要求27或28中任一项所述的计算机可读介质,其中所述值占用四个存储器存储字节。30.根据前述权利要求27至29中任一项所述的计算机可读介质,其中所述散列数据结构是具有N个数据单元的单个数组。31.根据前述权利要求27至30中任一项所述的计算机可读介质,所述操作还包括:基于与所述基因组数据读段的一个或多个k聚体种子相对应的第一值集过滤所述基因组数据读段。32.根据权利要求31所述的计算机可读介质,其中所述第一值集包括应用于所述基因组数据读段的所述一个或多个k聚体种子的预先确定的操作的结果,并且其中所述第一值集用于从所述基因组数据读段获得所述k聚体...

【专利技术属性】
技术研发人员:G
申请(专利权)人:因美纳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1