【技术实现步骤摘要】
【国外来华专利技术】软件加速基因组读段映射
技术介绍
[0001]本申请要求2020年9月15日提交的美国申请序列号63/078,890的权益,该申请全文以引用方式并入。
[0002]
技术介绍
[0003]在一些情况下,基因组读段映射描述识别基因的基因座和基因之间的距离的方法。计算机可用于分析一组或多组基因组数据并将分子标志物的集合(诸如一连串核苷酸)与分子标志物在给定参考基因组上的相应位置相关联。以此方式,计算机可用于将分子标志物的集合“映射”到参考基因组上。
技术实现思路
[0004]本公开涉及用于软件加速基因组读段映射的方法、系统和计算机程序。在一个方面,本公开涉及有利于软件加速基因组读段映射的散列表的生成。该散列表可包括表示使用基因组数据签名索引的参考基因组的数据。在一些具体实施中,所生成的散列表可用于确定所接收的基因组读段和参考基因组之间的映射。
[0005]根据本公开的一个创新方面,公开了一种用于软件加速基因组数据读段映射的方法。在一个方面,该方法可包括以下动作:由一个或多个计算机从基因组数据读段获得k聚体种子;由一个或多个计算机基于所获得的k聚体种子生成基因组签名;由一个或多个计算机使用散列数据结构确定与该k聚体种子的至少一部分匹配的参考序列位置,其中该散列数据结构包括N个数据单元,这些数据单元包括第一部分和第二部分,该第一部分存储预先确定的基因组签名,该第二部分存储与同该预先确定的基因组签名所来源于的k聚体种子的至少一部分匹配的参考序列位置的第一次出现相对应的值;以及由一个或多个计算机基于一个或多个比对分数 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于软件加速基因组数据读段映射的方法,所述方法包括:由一个或多个计算机从基因组数据读段获得k聚体种子;由所述一个或多个计算机基于所获得的k聚体种子生成基因组签名;由一个或多个计算机使用散列数据结构确定与所述k聚体种子的至少一部分匹配的参考序列位置,其中所述散列数据结构包括N个数据单元,所述数据单元包括第一部分和第二部分,所述第一部分存储预先确定的基因组签名,所述第二部分存储与同所述预先确定的基因组签名所来源于的k聚体种子的至少一部分匹配的参考序列位置的第一次出现相对应的值;以及由一个或多个计算机基于一个或多个比对分数选择所确定的参考序列位置作为所获得的k聚体种子的实际比对。2.根据权利要求1所述的方法,其中所述预先确定的基因组签名占用一个存储器存储字节。3.根据任一项前述权利要求所述的方法,其中所述值占用四个存储器存储字节。4.根据任一项前述权利要求所述的方法,其中所述散列数据结构是具有N个数据单元的单个数组。5.根据前述权利要求中任一项所述的方法,所述方法还包括:由一个或多个计算机基于与所述基因组数据读段的一个或多个k聚体种子相对应的第一值集过滤所述基因组数据读段。6.根据权利要求5所述的方法,其中所述第一值集包括应用于所述基因组数据读段的所述一个或多个k聚体种子的预先确定的操作的结果,并且其中所述第一值集用于从所述基因组数据读段获得所述k聚体种子。7.根据权利要求6所述的方法,其中所述预先确定的操作包括基于所述基因组数据读段的所述一个或多个k聚体种子和散列函数生成散列值。8.根据前述权利要求中任一项所述的方法,其中确定所述参考序列位置包括:由一个或多个计算机计算所述基因组数据读段的所述k聚体种子的第一位置,其中所述第一位置对应于所述k聚体种子在所述基因组数据读段内的位置;以及由一个或多个计算机计算所述k聚体种子的第二位置,其中所述第二位置对应于所述k聚体种子在所述参考基因组数据内的位置,并且其中所述第二位置是基于所述散列数据结构计算的。9.根据前述权利要求中任一项所述的方法,所述方法还包括:由一个或多个计算机基于所述散列数据结构和所述基因组数据读段对所述一个或多个参考序列位置进行排序。10.根据前述权利要求中任一项所述的方法,所述方法还包括:由一个或多个计算机基于对所述一个或多个参考序列位置进行排序生成所述一个或多个比对分数。11.根据前述权利要求中任一项所述的方法,其中选择所确定的参考序列位置中的至少一个参考序列位置作为所获得的k聚体种子的所述实际比对包括:将所述一个或多个比对分数与阈限值进行比较。12.根据前述权利要求中任一项所述的方法,其中所述一个或多个比对分数包括表示
来自所述基因组数据读段的所获得的k聚体种子和所述参考序列位置之间的不匹配的数量的数值。13.根据前述权利要求中任一项所述的方法,其中丢弃在与所述预先确定的基因组签名所来源于的所述k聚体种子的至少一部分匹配的参考序列位置的第一次出现之后的每次后续出现。14.一种用于软件加速基因组数据读段映射的系统,所述方法包括:一个或多个计算机;以及一个或多个存储器设备,所述一个或多个存储器设备存储指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行操作,所述操作包括:由所述一个或多个计算机从基因组数据读段获得k聚体种子;由所述一个或多个计算机基于所获得的k聚体种子生成基因组签名;由所述一个或多个计算机使用散列数据结构确定与所述k聚体种子的至少一部分匹配的参考序列位置,其中所述散列数据结构包括N个数据单元,所述数据单元包括第一部分和第二部分,所述第一部分存储预先确定的基因组签名,所述第二部分存储与同所述预先确定的基因组签名所来源于的k聚体种子的至少一部分匹配的参考序列位置的第一次出现相对应的值;以及由所述一个或多个计算机基于一个或多个比对分数选择所确定的参考序列位置作为所获得的k聚体种子的实际比对。15.根据权利要求14所述的系统,其中所述预先确定的基因组签名占用一个存储器存储字节。16.根据前述权利要求14或15中任一项所述的系统,其中所述值占用四个存储器存储字节。17.根据前述权利要求14至16中任一项所述的系统,其中所述散列数据结构是具有N个数据单元的单个数组。18.根据前述权利要求14至17中任一项所述的系统,所述操作还包括:由所述一个或多个计算机基于与所述基因组数据读段的一个或多个k聚体种子相对应的第一值集过滤所述基因组数据读段。19.根据权利要求18所述的系统,其中所述第一值集包括应用于所述基因组数据读段的所述一个或多个k聚体种子的预先确定的操作的结果,并且其中所述第一值集用于从所述基因组数据读段获得所述k聚体种子。20.根据权利要求19所述的系统,其中所述预先确定的操作包括基于所述基因组数据读段的所述一个或多个k聚体种子和散列函数生成散列值。21.根据前述权利要求14至20中任一项所述的系统,其中确定所述参考序列位置包括:由所述一个或多个计算机计算所述基因组数据读段的所述k聚体种子的第一位置,其中所述第一位置对应于所述k聚体种子在所述基因组数据读段内的位置;以及由所述一个或多个计算机计算所述k聚体种子的第二位置,其中所述第二位置对应于所述k聚体种子在所述参考基因组数据内的位置,并且其中所述第二位置是基于所述散列数据结构计算的。22.根据前述权利要求14至21中任一项所述的系统,其中所述操作还包括:
由所述一个或多个计算机基于所述散列数据结构和所述基因组数据读段对所述一个或多个参考序列位置进行排序。23.根据前述权利要求14至22中任一项所述的系统,所述操作还包括:由一个或多个计算机基于对所述一个或多个参考序列位置进行排序生成所述一个或多个比对分数。24.根据前述权利要求14至23中任一项所述的系统,其中选择所确定的参考序列位置中的至少一个参考序列位置作为所获得的k聚体种子的所述实际比对包括:将所述一个或多个比对分数与阈限值进行比较。25.根据前述权利要求14至24中任一项所述的系统,其中所述一个或多个比对分数包括表示来自所述基因组数据读段的所获得的k聚体种子和所述参考序列位置之间的不匹配的数量的数值。26.根据前述权利要求14至25中任一项所述的系统,其中丢弃在与所述预先确定的基因组签名所来源于的所述k聚体种子的至少一部分匹配的参考序列位置的第一次出现之后的每次后续出现。27.一种存储指令的计算机可读介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行用于软件加速基因组数据读段映射的操作,所述操作包括:从基因组数据读段获得k聚体种子;基于所获得的k聚体种子生成基因组签名;使用散列数据结构确定与所述k聚体种子的至少一部分匹配的参考序列位置,其中所述散列数据结构包括N个数据单元,所述数据单元包括第一部分和第二部分,所述第一部分存储预先确定的基因组签名,所述第二部分存储与同所述预先确定的基因组签名所来源于的k聚体种子的至少一部分匹配的参考序列位置的第一次出现相对应的值;以及基于一个或多个比对分数选择所确定的参考序列位置作为所获得的k聚体种子的实际比对。28.根据权利要求27所述的计算机可读介质,其中所述预先确定的基因组签名占用一个存储器存储字节。29.根据前述权利要求27或28中任一项所述的计算机可读介质,其中所述值占用四个存储器存储字节。30.根据前述权利要求27至29中任一项所述的计算机可读介质,其中所述散列数据结构是具有N个数据单元的单个数组。31.根据前述权利要求27至30中任一项所述的计算机可读介质,所述操作还包括:基于与所述基因组数据读段的一个或多个k聚体种子相对应的第一值集过滤所述基因组数据读段。32.根据权利要求31所述的计算机可读介质,其中所述第一值集包括应用于所述基因组数据读段的所述一个或多个k聚体种子的预先确定的操作的结果,并且其中所述第一值集用于从所述基因组数据读段获得所述k聚体...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。