用于检测插入和缺失的方法和系统技术方案

技术编号:22947714 阅读:37 留言:0更新日期:2019-12-27 17:46
用于通过以下步骤来改进插入和/或缺失的判定的方法和系统:在来自核酸测序仪的序列读段中识别具有相同分子条形码和序列的遗传序列读段,将遗传读段分组到族(family)中,以及处理包括分裂读段(split read)的族以检测多核苷酸分子样品中的插入和/或缺失。

【技术实现步骤摘要】
【国外来华专利技术】用于检测插入和缺失的方法和系统交叉引用本申请要求2017年5月19日提交的第62/509,003号、2017年5月22日提交的第62/509,699号和2017年5月25日提交的第62/511,186号美国临时申请的权益,其中每个申请通过引用以其全部并入本文。背景遗传变体,如插入、缺失、取代、重排和拷贝数变异可能与疾病相关。下一代测序技术或高通量测序可用于检测遗传变体。准确识别遗传变体对于在识别与疾病相关的遗传变体中使用下一代测序技术至关重要。遗传变体诸如插入和缺失代表人类基因组中仅次于单核苷酸多态性的第二常见的遗传变体类别。插入和/或缺失也有助于疾病的发病机制、基因表达和功能。概述在一方面中,本公开内容提供了一种系统,所述系统包括:(a)通信接口,所述通信接口通过通信网络接收由核酸测序仪生成的遗传序列读段;以及(b)与所述通信接口通信的计算机,其中所述计算机包括一个或更多个计算机处理器和包括机器可执行代码的计算机可读介质,所述机器可执行代码在被所述一个或更多个计算机处理器执行时实现一种方法,所述方法包括:i.通过所述通信网络接收由所述核酸测序仪生成的遗传序列读段;ii.处理所述遗传序列读段以生成经处理的序列读段;iii.将所述遗传序列读段映射到参考序列;iv.将所述经处理的序列读段分组到族中,每个族包括源自样品中的相同多核苷酸分子的独特序列读段;v.将所述族的至少一部分分组到融合簇中,每个融合簇包括分裂读段,其中每个分裂读段包括与映射到第一遗传基因座的第一断点相邻的第一子序列和与映射到第二不同遗传基因座的第二断点相邻的第二子序列,并且其中所述第一断点和所述第二断点形成断点对;以及vi.在以下情况下,将融合簇判定为包括插入和/或缺失:断点对映射到相同的染色体,所述断点对中的所述第一断点和所述第二断点之间的距离小于参考序列上的预定的最大距离,并且子序列处于相同的5’-3’定向。在一些实施方案中,系统还包括在(vi)中的上述标准中的至少一个不被满足的情况下,将融合簇判定为具有融合。在一些实施方案中,系统还包括生成电子报告,所述电子报告提供多核苷酸分子包含插入、缺失和/或融合的指示。在一些实施方案中,在参考序列上具有相同开始-终止位置的经处理的序列读段被分组到一个族中。在一些实施方案中,遗传序列读段包括成对的末端序列读段。在一些实施方案中,具有重叠区域的成对的末端序列被合并,以生成包括合并读段的经处理的读段。在一些实施方案中,具有重叠区域的成对的末端读段被合并,所述重叠区域具有至少70%的同一性。在一些实施方案中,具有重叠区域的成对的末端读段被合并,所述重叠区域具有至少80%的同一性。在一些实施方案中,具有重叠区域的成对的末端读段被合并,所述重叠区域具有至少90%的同一性。在一些实施方案中,具有至少13个碱基的重叠的成对的末端读段被合并。在一些实施方案中,具有至少15个碱基的重叠的成对的末端读段被合并。在一些实施方案中,具有至少17个碱基的重叠的成对的末端读段被合并。在一些实施方案中,具有至少19个碱基的重叠的成对的末端读段被合并。在一些实施方案中,具有重叠区域的成对的末端序列被合并以形成合并读段,并且其中合并的序列读段被进一步处理以生成经处理的读段,所述经处理的读段包含代表性的、合并的、独特读段。在一些实施方案中,所述族的至少一部分包括多个分裂读段(splitread)。在一些实施方案中,系统还包括生成包括多于一个分裂读段的每个族的共有序列。在一些实施方案中,分裂读段是从每个族生成的共有序列。在一些实施方案中,融合簇内的分裂读段的第一断点彼此之间的距离小于10个核苷酸,并且融合簇内的分裂读段的第二断点彼此之间的距离小于10个核苷酸。在一些实施方案中,分裂读段是族的共有序列。在一些实施方案中,预定的最大距离小于5,000个核苷酸。在一些实施方案中,预定的最大距离小于3,500。在一些实施方案中,族还包括:(a)具有相同开始位置和相同的经压缩的终止序列的经处理的读段,或(b)具有相同终止位置和相同的经压缩的开始序列的经处理的读段。在一些实施方案中,经压缩的开始/终止序列通过压缩整体的独特序列读段以去除均聚物中的重复核苷酸生成。在一些实施方案中,均聚物包括聚(dA)或聚(dT)。在一些实施方案中,均聚物包括聚(dG)或聚(dC)。在一些实施方案中,样品包括无细胞DNA。在一些实施方案中,参考序列是人类参考序列。在一些实施方案中,核酸测序仪是下一代测序仪。在一些实施方案中,评估成对的末端序列读段的质量,以生成质量评分。在一些实施方案中,计算机可读介质包括存储器、硬盘驱动器或计算机服务器。在一些实施方案中,通信网络包括电信网络、互联网、外联网或内联网。在一些实施方案中,通信网络包括能够进行分布式计算的一个或更多个计算机服务器。在一些实施方案中,分布式计算是云计算。在一些实施方案中,通信网络包括存储设备,所述存储设备包括遗传序列读段。在一些实施方案中,计算机位于远离核酸测序仪定位的计算机服务器上。在一些实施方案中,系统还包括通过网络与计算机通信的电子显示器,其中所述电子显示器包括用于在实施(i)-(vi)后显示结果的用户界面。在一些实施方案中,用户界面是图形用户界面(GUI)或基于网络的用户界面。在一些实施方案中,电子显示器是个人计算机。在一些实施方案中,电子显示器在启用了互联网的计算机中。在一些实施方案中,启用了互联网的计算机位于远离计算机的位置。在另一方面中,本公开内容提供了一种计算机实施的方法,所述方法用于检测遗传序列读段中的插入和/或缺失,所述方法包括:(a)用计算机处理器接收从核酸测序仪生成的多核苷酸分子的遗传序列读段;(b)用所述计算机处理器处理所述遗传序列读段以生成经处理的序列读段;(c)用所述计算机处理器将所述经处理的序列读段映射到参考序列;(d)由所述计算机处理器将所述经处理的序列读段分组到族中,每个族包括源自样品中相同多核苷酸分子的独特序列读段;(e)由所述计算机处理器将所述族的至少一部分分组到融合簇中,每个融合簇包括分裂读段,其中每个分裂读段包括与映射到第一遗传基因座的第一断点相邻的第一子序列和与映射到第二不同遗传基因座的第二断点相邻的第二子序列,并且其中所述第一断点和所述第二断点形成断点对;(f)在以下情况下,由所述计算机处理器将融合簇判定为包括插入和/或缺失:i.断点对位于所述参考序列的相同的染色体上,ii.所述断点对中的所述第一断点和所述第二断点之间的距离小于所述参考序列上的预定的最大距离,以及iii.子序列处于相同的5’-3’定向。在一些实施方案中,方法还包括:(g)在(f)中的至少一个标准不被满足的情况下,由所述计算机处理器将融合簇判定为包括融合。在一些实施方案中,本文公开的系统和方法包括如果第一子序列和第二子序列与参考序列相比处于正常的基因组顺序,则将融合簇判定为缺失。在其他实施方案中,本文公开的系统和方法包括如果第一子序列和第二子序列与参考序列相比处于相反的基因组顺序,则将融合簇判定为插入。在一些实施本文档来自技高网...

【技术保护点】
1.一种系统,包括:/n(a)通信接口,所述通信接口通过通信网络接收由核酸测序仪生成的遗传序列读段;以及/n(b)与所述通信接口通信的计算机,其中所述计算机包括一个或更多个计算机处理器和包括机器可执行代码的计算机可读介质,所述机器可执行代码在被所述一个或更多个计算机处理器执行时实现一种方法,所述方法包括:/ni.通过所述通信网络接收由所述核酸测序仪生成的遗传序列读段;/nii.处理所述遗传序列读段以生成经处理的序列读段;/niii.将所述经处理的序列读段映射到参考序列;/niv.将所述经处理的序列读段分组到族中,每个族包括源自样品中的相同多核苷酸分子的独特序列读段;/nv.将所述族的至少一部分分组到融合簇中,每个融合簇包括分裂读段,其中每个分裂读段包含与映射到第一遗传基因座的第一断点相邻的第一子序列和与映射到第二不同遗传基因座的第二断点相邻的第二子序列,并且其中所述第一断点和所述第二断点形成断点对;以及/nvi.在以下情况下,将融合簇判定为包括插入和/或缺失:断点对映射到相同的染色体,所述断点对中的所述第一断点和所述第二断点之间的距离小于参考序列上的预定的最大距离,并且子序列处于相同的5’-3’定向。/n...

【技术特征摘要】
【国外来华专利技术】20170519 US 62/509,003;20170522 US 62/509,699;20171.一种系统,包括:
(a)通信接口,所述通信接口通过通信网络接收由核酸测序仪生成的遗传序列读段;以及
(b)与所述通信接口通信的计算机,其中所述计算机包括一个或更多个计算机处理器和包括机器可执行代码的计算机可读介质,所述机器可执行代码在被所述一个或更多个计算机处理器执行时实现一种方法,所述方法包括:
i.通过所述通信网络接收由所述核酸测序仪生成的遗传序列读段;
ii.处理所述遗传序列读段以生成经处理的序列读段;
iii.将所述经处理的序列读段映射到参考序列;
iv.将所述经处理的序列读段分组到族中,每个族包括源自样品中的相同多核苷酸分子的独特序列读段;
v.将所述族的至少一部分分组到融合簇中,每个融合簇包括分裂读段,其中每个分裂读段包含与映射到第一遗传基因座的第一断点相邻的第一子序列和与映射到第二不同遗传基因座的第二断点相邻的第二子序列,并且其中所述第一断点和所述第二断点形成断点对;以及
vi.在以下情况下,将融合簇判定为包括插入和/或缺失:断点对映射到相同的染色体,所述断点对中的所述第一断点和所述第二断点之间的距离小于参考序列上的预定的最大距离,并且子序列处于相同的5’-3’定向。


2.根据权利要求1所述的系统,还包括在(vi)中的上述标准中的至少一个不被满足的情况下,将融合簇判定为具有融合。


3.根据权利要求1或2所述的系统,还包括生成电子报告,所述电子报告提供多核苷酸分子包含插入、缺失和/或融合的指示。


4.根据权利要求1所述的系统,其中,在参考序列上具有相同开始-终止位置的经处理的序列读段被分组到一个族中。


5.根据权利要求1所述的系统,其中,所述遗传序列读段包括成对的末端序列读段。


6.根据权利要求5所述的系统,其中,具有重叠区域的成对的末端序列读段被合并,以生成包括合并读段的经处理的读段。


7.根据权利要求6所述的系统,其中,具有重叠区域的成对的末端序列读段被合并,所述重叠区域具有至少70%的同一性。


8.根据权利要求6所述的系统,其中,具有重叠区域的成对的末端序列读段被合并,所述重叠区域具有至少80%的同一性。


9.根据权利要求6所述的系统,其中,具有重叠区域的成对的末端序列读段被合并,所述重叠区域具有至少90%的同一性。


10.根据权利要求6所述的系统,其中,具有至少13个碱基的重叠的成对的末端序列读段被合并。


11.根据权利要求6所述的系统,其中,具有至少15个碱基的重叠的成对的末端序列读段被合并。


12.根据权利要求6所述的系统,其中,具有至少17个碱基的重叠的成对的末端序列读段被合并。


13.根据权利要求6所述的系统,其中,具有至少19个碱基的重叠的成对的末端序列读段被合并。


14.根据权利要求5所述的系统,其中,具有重叠区域的成对的末端序列读段被合并以形成合并读段,并且其中合并的序列读段被进一步处理以生成经处理的读段,所述经处理的读段包含代表性的、合并的独特读段。


15.根据权利要求1所述的系统,其中,所述族的至少一部分包括多于一个分裂读段。


16.根据权利要求15所述的系统,还包括生成包括所述多于一个分裂读段的每个族的共有序列。


17.根据权利要求1所述的系统,其中,所述分裂读段是从每个族生成的共有序列。


18.根据权利要求1所述的系统,其中,所述融合簇内的分裂读段的第一断点彼此之间的距离小于10个核苷酸,并且所述融合簇内的分裂读段的第二断点彼此之间的距离小于10个核苷酸。


19.根据权利要求1所述的系统,其中,所述分裂读段是族的共有序列。


20.根据权利要求1所述的系统,其中,所述预定的最大距离小于5,000个核苷酸。


21.根据权利要求1所述的系统,其中,所述预定的最大距离小于3,500。


22.根据权利要求1所述的系统,其中,所述族还包括:
(a)具有相同开始位置和相同的经压缩的终止序列的经处理的读段,或
(b)具有相同终止位置和相同的经压缩的开始序列的经处理的读段。


23.根据权利要求22所述的系统,其中,所述经压缩的开始/终止序列通过压缩整体的独特序列读段以去除均聚物中的重复核苷酸生成。


24.根据权利要求23所述的系统,所述均聚物包含聚(dA)或聚(dT)。


25.根据权利要求23所述的系统,所述均聚物包含聚(dG)或聚(dC)。


26.根据权利要求1所述的系统,其中,所述样品包括无细胞DNA。


27.根据权利要求1所述的系统,其中,所述参考序列是人类参考序列。


28.根据权利要求1所述的系统,其中,所述核酸测序仪是下一代测序仪。


29.根据权利要求5所述的系统,其中,评估所述成对的末端序列读段的质量,以生成质量评分。


30.根据权利要求1所述的系统,其中,所述计算机可读介质包括存储器、硬盘驱动器或计算机服务器。


31.根据权利要求1所述的系统,其中,所述通信网络包括电信网络、互联网、外联网或内联网。


32.根据权利要求1所述的系统,其中,所述通信网络包括能够进行分布式计算的一个或更多个计算机服务器。


33.如权利要求32所述的系统,其中,分布式计算是云计算。


34.根据权利要求1所述的系统,其中,所述通信网络包括存储设备,所述存储设备包括所述遗传序列读段。


35.根据权利要求1所述的系统,其中,所述计算机位于远离所述核酸测序仪定位的计算机服务器上。


36.根据权利要求1所述的系统,还包括通过网络与所述计算机通信的电子显示器,其中所述电子显示器包括用于在实施(i)-(vi)后显示结果的用户界面。


37.根据权利要求36所述的系统,其中,所述用户界面是图形用户界面(GUI)或基于网络的用户界面。


38.根据权利要求36所述的系统,其中,所述电子显示器在个人计算机中。


39.根据权利要求36所述的系统,其中,所述电子显示器在启用了互联网的计算机中。


40.根据权利要求39所述的系统,其中,所述启用了互联网的计算机位于远离所述计算机的位置。


41.根据权利要求1所述的系统,其中,如果所述第一子序列和所述第二子序列与所述参考序列相比处于正常的基因组顺序,则所述融合簇被判定为缺失。


42.根据权利要求1所述的系统,其中,如果所述第一子序列和所述第二子序列与所述参考序列相比处于相反的基因组顺序,则所述融合簇被判定为插入。


43.一种计算机实施的方法,所述方法用于检测遗传序列读段中的插入和/或缺失,所述方法包括:
(a)用计算机处理器接收从核酸测序仪生成的多核苷酸分子的遗传序列读段;
(b)用所述计算机处理器处理所述遗传序列读段以生成经处理的序列读段;
(c)用所述计算机处理器将所述经处理的序列读段映射到参考序列;
(d)由所述计算机处理器将所述经处理的序列读段分组到族中,每个族包括源自样品中的相同多核苷酸分子的独特序列读段;
(e)由所述计算机处理器将所述族的至少一部分分组到融合簇中,每个融合簇包括分裂读段,其中每个分裂读段包含与映射到第一遗传基因座的第一断点相邻的第一子序列和与映射到第二不同的遗传基因座的第二断点相邻的第二子序列,并且其中所述第一断点和所述第二断点形成断点对;
(f)在以下情况下,由所述计算机处理器将融合簇判定为包括插入和/或缺失:
i.断点对位于所述参考序列的相同的染色体上,
ii.所述断点对中的所述第一断点和所述第二断点之间的距离小于所述参考序列上的预定的最大距离,以及
iii.子序列处于相同的5’-3’定向。


44.根据权利要求43所述的方法,还包括:
(g)在(f)中的至少一个标准不被满足的情况下,由所述计算机处理器将融合簇判定为包括融合。


45.根据权利要求43所述的方法,其中,所述序列读段包括成对的末端序列读段的集合。


46.根据权利要求45所述的方法,其中,处理包括:
i.合并成对的末端序列读段以形成合并读段。


47.根据权利要求46所述的方法,其中,处理还包括:
ii.将具有相同条形码和相同内部序列的合并读段的合集分组到独特集合中;以及
iii.生成每个独特集合的经处理的序列读段。


48.根据权利要求45所述的方法,其中,具有重叠区域的成对的末端序列读段被合并,以形成合并的序列读段。


49.根据权利要求48所述的方法,其中,具有重叠区域的成对的末端序列读段被合并,所述重叠区域具有至少60%的同一性。


50.根据权利要求48所述的方法,其中,具有重叠区域的成对的末端序列读段被合并,所述重叠区域具有至少70%的同一性。


51.根据权利要求48所述的方法,其中,具有重叠区域的成对的末端序列读段被合并,所述重叠区域具有至少80%的同一性。


52.根据权利要求48所述的方法,其中,具有重叠区域的成对的末端序列读段被合并,所述重叠区域具有至少90%的同一性。


53.根据权利要求48所述的方法,其中,具有至少13个碱基的重叠的成对的末端序列读段被合并。


54.根据权利要求48所述的方法,其中,具有至少15个碱基的重叠的成对的末端序列读段被合并。


55.根据权利要求48所述的方法,其中,具有至少17个碱基的重叠的成对的末端序列读段被合并。

【专利技术属性】
技术研发人员:马尔辛·西科拉穆罕默德·R·穆赫塔里达里娅·丘多瓦
申请(专利权)人:夸登特健康公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1