核酸序列装配制造技术

技术编号:16934807 阅读:83 留言:0更新日期:2018-01-03 05:11
本文公开了与序列装配相关的组合物、系统和方法,该序列装配例如是通过使用读取对序列信息如指示核酸序列相位或物理连锁的读取对信息将单个读取和叠连群装配成较大叠连群和支架的核酸序列装配。

Nucleotide sequence assembly

Disclosed herein are compositions, systems and methods related to the assembly and the assembly sequence sequence, for example through the use of the reading of the sequence information such as nucleic acid sequence indicating phase or physical linkage of information will be read and read on a single contig assembly into larger overlapping nucleic acid sequence assembly and stent group.

【技术实现步骤摘要】
【国外来华专利技术】核酸序列装配交叉引用本申请要求于2015年2月17日提交的美国临时申请号62/117,256的权益,该申请通过引用而全文明确地并入本文,并且本申请还要求于2016年2月11日提交的美国临时申请号62/294,208的权益,该申请通过引用而全文明确地并入本文。
技术介绍
目前可获得和可负担的高通量测序方法最适合用于短距离序列连续性和基因组变异的表征。实现长距离连锁和单元型定相需要直接且准确地读取长(例如,几十个千碱基)序列的能力,或者需要通过配对的或分组的序列读取来捕获连锁和相位关系。然而,对测序信息进行分组和生成实现长距离连锁和单元型定相所必需的序列信息装配体是计算密集且耗时的。本文公开了在计算上有效的方法和系统,以从通过配对的或分组的序列读取获知的序列信息获得具有染色体尺度连续性的装配体。
技术实现思路
本文公开了与核酸数据的支架化(scaffolding)相关的方法、组合物、算法和系统。本文的方法利用读取对来推断关于读取对的读取在数据集中映射的叠连群的相位或物理连锁信息的信息。根据这样的活动对与其相对定位有关的得分或参数的影响对核酸数据集中的叠连群进行排序、定向或端对端合并,或者在一些情况本文档来自技高网...
核酸序列装配

【技术保护点】
一种用于支架化核酸序列信息的叠连群的计算机实现系统,该计算机实现系统包含处理器,该处理器被配置为:接收具有初始配置的叠连群序列的集合;接收配对端读取的集合;接收标准配对端读取距离频率数据;处理叠连群对,使得共享共存于至少一个配对端读取中的序列的叠连群对被分组;将分组的叠连群序列支架化,使得映射到不同叠连群的读取对的读取对距离频率数据相对于所述初始配置的叠连群序列的读取对频率数据更接近所述标准配对端读取距离频率数据;以及将处理的叠连群支架输出到网络、屏幕或服务器。

【技术特征摘要】
【国外来华专利技术】2015.02.17 US 62/117,256;2016.02.11 US 62/294,2081.一种用于支架化核酸序列信息的叠连群的计算机实现系统,该计算机实现系统包含处理器,该处理器被配置为:接收具有初始配置的叠连群序列的集合;接收配对端读取的集合;接收标准配对端读取距离频率数据;处理叠连群对,使得共享共存于至少一个配对端读取中的序列的叠连群对被分组;将分组的叠连群序列支架化,使得映射到不同叠连群的读取对的读取对距离频率数据相对于所述初始配置的叠连群序列的读取对频率数据更接近所述标准配对端读取距离频率数据;以及将处理的叠连群支架输出到网络、屏幕或服务器。2.根据权利要求1所述的计算机系统,其中通过消化样品DNA以在核酸内生成内部双链断裂,使所述双链断裂随机再连接以形成多个再连接接合部,以及跨过所述多个再连接接合部进行测序,来获得所述配对端读取的集合。3.根据权利要求1所述的计算机系统,其中从两个读取均映射到共同叠连群的配对端读取获得标准配对端读取频率。4.根据权利要求1所述的计算机系统,其中从先前生成的曲线获得标准配对端读取频率。5.根据权利要求1所述的计算机系统,其中所述初始配置为随机配置。6.根据权利要求1所述的计算机系统,其中当读取对距离似然增加时,映射到不同叠连群的读取对的读取对距离频率数据更接近所述配对端读取距离频率数据。7.根据权利要求6所述的计算机系统,其中读取对距离似然被最大化。8.根据权利要求1所述的计算机系统,其中当所述读取对距离频率数据与所述标准配对端读取距离频率数据之间的差异的统计学量度减小时,映射到不同叠连群的读取对的读取对距离频率数据更接近所述配对端读取距离频率数据。9.根据权利要求8所述的计算机系统,其中所述读取对距离频率数据与所述标准配对端读取距离频率数据之间的距离的统计学量度包括ANOVA、t检验和X方检验中的至少一种。10.根据权利要求1所述的计算机系统,其中当与标准配对端读取距离频率相比,获得的有序叠连群中的读取对距离分布的偏差减小时,映射到不同叠连群的读取对的读取对距离更紧密地匹配所述配对端读取距离频率数据。11.根据权利要求10所述的计算机系统,其中所获得的有序叠连群中的读取对距离分布与标准配对端读取距离频率相比的偏差被最小化。12.根据权利要求1所述的计算机系统,其中通过消化样品DNA以在核酸内生成内部双链断裂,使所述双链断裂再连接以形成至...

【专利技术属性】
技术研发人员:尼古拉斯·H·帕特南乔纳森·C·斯泰特斯布兰登·J·赖斯
申请(专利权)人:多弗泰尔基因组学有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1