结构变体分析制造技术

技术编号:25352428 阅读:13 留言:0更新日期:2020-08-21 17:10
本公开内容提供了鉴定和报告基因组或染色体水平结构信息如结构变异的存在的方法、系统和算法。在一些情况下,结构变异包括拷贝数变异、倒位、缺失、串联重复或反向重复。本文进一步提供了用于装配配对读取基因组数据,包括创建和优化支架模型的方法、系统和算法。

【技术实现步骤摘要】
【国外来华专利技术】结构变体分析交叉引用本申请要求于2017年11月9日提交的美国临时申请号62/583,974的权益,其在此通过引用以其全文明确并入。
技术介绍
在理论上和实践中仍然难以产生高质量、高度连续的基因组序列。当试图从诸如福尔马林固定、石蜡包埋的(FFPE)样品等保存的样品中回收基因组序列、定相信息或其他所需遗传信息时,该问题变得复杂。尽管测序成本和时间的减少增加了可用的原始基因组数据的量,但是缺乏合适的方法来以有效和准确的方式分析和装配数据是当前测序技术的主要限制。援引并入本说明书中所提到的所有出版物、专利和专利申请均通过引用并入本文,其程度如同特别地且单独地指出每个单独的出版物、专利或专利申请通过引用而并入。本说明书中提及的所有出版物、专利和专利申请均通过引用以其全文以及其中引用的任何参考文献并入本文。
技术实现思路
本文提供了核酸结构变体检测的方法。一些这样的方法包括:a)将读取对信息映射到参考核酸支架上;b)将读取对位置分配给第一箱元,使得读取对中点落入第一箱元核酸位置范围内,并且读取对间隔落入第一箱元间隔范围内;以及c)基于第一箱元的可映射性值估计拷贝数变异。在一些情况下,该方法进一步包括使拷贝数变异归一化。另外,该方法进一步包括通过绘制两个样品针对彼此的映射读取密度来显示可映射性。本文提供了核酸结构变体检测的方法。一些这样的方法包括:a)将读取对信息映射到参考核酸支架上;b)将读取对位置分配给第一箱元,使得读取对中点落入第一箱元核酸位置范围内,并且读取对间隔落入第一箱元间隔范围内;c)生成读取对信息的二维图像;其中每个像素代表箱元;d)为图像中至少一组共享公共角落的四个像素计算z评分;其中z评分由相邻像素之间的对比表示;以及e)当z评分超过阈值时鉴定候选命中。在一些情况下,参考核酸支架是基因组。通常,每个数据集从不同的配对末端读取方向获得。考虑到候选命中选自易位、倒位、缺失、重复和染色体间结构变异中的一种或多种。本文提供了用于对样品中等位基因变异的混合物进行建模的系统。一些这样的系统包含:加权基因组支架模型的集合,其中每个基因组支架模型包括加权染色体的集合,其中每个染色体是基因组支架中箱元的线性图;以及用于计算至少两个基因组支架模型的对数似然比的模块,以预测由文库采样的读取对是否将落入箱元中。在一些情况下,本文的系统进一步包含至少一个特征检测器模块,其中所述至少一个特征检测器模块提出对基因组支架模型的候选修饰。通常,至少一个特征检测器模块确定序列变体的箱元边界。考虑到序列变体选自易位、倒位、缺失和重复中的一种或多种。通常,该系统进一步包含基于来自至少一个特征检测器模块的输入生成替代模型的模块。本文提供了用于对样品中的等位基因变异进行建模的方法。一些这样的方法包括:a)生成加权基因组支架模型的集合,其中每个基因组支架模型包括加权染色体的集合,其中每个染色体是基因组支架中箱元的线性图;b)基于模型描述映射到参考序列上的读取对测序信息的能力来计算评分,其中较高的评分值指示更具预测性的模型;以及c)迭代地添加附加模型以使评分值最大化。考虑到读取对测序信息包括倒位、易位、重复和缺失中的一种或多种。在一些情况下,该方法进一步包括检测特征,其中检测特征包括在模型中接合或分离箱元以增加评分值。通常,样品是癌细胞。本文提供了核酸结构变体检测的方法。一些这样的方法包括:a)将读取对信息映射到预测的核酸支架上;b)将读取对位置分配给第一箱元,使得读取对中点落入第一箱元核酸位置范围内,并且读取对间隔落入第一箱元间隔范围内;c)生成读取对信息的二维图像;其中每个像素代表箱元;以及d)鉴定二维图像中对应于通过共同的连接序列片段连接的两个序列片段的至少一个特征。通常,该方法包括以正确的顺序装配通过共同的连接序列片段连接的两个序列片段。有时,该方法包括丢弃对应于假阳性的特征。本文提供的方法包括:将读取对序列信息映射到序列支架上;以及鉴定如此映射的多个读取对符号的密度的局部变异。在一些情况下,该方法包括将密度的局部变异分配给相应的结构布置特征。通常,该方法包括重构序列支架,从而减小密度的局部变异。有时,将读取对序列信息映射到序列支架上包括定位指示读取对的符号,使得符号与代表序列支架的轴的距离指示从序列支架上的读取对的第一读取的映射位置到序列支架上的读取对的第二读取的映射位置的距离,并且使得符号相对于代表序列支架的轴的位置指示该读取对的第一读取的映射位置和该读取对的第二读取的映射位置的平均值。有时,重构序列支架包括重新排序序列支架的至少一些叠连群。替代地或组合地,重构序列支架包括重新定向序列支架的至少一个叠连群。通常,重构序列支架包括将断裂引入序列支架的至少一个叠连群中。有时,该方法进一步包括将存在于断裂的一个边缘处的序列引入到断裂的第二边缘上。在一些情况下,重构序列支架包括将第一叠连群的区段易位到第二叠连群的内部区域中。有时,将读取对序列信息映射到序列支架上包括将读取对信息分配给多个箱元。通常,鉴定密度的局部变异包括鉴定具有符号的局部低密度的区域。替代地,鉴定密度的局部变异包括鉴定具有符号的局部高密度的区域。有时,鉴定密度的局部变异包括鉴定第一位置处的密度和第二位置处的密度,其中第一位置处的密度和第二位置处的密度显著不同。在一些情况下,第一位置和第二位置是相邻的。通常,第一位置和第二位置与序列支架等距。有时,鉴定密度的局部变异包括获得第一位置处的预期密度和第一位置处的观察密度。通常,第一位置处的预期密度是由密度梯度预测的密度,该密度梯度随着与代表序列支架的轴的距离增加而单调降低。任选地,等于样品的倍性的整数值的一部分的局部密度变异指示该比例中样品倍性补充(ploidycomplement)的事件。在一些情况下,支架代表癌细胞基因组。替代地或组合地,支架代表转基因细胞基因组。任选地,支架代表基因编辑的基因组。通常,重构后,支架具有增加至少20%的N50。本文提供了包括获得包含序列支架信息的支架的方法。一些这样的方法包括:获得配对读取信息;部署配对读取信息,使得描绘至少一些读取对信息,以指示读取对中每个读取相对于支架的位置,并指示映射在支架上的一个读取到另一个读取的距离;以及鉴定所部署的配对读取信息的密度的局部变异。在一些情况下,该方法包括将密度的局部变异分配给相应的结构布置特征。有时,该方法包括重新配置支架以减小局部变异。通常,获得包含序列支架信息的支架包括对核酸样品进行测序。替代地或组合地,获得包含序列支架信息的支架包括接收代表核酸样品的数字信息。有时,该方法包括对于部署的读取对信息获得预测密度分布。通常,鉴定包括鉴定预测密度分布与所描绘的读取对信息密度之间的显著差异。替代地或组合地,鉴定局部变异包括鉴定在直角的顶点处具有密度峰值的密度扰动。在一些情况下,直角的顶点指向代表支架的轴。通常,获得配对末端读取信息包括交联未提取的核酸。有时,获得配对末端读取信息包括交联染色质中结合的核酸。通常,染色质是天然染色质。替代地或组合地,获得配对末端读取信息包括将核酸结合至核酸结合部分。在一些情况下,获得配对末端读取信息包本文档来自技高网...

【技术保护点】
1.一种方法,包括:/n将读取对序列信息映射到序列支架上;以及/n鉴定如此映射的多个读取对符号的密度的局部变异。/n

【技术特征摘要】
【国外来华专利技术】20171109 US 62/583,9741.一种方法,包括:
将读取对序列信息映射到序列支架上;以及
鉴定如此映射的多个读取对符号的密度的局部变异。


2.根据权利要求1所述的方法,包括将所述密度的局部变异分配给相应的结构布置特征。


3.根据权利要求1所述的方法,包括重构所述序列支架,从而减小所述密度的局部变异。


4.根据权利要求1所述的方法,其中将读取对序列信息映射到序列支架上包括定位指示读取对的符号,使得所述符号与代表所述序列支架的轴的距离指示从所述序列支架上的读取对的第一读取的映射位置到所述序列支架上的所述读取对的第二读取的映射位置的距离,并且使得所述符号相对于代表所述序列支架的所述轴的位置指示所述读取对的所述第一读取的所述映射位置和所述读取对的所述第二读取的所述映射位置的平均值。


5.根据权利要求2所述的方法,其中重构所述序列支架包括重新排序所述序列支架的至少一些叠连群。


6.根据权利要求2所述的方法,其中重构所述序列支架包括重新定向所述序列支架的至少一个叠连群。


7.根据权利要求2所述的方法,其中重构所述序列支架包括将断裂引入所述序列支架的至少一个叠连群中。


8.根据权利要求7所述的方法,进一步包括将存在于所述断裂的一个边缘处的序列引入到所述断裂的第二边缘上。


9.根据权利要求1所述的方法,其中重构所述序列支架包括将第一叠连群的区段易位到第二叠连群的内部区域中。


10.根据权利要求1所述的方法,其中将读取对序列信息映射到序列支架上包括将读取对信息分配给多个箱元。


11.根据权利要求1所述的方法,其中鉴定密度的局部变异包括鉴定具有符号的局部低密度的区域。


12.根据权利要求1所述的方法,其中鉴定密度的局部变异包括鉴定具有符号的局部高密度的区域。


13.根据权利要求1所述的方法,其中鉴定密度的局部变异包括鉴定第一位置处的密度和第二位置处的密度,其中所述第一位置处的密度和所述第二位置处的密度显著不同。


14.根据权利要求13所述的方法,其中所述第一位置和所述第二位置是相邻的。


15.根据权利要求13所述的方法,其中所述第一位置和所述第二位置与所述序列支架等距。


16.根据权利要求1所述的方法,其中鉴定密度的局部变异包括获得第一位置处的预期密度和所述第一位置处的观察密度。


17.根据权利要求16所述的方法,其中所述第一位置处的所述预期密度是由密度梯度预测的密度,所述密度梯度随着与代表所述序列支架的所述轴的距离增加而单调降低。


18.根据权利要求1所述的方法,其中等于样品的倍性的整数值的一部分的局部密度变异指示该比例中样品倍性补充的事件。


19.根据权利要求1所述的方法,其中所述支架代表癌细胞基因组。


20.根据权利要求1所述的方法,其中所述支架代表转基因细胞基因组。


21.根据权利要求1所述的方法,其中所述支架代表基因编辑的基因组。


22.根据权利要求3所述的方法,其中所述支架在所述重构后具有增加至少20%的N50。


23.一种方法,包括:
获得包含序列支架信息的支架;
获得配对读取信息;
部署所述配对读取信息,使得描绘至少一些读取对信息,以指示读取对中每个读取相对于所述支架的位置,并指示映射在所述支架上的一个读取到另一个读取的距离;以及
鉴定所部署的所述配对读取信息的密度的局部变异。


24.根据权利要求23所述的方法,包括将所述密度的局部变异分配给相应的结构布置特征。


25.根据权利要求23所述的方法,包括重新配置所述支架以减小所述局部变异。


26.根据权利要求23所述的方法,其中获得包含序列支架信息的支架包括对核酸样品进行测序。


27.根据权利要求23所述的方法,其中获得包含序列支架信息的支架包括接收代表核酸样品的数字信息。

【专利技术属性】
技术研发人员:尼古拉斯·H·帕特南克里斯多佛·约翰·特罗尔
申请(专利权)人:多弗泰尔基因组学有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利