检测拷贝数变异的方法、设备和介质技术

技术编号:38130139 阅读:16 留言:0更新日期:2023-07-08 09:37
本发明专利技术涉及一种检测拷贝数变异的方法、设备和介质。该方法包括:将经由预处理的测序数据与参考基因组的测序数据进行比对,以便获得比对结果数据,所述测序数据经由扩增子测序技术获得;针对比对结果数据,过滤掉满足预定过滤条件的测序数据;基于经过滤而留下的比对结果数据,获取扩增子测序区域的整体均一性,以便确定稳定扩增的靶向分析区域;基于稳定扩增的靶向分析区域的测序深度,构建对照集基线;以及基于预测模型所确定的待测样本的拷贝数变异的断点位置、以及所构建的对照集基线,生成关于待测样本的拷贝数变异的检测结果。本发明专利技术能够显著提高拷贝数检测结果的稳定性。明能够显著提高拷贝数检测结果的稳定性。明能够显著提高拷贝数检测结果的稳定性。

【技术实现步骤摘要】
检测拷贝数变异的方法、设备和介质


[0001]本专利技术总体上涉及生物信息处理,并且具体地,涉及用于基于扩增子测序数据检测拷贝数变异的方法、计算设备和计算机存储介质。

技术介绍

[0002]拷贝数变异(copy number variation,CNV)是指相比参考基因组长度不小于1kbp的DNA片段发生的缺失或者扩增。传统的基于高通量测序数据的用于检测拷贝数变异的方法主要包括:读段拆分法(split read,SR)、双末端比对法(paired

end mapping,PEM)、从头组装法(De novo assembly,DA)、读段深度法(read depth,RD)、以及以上四种检测方法的策略组合。
[0003]在上述传统的用于检测拷贝数变异的方法中,目前大部分的拷贝数变异检测方法是基于读段深度策略开发的,其原理是:根据异常区域的读段个数与正常区域的读段个数所具有的显著差别来判断。所采用的扩增子测序技术通常应用多重PCR方法。对于多重PCR技术的建库方法,产物的均一性会受模板质量、引物浓度及质量、反应体系与条件、酶等多因素影响,使得不同批次实验结果,样本间的读段深度差异显著,进而影响拷贝数检测的稳定性。
[0004]综上,传统的基于扩增子测序数据检测拷贝数变异的方案存在的不足之处在于:针对扩增子测序试剂盒的拷贝数变异检测结果的稳定性欠佳。

技术实现思路

[0005]本专利技术提供一种基于扩增子测序数据检测拷贝数变异的方法、计算设备和计算机存储介质,能够显著提高拷贝数检测结果的稳定性。
[0006]根据本专利技术的第一方面,提供了一种基于扩增子测序数据检测拷贝数变异的方法。该方法包括:将经由预处理的测序数据与参考基因组的测序数据进行比对,以便获得比对结果数据,所述测序数据经由扩增子测序技术获得;针对比对结果数据,过滤掉满足预定过滤条件的测序数据;基于经过滤而留下的比对结果数据,获取扩增子测序区域的整体均一性,以便确定稳定扩增的靶向分析区域;基于稳定扩增的靶向分析区域的测序深度,构建对照集基线;以及基于预测模型所确定的待测样本的拷贝数变异的断点位置、以及所构建的对照集基线,生成关于待测样本的拷贝数变异的检测结果。
[0007]根据本专利技术的第二方面,还提供了一种计算设备,该设备包括:存储器,被配置为存储一个或多个计算机程序;以及处理器,耦合至存储器并且被配置为执行一个或多个程序使装置执行本专利技术的第一方面的方法。
[0008]根据本专利技术的第三方面,还提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令,该机器可执行指令在被执行时使机器执行本专利技术的第一方面的方法。
[0009]在一些实施例中,确定稳定扩增的靶向分析区域包括:基于所获取的整体均一性,
针对经过滤而留下的比对结果数据进行过滤,以便获得经由均一性过滤的比对结果数据。
[0010]在一些实施例中,确定稳定扩增的靶向分析区域还包括:以序列比对到参考基因组的起始位置和终止位置作为一个bed区域,统计每个bed区域内的序列覆盖数;针对每个bed区域的序列覆盖数,使用待测样本的比对序列数量进行矫正,以便获得每个bed区域内的矫正后的序列覆盖数;以及基于经由均一性过滤的比对结果数据,提取阴性对照集中所有样本均有序列覆盖并且经由矫正的序列覆盖数差异小于预定矫正阈值的区域,以确定为稳定扩增的靶向分析区域。
[0011]在一些实施例中,生成关于待测样本的拷贝数变异的检测结果包括:经由预测模型,确定待测样本的拷贝数变异的断点位置;计算待测样本每个bed区域的测序深度与所构建的对照集基线bed区域的测序深度的均值的比值;将所计算的比值与预定比值阈值相比较,以便确定每个bed区域的倍性;统计断点区域内的各倍性bed区域的占比;确定所统计的各倍性的bed区域的占比是否大于或者等于预定占比阈值;以及响应于确定当前倍性的bed区域的占比大于或者等于预定占比阈值,确定所述稳定扩增的靶向分析区域的倍性为当前倍性。
[0012]在一些实施例中,获得经由均一性过滤的比对结果数据包括:统计待测样本的T 20%X 覆盖率、Fold 80值,以便获取待测样本的扩增子测序区域的整体均一性;以及基于所获取的整体均一性与预定均一性阈值的比较结果,针对经过滤而留下的比对结果数据过滤,以获得经由均一性过滤的比对结果数据。
[0013]在一些实施例中,满足预定过滤条件的测序数据包括:多位置比对的序列数据和比对质量值低于预定质量阈值的序列数据。
[0014]在一些实施例中,基于稳定扩增的靶向分析区域的测序深度构建对照集基线包括:针对所确定的稳定扩增的靶向分析区域进行测序深度矫正;以及基于经由矫正的靶向区域的测序深度,计算对照集样本中每个bed区域的均值以及标准差,以便构建对照集基线。
[0015]在一些实施例中,针对所确定的稳定扩增的靶向分析区域进行测序深度矫正包括:使用经由均一性过滤的比对结果数据,统计待测样本以及对照集样本在稳定扩增的靶向分析区域的每个bed区域的序列覆盖深度;基于比对序列数、bed区域的数量、对待测样本以及对照集样本的平均测序深度进行矫正;以及使用局部多项回归方程矫正GC偏好、扩增子长度偏好,以获得矫正后的稳定扩增的靶向分析区域的标准化深度。
[0016]提供
技术实现思路
部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识本专利技术的关键特征或主要特征,也无意限制本专利技术的范围。
附图说明
[0017]图1示出了根据本专利技术的实施例的用于实施基于扩增子测序数据检测拷贝数变异的方法的系统的示意图。
[0018]图2示出了根据本专利技术的实施例的用于基于扩增子测序数据检测拷贝数变异的方法的流程图。
[0019]图3示出了根据本专利技术的实施例的用于确定稳定扩增的靶向分析区域的方法的流
程图。
[0020]图4示出了根据本专利技术的实施例的用于针对所确定的稳定扩增的靶向分析区域进行测序深度矫正的方法的流程图。
[0021]图5示出了根据本专利技术的实施例的用于基于扩增子测序数据检测拷贝数变异的方法的流程图。
[0022]图6示意性示出了适于用来实现本专利技术实施例的电子设备的框图。
[0023]在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0024]下面将参照附图更详细地描述本专利技术的优选实施例。虽然附图中显示了本专利技术的优选实施例,然而应该理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本专利技术更加透彻和完整,并且能够将本专利技术的范围完整地传达给本领域的技术人员。
[0025]在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于扩增子测序数据检测拷贝数变异的方法,其特征在于,包括:将经由预处理的测序数据与参考基因组的测序数据进行比对,以便获得比对结果数据,所述测序数据经由扩增子测序技术获得;针对比对结果数据,过滤掉满足预定过滤条件的测序数据;基于经过滤而留下的比对结果数据,获取扩增子测序区域的整体均一性,以便确定稳定扩增的靶向分析区域;基于稳定扩增的靶向分析区域的测序深度,构建对照集基线;以及基于预测模型所确定的待测样本的拷贝数变异的断点位置、以及所构建的对照集基线,生成关于待测样本的拷贝数变异的检测结果。2.根据权利要求1所述的方法,其特征在于,确定稳定扩增的靶向分析区域包括:基于所获取的整体均一性,针对经过滤而留下的比对结果数据进行过滤,以便获得经由均一性过滤的比对结果数据。3.根据权利要求2所述的方法,其特征在于,确定稳定扩增的靶向分析区域还包括:以序列比对到参考基因组的起始位置和终止位置作为一个bed区域,统计每个bed区域内的序列覆盖数;针对每个bed区域的序列覆盖数,使用待测样本的比对序列数量进行矫正,以便获得每个bed区域内的矫正后的序列覆盖数;以及基于经由均一性过滤的比对结果数据,提取阴性对照集中所有样本均有序列覆盖并且经由矫正的序列覆盖数差异小于预定矫正阈值的区域,以确定为稳定扩增的靶向分析区域。4.根据权利要求1所述的方法,其特征在于,生成关于待测样本的拷贝数变异的检测结果包括:经由预测模型,确定待测样本的拷贝数变异的断点位置;计算待测样本每个bed区域的测序深度与所构建的对照集基线bed区域的测序深度的均值的比值;将所计算的比值与预定比值阈值相比较,以便确定每个bed区域的倍性;统计断点区域内的各倍性bed区域的占比;确定所统计的各倍性的bed区域的占比是否大于或者等于预定占比阈值;以及响应于确定当前倍性的bed区域的占比大于或者等于预定占比阈值...

【专利技术属性】
技术研发人员:钟影张倩倩胡晶晶李宁刘会涛辛忠涛
申请(专利权)人:上海品峰医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1