当前位置: 首页 > 专利查询>精赛恩公司专利>正文

识别靶序列的至少一个碱基的方法、可读介质及设备技术

技术编号:13547718 阅读:87 留言:0更新日期:2016-08-18 13:30
可以相对于参考序列通过使用测序段在满足高置信度条件的位置的值来识别靶序列的碱基,以识别不满足所述高置信度条件的给定位置的碱基。所述高置信度条件可以涉及参考序列某位置上测序读段的覆盖水平。所述测序读段的测量质量可以结合为碱基过程的一部分。

【技术实现步骤摘要】
【国外来华专利技术】201480072012

【技术保护点】
一种识别靶序列的至少一个碱基的方法,所述方法包括:获取参考序列,所述参考序列包括限定所述参考序列的多个碱基值;获取多个测序读段,每个测序读段包括靶序列相应部分的多个碱基值;识别所述测序读段中的多个高置信度位置,所述高置信度位置通过参考序列中的相应位置被识别并且满足高置信度条件,所述高置信度条件用于使用所述测序读段在所述高置信度位置的碱基值来鉴定所述靶序列在所述高置信度位置的一个或更多个碱基;以及识别所述靶序列在不满足所述高置信度条件的给定位置的一个或更多个碱基,以识别所述靶序列在所述给定位置的一个或更多个碱基,其中,使用所述测序读段在所述高置信度位置的碱基值以及所述测序读段在给定位置的碱基值和所述参考序列在给定位置的碱基值来识别所述靶序列所述给定位置的一个或更多个碱基。

【技术特征摘要】
【国外来华专利技术】2013.11.01 US 61/898,6801.一种识别靶序列的至少一个碱基的方法,所述方法包括:获取参考序列,所述参考序列包括限定所述参考序列的多个碱基值;获取多个测序读段,每个测序读段包括靶序列相应部分的多个碱基值;识别所述测序读段中的多个高置信度位置,所述高置信度位置通过参考序列中的相应位置被识别并且满足高置信度条件,所述高置信度条件用于使用所述测序读段在所述高置信度位置的碱基值来鉴定所述靶序列在所述高置信度位置的一个或更多个碱基;以及识别所述靶序列在不满足所述高置信度条件的给定位置的一个或更多个碱基,以识别所述靶序列在所述给定位置的一个或更多个碱基,其中,使用所述测序读段在所述高置信度位置的碱基值以及所述测序读段在给定位置的碱基值和所述参考序列在给定位置的碱基值来识别所述靶序列所述给定位置的一个或更多个碱基。2.根据权利要求1所述的方法,其中,在以下情况下所述高置信度位置满足所述高置信度条件:如果至少阈值数目的测序读段包括所述高置信度位置,以及如果所述高置信度位置的测序读段碱基值分布满足统计置信标准。3.根据权利要求1所述的方法,其中,所述识别靶序列在给定位置的一个或多个碱基包括:利用测序读段在高置信度位置的碱基值评估参考序列在所述给定位置的碱基值与靶序列在所述给定位置的一个或多个碱基值组合的可能性。4.根据权利要求1所述的方法,其中,所述识别靶序列在所述给定位置的一个或多个碱基包括:利用测序读段在高置信度位置的碱基值评估所述靶序列在所述给定位置的一个或多个碱基值与所述靶序列在所述给定位置的一个碱基组合的可能性。5.根据权利要求1所述的方法,其中,所述靶序列对应N倍体基因型,并且在所述给定位置的N个碱基被识别,N为正整数。6.根据权利要求1所述的方法,其中,所述测序读段对应基因组数据。7.根据权利要求1所述的方法,其中,所述方法还包括:通过确定至少一个包括所述给定位置的测序读段来选择所述给定位置,所述给定位置表示相对于参考序列的单核苷酸变异(SNV)。8.根据权利要求1所述的方法,其中,所述方法还包括:通过识别在给定位置的插入或删除、给定位置的拷贝数变异或给定位置的结构变异选择所述给定位置。9.根据权利要求1所述的方法,其中,利用贝叶斯预测模型来识别靶序列在所述给定位置的一个或多个碱基,所述贝叶斯预测模型提供所述测序读段在高置信度位置的碱基值和参考序列在多个位置的碱基值与靶序列在给定位置的一个或多个碱基有关的概率值。10.根据权利要求1所述的方法,其中,所述识别靶序列在给定位置的一个或多个碱基包括:从测序读段采样M个高置信度的碱基值,M个高置信度的碱基值对应至少一个高置信度位置,在所述高置信度位置,参考序列的碱基值等同于所述参考序列在所述给定位置的碱基值,M为正整数M;及利用M个高置信度碱基值估计靶序列在给定位置存在一个或多个碱基值的可能性。11.根据权利要求1所述的方法,其中,所述识别靶序列在给定位置的一个或多个碱基包括:对于某正整数M,对所述靶序列在所述给定位置的所述一个或多个碱基值进行M次高置信度测试结果的采样,的所述M次高置信度测试结果包括至少一个高置信度位置的碱基值,在所述高置信度位置,相应的测序读段识别碱基值组合,而所述碱基值等同于所述靶序列在所述给定位置的的一个或多个碱基值;及利用对靶序列在给定位置的一个或多个碱基值进行M次高置信度测定结果来估计测序读段在所述给定位置存在所述碱基值的可能性。12.一种非临时性计算机可读介质,该介质存储有用于识别靶序列的至少一个碱基的计算机程序,所述计算机程序包括指令,当至少一台计算机执行所述指令时,使所述至少一台计算机执行以...

【专利技术属性】
技术研发人员:龚午鸣饶江李彤彬
申请(专利权)人:精赛恩公司
类型:发明
国别省市:美国;US

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1