【技术实现步骤摘要】
用于检测单核苷酸变异和插入缺失的方法、设备和介质
[0001]本专利技术总体上涉及生物信息处理,并且具体地,涉及用于检测单核苷酸变异和插入缺失的方法、计算设备和计算机存储介质。
技术介绍
[0002]传统的检测单核苷酸变异(SNP)和插入缺失(INDEL)的方法主要包括两种。
[0003]第一种检测SNP和INDEL的方法是基于pileup的检测算法,例如,samtools、GATK UnifiedGenotyper(UG)等检测软件。基于pileup的检测算法是通过扫描短序列到参考基因组的比对来检测单核苷酸变异(SNP)和小插入缺失(INDEL)。具体而言,其对参考基因组的一个位点上的序列堆叠(pileup),综合考虑错配碱基、碱基质量和比对质量来计算发生变异的概率值,以用于检测SNP和INDEL。包括samtools、GATK UnifiedGenotyper(UG)等,它们可以比较准确地检测SNP,但是检测INDEL的准确度低。
[0004]第二种检测SNP和INDEL的方法是通过局部组装的方法检测SN ...
【技术保护点】
【技术特征摘要】
1.一种用于检测单核苷酸变异和插入缺失的方法,其特征在于,包括:基于参考基因组位点的比对序列堆叠,计算参考基因组位点的激活概率,以便将连续的激活概率大于预定概率阈值的基因组位点合并为激活区;以及获得经延长的激活区内的、符合预定质量条件的待测样本的读长片段,以便针对局部参考基因组序列和读长片段进行组装,以用于生成单倍型序列,所生成的单倍型序列包括经由半组装单倍型序列修复而成的单倍型序列;将单倍型序列比对到局部参考基因组序列,以便基于比对结果识别单核苷酸变异和插入缺失;计算关于单核苷酸变异和插入缺失的基因型概率,以便确定基因型类型,以用于生成变异特征值;以及基于变异特征值,经由基于随机森林模型所构建的预测模型,生成关于单核苷酸变异和插入缺失的预测结果。2.根据权利要求1的方法,其特征在于,基于针对局部参考基因组序列和读长片段进行组装,以便生成单倍型序列包括:将每个激活区向两侧各延伸预定数量个碱基,以便得到对应的延伸区间;针对延伸区间内的读长进行预处理,以便获得符合预定质量条件的读长片段;针对局部参考基因组序列和读长片段进行组装,经组装的序列包括全组装的单倍型序列和半组装单倍型序列;以及识别所述半组装单倍型序列,以便针对半组装单倍型序列进行修复,以用于生成全组装的单倍型序列。3.根据权利要求2的方法,其特征在于,针对延伸区间内的读长进行预处理,以便获得符合预定质量条件的读长片段包括:计算延伸区间内的读长的软剪切序列的碱基质量的均方根;确定所计算的均方根是否小于预定阈值;响应于确定所计算的均方根小于预定阈值,去除读长的软剪切序列;扫描延伸区间内的读长,以便确定读长的碱基与参考基因组是否不匹配并且碱基质量是否小于预定碱基质量阈值;响应于确定读长的碱基与参考基因组不匹配并且碱基质量小于预定碱基质量阈值,针对读长进行切分;以及对经由切分的读长进行过滤,以便将长度大于或者等于预定长度阈值的读长片段确定为符合预定质量条件的读长片段。4.根据权利要求2的方法,其特征在于,针对局部参考基因组序列和读长片段进行组装包括:按照长度从小到大的顺序,以预定步长,针对局部参考序列的、长度为预定值的片段单元进行当前轮的迭代;将当前轮迭代的局部参考序列的片段单元插入到de Bruijn图中;确定de Bruijn图中是否存在环路;响应于确定de Bruijn图中不存在环路,将读长序列的片段单元插入到de Bruijn图中,以便确定插入后的de Bruijn图是否存在环路;
响应于确定de Bruijn图中存在环路,将当前轮迭代的局部参考序列的片段单元增加预定步长,以便针对局部参考序列的片段单元进行下一轮的迭代。5.根据权利要求4的方法,其特征在于,针对局部参考基因组序列和读长片段进行组装还包括:响应于确定插入后的...
【专利技术属性】
技术研发人员:杨旗,张钰,
申请(专利权)人:北京贝瑞和康生物技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。