一种基于滤波策略的高容错基因组复杂结构变异检测方法技术

技术编号:24999438 阅读:26 留言:0更新日期:2020-07-24 18:01
本发明专利技术公开了一种基于滤波策略的高容错基因组复杂结构变异检测方法,对SAM格式的输入文件进行预处理,遍历最优质量比对读段中的CIGAR字段;根据比对后的CIGAR字段和变异分数计算准则,计算出各个位点在当前读段对应的变异分数,并将其预先保存在每个位点的变异分数集合中;统计每个位点的变异分数集合中的平均数当作该位点最终的变异分数并得到此样本的变异分数函数;对变异分数函数进行卡尔曼或高斯滤波,得到滤波降噪后的变异分数函数;依照滤波后的变异分数函数,设定阈值并分离出结构变异区域,提取特征;训练支持向量机(SVM)模型,再用训练好的SVM模型对结构变异区域分类并得到复杂indel结果集。本发明专利技术解决测序错误对结构变异的确定产生的干扰。

【技术实现步骤摘要】
一种基于滤波策略的高容错基因组复杂结构变异检测方法
本专利技术属于第三代核酸序列测序(SingleMoleculeRealTime,SMRT)
,具体涉及一种基于滤波策略的高容错基因组复杂结构变异检测方法。
技术介绍
复杂indel(Complexinsertion-deletion)是一种在人群中相对罕见但在肿瘤基因组中较多存在的基因组结构变异。复杂indel表现为在某一基因上DNA片段发生了缺失变异,由于DNA分子的自我修复机制,随后在同一位点上插入了其他的DNA片段并且插入片段有可能发生倒置的一种复合变异。目前已发现的复杂indel的表现形式就有数十种。作为一种重要结构变异,复杂indel的检测是下游分析肿瘤易感性与表型相关性等研究的基础。扩大复杂indel检测范围不仅有助于确定复杂indel的基因型及其表型效应,而且也能够推动研究肿瘤复杂indel之间的关系,加快个性化医疗的步伐。检测复杂indel主要通过基因组测序数据。目前已有的复杂indel检测算法主要有三种,分别是INDELseek、Pindel-C和SV-Bay。本文档来自技高网...

【技术保护点】
1.一种基于滤波策略的高容错基因组复杂结构变异检测方法,其特征在于,包括以下步骤:/nS1、对SAM格式的输入文件进行预处理,遍历最优质量比对读段中的CIGAR字段;/nS2、根据比对后的CIGAR字段和变异分数计算准则,计算出各个位点在当前读段对应的变异分数,并将其预先保存在每个位点的变异分数集合中;/nS3、统计每个位点的变异分数集合中的平均数当作该位点最终的变异分数并得到此样本的变异分数函数;/nS4、对变异分数函数进行卡尔曼或高斯滤波,得到滤波降噪后的变异分数函数;/nS5、依照滤波后的变异分数函数,设定阈值并分离出结构变异区域,提取特征;/nS6、训练支持向量机SVM模型,再用训练好...

【技术特征摘要】
1.一种基于滤波策略的高容错基因组复杂结构变异检测方法,其特征在于,包括以下步骤:
S1、对SAM格式的输入文件进行预处理,遍历最优质量比对读段中的CIGAR字段;
S2、根据比对后的CIGAR字段和变异分数计算准则,计算出各个位点在当前读段对应的变异分数,并将其预先保存在每个位点的变异分数集合中;
S3、统计每个位点的变异分数集合中的平均数当作该位点最终的变异分数并得到此样本的变异分数函数;
S4、对变异分数函数进行卡尔曼或高斯滤波,得到滤波降噪后的变异分数函数;
S5、依照滤波后的变异分数函数,设定阈值并分离出结构变异区域,提取特征;
S6、训练支持向量机SVM模型,再用训练好的SVM模型对结构变异区域分类并得到复杂indel结果集。


2.根据权利要求1所述的基于滤波策略的高容错基因组复杂结构变异检测方法,其特征在于,步骤S2中,位点i的变异分数Si为:



其中,多次计算位点i的变异分数并分别记作{Si1,Si2,...,Sij},j表示位点i的测序覆盖度,k为窗口半径,位点i变异分数依赖于(i-k,i+k)范围的变异程度;Cj(i)为逻辑函数,表示在第j个读段中位点i在某个具体的比对结果中的变异情况,如果位点i发生了变异,则Cj(i)的值为1,反之为0。


3.根据权利要求1所述的基于滤波策略的高容错基因组复杂结构变异检测方法,其特征在于,步骤S3中,变异分数函数即计算出的所有位点的变异分数为离散函数,能够描述染色体位点对于参考序列的变异程度,值域为[0,1]。


4.根据权利要求1所述的基于滤波策略的高容错基因组复杂结构变异检测方法,其特征在于,步骤S4中,变异分数函数卡尔曼滤波过程如下:
S4011、通过位点i-1的最优预估值S′i-1确定位点i的变异分数预测值
S4012、根据上一次计算的误差方差Pi-1和预测过程噪声ω,预测当前位点i的误差方差
S4013、结合测量系统参数H和测量噪声ε,计算当前位点i的卡尔曼增益Ki;
S4014、结合当前位点i的测量值yi计算当前位点i的最优预估值S′i;
S4015、更新误差方差,并重复迭代以上步骤。


5.根据权利要求4所述的基于滤波策略的高容错基因组复杂结构变异检测方法,其特征在于,变异分数预测值如下:



误差方差



卡尔曼增益Ki:



最优预估值S′i:






其中,A,B是系统参数,U是系统控制量,Pi为误差方差,H为测量系统参数,I为单位矩阵,ε为测量噪声。


6.根据权利要求1所述的基于滤波策略的高容错基因组复杂结构变异检测方法,其特征在于,步骤S4中,变异分数函数高斯滤波过程如下:
S4021、取变异位点i,变异位点i坐标代...

【专利技术属性】
技术研发人员:张选平刘佳琦王嘉寅陈恒伟黄毅
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1