当前位置: 首页 > 专利查询>复旦大学专利>正文

基于宏基因组拼接错误的检测校正系统技术方案

技术编号:32575989 阅读:25 留言:0更新日期:2022-03-09 17:05
本发明专利技术公开了基于宏基因组拼接错误的检测校正系统,涉及基因组测序拼接技术领域,解决了由于高通量测序数据的通量高,序列短,噪声大的特点,这就导致基因组的组装结果通常会引入组装错误,而组装错误也给下游分析带来影响的问题,通过利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig,利用提取的短窗口水平的相关特征建立的窗口特征矩阵在基于无监督的预测方法下得到组装错误所在的具体位点;在预测到的组装错误所在具体位点处进行contig打断,从而进行校正,便能够检测出宏基因组组装的重叠群中的组装错误并进行校正,从而降低组装过程中引入的错误,提高组装结果的准确性。提高组装结果的准确性。提高组装结果的准确性。

【技术实现步骤摘要】
基于宏基因组拼接错误的检测校正系统


[0001]本专利技术属于基因组测序拼接
,具体是基于宏基因组拼接错误的检测校正系统。

技术介绍

[0002]基于下一代测序的基因组测序拼接算法能够帮助了解环境样本中的微生物组成,由于高通量测序数据的通量高,序列短,噪声大的特点,以及宏基因组样本中通常包含数千物种的DNA片段,这就导致基因组的组装结果通常会引入组装错误,而组装错误也会给下游分析带来影响。
[0003]因此为了提高组装基因组的质量以及改善下游分析结果,故需要一种能够不基于参考基因组的宏基因组组装错误检测及校正系统,能够检测出宏基因组组装的重叠群中的组装错误并进行校正,从而降低组装过程中引入的错误,提高组装结果的准确性。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出基于宏基因组拼接错误的检测校正系统,该基于宏基因组拼接错误的检测校正系统解决了由于高通量测序数据的通量高,序列短,噪声大的特点,以及宏基因组样本中通常包含数千物种的DNA片段,这就导致基因组的组装结果通本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于宏基因组拼接错误的检测校正系统,其特征在于,包括:数据存储模块,用于对初始bam文件以及初始fasta文件内部的测序数据序列进行整理,并生成比对结果bam文件;特征提取模块,用于对比对结果bam文件中提取并处理相关样本特征,其中样本特征包括基于覆盖率的特征、基于双端短读段比对一致性的特征、基于k

mer一致性的特征和基于单碱基变异的特征,得到满足条件的比对结果bam文件;数据预处理模块,提取满足条件的比对结果bam文件并且对比对结果bam文件内部的数据进行整理,将整理后的数据输送至模型训练模块内;模型训练模块,根据整理好的数据集训练机器学习模型,生成存在拼接错误的contig;组装错误contig检测模块,对存在拼接错误的contig进行识别,其中contig存在于比对结果bam文件中;组装错误位点识别模块,对拼接错误的contig上的组装错误位点进行识别;组装错误校正模块,对识别到的组装错误进行组装校正,生成contig特征矩阵。2.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统,其特征在于,模型训练模块内所采用的机器学习模型为随机森林模型,其中整理好的数据为训练数据。3.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统,其特征在于,数据存储模块内部包括数据筛选单元和bwa比对单元;数据存储模块对测序数据序列进行整理的步骤为:对输入包含contigs的fasta文件通过数据筛选单元进行过滤筛选,筛选出大于1000bp的contig文件用于后续的分析;将组装成大于1000bp的contig文件中所用到的双端短读段序列及read文件输入至bwa比对单元进行比对,bwa比对单元生成比对结果,并且过滤掉低质量比对结果,低质量比对结果为比对值低于10的比对结果,最终得到比对结果bam文件。4.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统,其特征在于,特征提取模块对基于覆盖率的特征处理方式为:通过双端短读段映射到contig上的覆盖率的均匀程度来衡量组装质量,同时通过双端短读段映射后得到的覆盖率的变异度,生成contig对应的组装质量的标签。5.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统,其特征在于,特征提...

【专利技术属性】
技术研发人员:赵兴明赖森莹
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1