当前位置: 首页 > 专利查询>复旦大学专利>正文

基于宏基因组拼接错误的检测校正系统技术方案

技术编号:32575989 阅读:18 留言:0更新日期:2022-03-09 17:05
本发明专利技术公开了基于宏基因组拼接错误的检测校正系统,涉及基因组测序拼接技术领域,解决了由于高通量测序数据的通量高,序列短,噪声大的特点,这就导致基因组的组装结果通常会引入组装错误,而组装错误也给下游分析带来影响的问题,通过利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig,利用提取的短窗口水平的相关特征建立的窗口特征矩阵在基于无监督的预测方法下得到组装错误所在的具体位点;在预测到的组装错误所在具体位点处进行contig打断,从而进行校正,便能够检测出宏基因组组装的重叠群中的组装错误并进行校正,从而降低组装过程中引入的错误,提高组装结果的准确性。提高组装结果的准确性。提高组装结果的准确性。

【技术实现步骤摘要】
基于宏基因组拼接错误的检测校正系统


[0001]本专利技术属于基因组测序拼接
,具体是基于宏基因组拼接错误的检测校正系统。

技术介绍

[0002]基于下一代测序的基因组测序拼接算法能够帮助了解环境样本中的微生物组成,由于高通量测序数据的通量高,序列短,噪声大的特点,以及宏基因组样本中通常包含数千物种的DNA片段,这就导致基因组的组装结果通常会引入组装错误,而组装错误也会给下游分析带来影响。
[0003]因此为了提高组装基因组的质量以及改善下游分析结果,故需要一种能够不基于参考基因组的宏基因组组装错误检测及校正系统,能够检测出宏基因组组装的重叠群中的组装错误并进行校正,从而降低组装过程中引入的错误,提高组装结果的准确性。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出基于宏基因组拼接错误的检测校正系统,该基于宏基因组拼接错误的检测校正系统解决了由于高通量测序数据的通量高,序列短,噪声大的特点,以及宏基因组样本中通常包含数千物种的DNA片段,这就导致基因组的组装结果通常会引入组装错误,而组装错误也会给下游分析带来影响的问题。
[0005]为实现上述目的,根据本专利技术的第一方面的实施例提出基于宏基因组拼接错误的检测校正系统,包括:
[0006]数据存储模块用于对初始bam文件以及初始fasta文件内部的测序数据序列进行整理,并生成比对结果bam文件;
[0007]特征提取模块用于对比对结果bam文件中提取并处理相关特征,其中样本特征主要包括四类:1、基于覆盖率的特征;2、基于双端短读段比对一致性的特征;3、基于k

mer一致性的特征;4、基于单碱基变异的特征;
[0008]数据预处理模块提取满足条件的比对结果bam文件并且对比对结果bam文件内部的数据进行整理,将整理后的数据输送至模型训练模块内;
[0009]模型训练模块根据整理好的数据集训练机器学习模型;
[0010]组装错误contig检测模块对存在组装错误的contig进行识别,其中contig存在于比对结果bam文件中;
[0011]组装错误位点识别模块,对拼接错误的contig上的组装错误位点进行识别;
[0012]组装错误校正模块对识别到的组装错误进行组装校正,生成contig特征矩阵。
[0013]优选的,模型训练模块内集训方式采用的是随机森林模型。
[0014]优选的,数据存储模块内部包括数据筛选单元和bwa比对单元;
[0015]数据存储模块对测序数据序列进行整理的步骤为:首先对输入包含contigs的
fasta文件通过数据筛选单元进行过滤筛选,筛选出大于1000bp的contig文件用于后续的分析;将组装成大于1000bp的contig文件中所用到的双端短读段序列及read文件输入至bwa比对单元进行比对,bwa比对单元会生成比对结果,并且过滤掉低质量比对结果,最终得到比对结果bam文件。
[0016]优选的,特征提取模块对基于覆盖率的特征处理方式为:通过双端短读段映射到contig上的覆盖率的均匀程度来衡量组装质量,同时通过双端短读段映射后得到的覆盖率的变异度,生成contig对应的组装质量的标签。
[0017]优选的,特征提取模块对基于双端短读段比对一致性的特征的处理方式为:双端短读段映射到contig上后,基于双端短读段之间的距离远近,方向是否一致性,以及比对上的短读段是否能够或者仅部分能够比对上划分为不同类型的短读段,然后将这些不同类型短读段平均每个contig或者每个窗口的比例做为特征,生成短窗口水平的相关特征和contig水平的相关特征,通过短窗口水平的相关特征建立窗口特征矩阵。
[0018]优选的,特征提取模块对基于k

mer一致性的特征的处理方式为:衡量映射到contig上的短读段中的k

mer的丰度与对应的contig上的k

mer的丰度是否一致,计算KAD值,计算方式为:通过所计算的KAD值对特征进行提取。
[0019]优选的,特征提取模块对基于单碱基变异的特征的处理通过衡量contig上每一个碱基位点与映射到该位点上的短读段中的碱基的是否一致,一致,则进行提取。
[0020]优选的,基于宏基因组拼接错误的检测校正系统,其检测校正步骤为:
[0021]S1、通过特征提取模块从比对结果bam文件中提取相关的特征;
[0022]S2、检测是否为训练模块;
[0023]S21、若是训练模块,则利用样本特征矩阵以及contig对应的组装质量的标签训练随机森林模型;
[0024]S22、若不是训练模块;
[0025]S221、若输入数据为宏基因组数据;
[0026]S2211、利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig;
[0027]S2212、利用提取的短窗口水平的相关特征建立的窗口特征矩阵,通过组装错误位点识别模块进行识别得到组装错误所在的具体位点,并生成错误位点报告文件;
[0028]S2213、在预测到的组装错误所在具体位点处通过组装错误位点校正模块进行contig打断,从而进行校正,生成校正后的contig文件;
[0029]S222、若输入的数据不是宏基因组数据,那么则只执行S2212以及S22133步骤,而不需要执行S2211步骤;
[0030]S3、将校正后的contig文件以及错误位点报告文件进行输出。
[0031]与现有技术相比,本专利技术的有益效果是:通过利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig,利用提取的短窗口水平的相关特征建立的窗口特征矩阵在基于无监督的预测方法下得到组装错误所在的具体位点;在预测到的组装错误所在具体位点处进行contig打断,从而进行校正,便能够检测出宏基因组组装的重叠群中的组装错误并进行校正,从而降低组装过程中引入的错误,提高组装结果的准
确性。
附图说明
[0032]图1为本专利技术的原理图;
[0033]图2为本专利技术的流程图
[0034]图3为本专利技术的几种不同类型的短读段示意图。
具体实施方式
[0035]下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0036]如图1所示,基于宏基因组拼接错误的检测校正系统,包括数据存储模块、数据预处理模块、模型训练模块、组织错误contig检测模块、组织错误位点识别模块以及组织错误校正模块和特征提取模块;
[0037]数据存储模块用于对初始bam文件以及初始fasta文件内部的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于宏基因组拼接错误的检测校正系统,其特征在于,包括:数据存储模块,用于对初始bam文件以及初始fasta文件内部的测序数据序列进行整理,并生成比对结果bam文件;特征提取模块,用于对比对结果bam文件中提取并处理相关样本特征,其中样本特征包括基于覆盖率的特征、基于双端短读段比对一致性的特征、基于k

mer一致性的特征和基于单碱基变异的特征,得到满足条件的比对结果bam文件;数据预处理模块,提取满足条件的比对结果bam文件并且对比对结果bam文件内部的数据进行整理,将整理后的数据输送至模型训练模块内;模型训练模块,根据整理好的数据集训练机器学习模型,生成存在拼接错误的contig;组装错误contig检测模块,对存在拼接错误的contig进行识别,其中contig存在于比对结果bam文件中;组装错误位点识别模块,对拼接错误的contig上的组装错误位点进行识别;组装错误校正模块,对识别到的组装错误进行组装校正,生成contig特征矩阵。2.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统,其特征在于,模型训练模块内所采用的机器学习模型为随机森林模型,其中整理好的数据为训练数据。3.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统,其特征在于,数据存储模块内部包括数据筛选单元和bwa比对单元;数据存储模块对测序数据序列进行整理的步骤为:对输入包含contigs的fasta文件通过数据筛选单元进行过滤筛选,筛选出大于1000bp的contig文件用于后续的分析;将组装成大于1000bp的contig文件中所用到的双端短读段序列及read文件输入至bwa比对单元进行比对,bwa比对单元生成比对结果,并且过滤掉低质量比对结果,低质量比对结果为比对值低于10的比对结果,最终得到比对结果bam文件。4.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统,其特征在于,特征提取模块对基于覆盖率的特征处理方式为:通过双端短读段映射到contig上的覆盖率的均匀程度来衡量组装质量,同时通过双端短读段映射后得到的覆盖率的变异度,生成contig对应的组装质量的标签。5.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统,其特征在于,特征提...

【专利技术属性】
技术研发人员:赵兴明赖森莹
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1