一种基于宏基因组测序的致病真菌基因组survey分析方法技术

技术编号:38007017 阅读:7 留言:0更新日期:2023-06-30 10:24
本发明专利技术涉及宏基因组技术领域。一种基于宏基因组测序的致病真菌基因组survey分析方法,本发明专利技术为解决数据库中公布基因序列的真菌物种比较少,尤其致病真菌稀缺,使得真菌基因组数据缺乏参考序列,无法获得基因大小、GC含量、杂合度、重复序列等信息的问题,本发明专利技术利用软件对宏基因组测序得到的致病真菌基因组进行survey分析,实现真菌基因组原始数据的质控、kmer分析、初步组装、组装结果评估,对预估基因组大小、评估基因组杂合度及重复序列、评估测序质量(错误率)、检查样本纯度、区分物种或判断物种间亲缘关系远近进行确定,从而通过一键化的方法快速确定未知致病真菌的背景信息,指导后续快速、高效、准确的获得致病真菌基因组的完成图。的完成图。

【技术实现步骤摘要】
一种基于宏基因组测序的致病真菌基因组survey分析方法


[0001]本专利技术属于宏基因组
,本专利技术涉及一种基于宏基因组测序的致病真菌基因组survey分析方法

技术介绍

[0002]真菌在自然界的地球化学循环中起主要作用。某些真菌在发酵工业、食品加工业、抗生素生产中具有重要作用;而某些真菌又具有严重的破坏作用,有的真菌是许多重要经济作物的病原菌。了解真菌的基因组信息是利用改造真菌的第一步。据估计,全世界有真菌150万种,已被描述的约7万种。这个跟真菌的基因组复杂性密切相关。针对这个问题,我们开发了一套完整的评估真菌基因信息的流程。利用suvery的结果,指导科研工作者如何高效、经济、准确的获得真菌基因组的完成图。
[0003]该软件采用perl语言为框架,结合NT数据库和kmerfreq、jellyfish、spades、quast等多款软件。实现真菌基因组的原始数据的质控、kmer分析、初步组装、组装结果评估的完整survey流程。

技术实现思路

[0004]1.一种基于宏基因组测序的致病真菌基因组survey分析方法,具体包括以下步骤:S1:将通过高通量测序得到的基因序列fastq格式文件1和fastq格式文件2,作为输入文件;S2:过滤低质量序列的数据过滤模块;S3: 输入文件在Linux系统下以Perl语言代码,结合NT数据库和kmerfreq、jellyfish、spades、quast等多款软件操作运行。
[0005]过滤低质量序列的数据过滤模块负责对输入的高通量测序数据进行质控,去除低质量数据,保证进入后续分析流程的数据质量可靠,具体过程为:S1:过滤reads尾部质量值20以下的碱基;设置50bp的窗口,从头部开始移动窗口,如果窗口内的平均质量值低于50,则从窗口处截去后端碱基;S2:去除包含N碱基数目>2的reads;S3:去除含有adaptor接头污染的reads;S4:去除50bp以下的reads。
[0006] 数据比对NT库,具体过程为:S1:利用Perl语言代码脚本reformat.sh抽取部分cleandata序列;S2:利用blastn 软件将S1中抽取的序列和NT数据库进行比对。
[0007] K

mer的分析方法,具体过程为:S1:从一段连续序列中迭代地选取长度为K个碱基的序列,若read长度为L,K

mer长度为K,那么可以得到L

K+1个K

mer;S2:根据S1中方法,选取K为17进行分析,利用kmerfreq软件,通过jellyfish统计k

mer,绘制k

mer分布图;S3:利用GenomeScope软件优化S2中的k

mer结果,获得基因组大小、基因组杂合度、基因组重复序列比例等信息。
[0008] 二代数据组装和统计,具体过程为:S1:利用spades软件拼接测序数据;S2:利用quast 软件对组装结果进行评估统计。
[0009]二代数据结果组装评估,具体过程为:S1:将原始序列利用bwa软件比对到组装的基因组,计算基因组覆盖度;S2:利用Perl语言代码脚本depth_base_stat.py 将覆盖度和
基因组GC含量转换成GC含量及丰度的矩阵。S3:利用getopt、ggplot2、grid等R语言软件包将S2中的矩阵绘制成GC

depth图。
[0010]确定真菌物种,具体过程为:利用blastn软件将将权力要求5中的S1比对到NT数据库,确定待测致病菌物种信息。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于宏基因组测序的致病真菌基因组survey分析方法,其特征在于,具体包括以下步骤:S1:将通过高通量测序得到的基因序列fastq格式文件1和fastq格式文件2,作为输入文件;S2:过滤低质量序列的数据过滤模块;S3: 输入文件在Linux系统下以Perl语言代码,结合NT数据库和kmerfreq、jellyfish、spades、quast等多款软件操作运行。2.根据权利要求1中所述的一种基于宏基因组测序的致病真菌基因组survey分析方法,其特征在于:所述S2中过滤低质量序列的数据过滤模块负责对输入的高通量测序数据进行质控,去除低质量数据,保证进入后续分析流程的数据质量可靠,具体过程为:S1:过滤reads尾部质量值20以下的碱基;设置50bp的窗口,从头部开始移动窗口,如果窗口内的平均质量值低于50,则从窗口处截去后端碱基;S2:去除包含N碱基数目>2的reads;S3:去除含有adaptor接头污染的reads;S4:去除50bp以下的reads。3.根据权利要求1中所述的一种基于宏基因组测序的致病真菌基因组survey分析方法,其特征在于:所述S3中输入文件在Linux系统下以Perl语言代码,结合NT数据库和kmerfreq、jellyfish、spades、quast等多款软件操作运行,数据比对NT库,具体过程为:S1:利用Perl语言代码脚本reformat.sh抽取部分cleandata序列;S2:利用blastn 软件将S1中抽取的序列和NT数据库进行比对。4.根据权利要求1中所述的一种基于宏基因组测序的致病真菌基因组survey分析方法,其特征在于:所述S3中输入文件在Linux系统下以Perl语言代码,结合NT数据库和kmerfreq、jellyfish、spades、quast等多款软件操作运行,K

mer的分析方法,具体过程为:S1:从一段连续序列中迭代地选取长度为K个碱基的序列,若read长度为L,K

mer长度为K,那么可以得到L<...

【专利技术属性】
技术研发人员:何灵江雷鸣王梦琪
申请(专利权)人:苏州元华生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1