【技术实现步骤摘要】
一种基于宏基因组测序的致病真菌基因组survey分析方法
[0001]本专利技术属于宏基因组
,本专利技术涉及一种基于宏基因组测序的致病真菌基因组survey分析方法
技术介绍
[0002]真菌在自然界的地球化学循环中起主要作用。某些真菌在发酵工业、食品加工业、抗生素生产中具有重要作用;而某些真菌又具有严重的破坏作用,有的真菌是许多重要经济作物的病原菌。了解真菌的基因组信息是利用改造真菌的第一步。据估计,全世界有真菌150万种,已被描述的约7万种。这个跟真菌的基因组复杂性密切相关。针对这个问题,我们开发了一套完整的评估真菌基因信息的流程。利用suvery的结果,指导科研工作者如何高效、经济、准确的获得真菌基因组的完成图。
[0003]该软件采用perl语言为框架,结合NT数据库和kmerfreq、jellyfish、spades、quast等多款软件。实现真菌基因组的原始数据的质控、kmer分析、初步组装、组装结果评估的完整survey流程。
技术实现思路
[0004]1.一种基于宏基因组测序的致病真菌基因组survey分析方法,具体包括以下步骤:S1:将通过高通量测序得到的基因序列fastq格式文件1和fastq格式文件2,作为输入文件;S2:过滤低质量序列的数据过滤模块;S3: 输入文件在Linux系统下以Perl语言代码,结合NT数据库和kmerfreq、jellyfish、spades、quast等多款软件操作运行。
[0005]过滤低质量序列的数据过滤模块负责对输入的高 ...
【技术保护点】
【技术特征摘要】
1.一种基于宏基因组测序的致病真菌基因组survey分析方法,其特征在于,具体包括以下步骤:S1:将通过高通量测序得到的基因序列fastq格式文件1和fastq格式文件2,作为输入文件;S2:过滤低质量序列的数据过滤模块;S3: 输入文件在Linux系统下以Perl语言代码,结合NT数据库和kmerfreq、jellyfish、spades、quast等多款软件操作运行。2.根据权利要求1中所述的一种基于宏基因组测序的致病真菌基因组survey分析方法,其特征在于:所述S2中过滤低质量序列的数据过滤模块负责对输入的高通量测序数据进行质控,去除低质量数据,保证进入后续分析流程的数据质量可靠,具体过程为:S1:过滤reads尾部质量值20以下的碱基;设置50bp的窗口,从头部开始移动窗口,如果窗口内的平均质量值低于50,则从窗口处截去后端碱基;S2:去除包含N碱基数目>2的reads;S3:去除含有adaptor接头污染的reads;S4:去除50bp以下的reads。3.根据权利要求1中所述的一种基于宏基因组测序的致病真菌基因组survey分析方法,其特征在于:所述S3中输入文件在Linux系统下以Perl语言代码,结合NT数据库和kmerfreq、jellyfish、spades、quast等多款软件操作运行,数据比对NT库,具体过程为:S1:利用Perl语言代码脚本reformat.sh抽取部分cleandata序列;S2:利用blastn 软件将S1中抽取的序列和NT数据库进行比对。4.根据权利要求1中所述的一种基于宏基因组测序的致病真菌基因组survey分析方法,其特征在于:所述S3中输入文件在Linux系统下以Perl语言代码,结合NT数据库和kmerfreq、jellyfish、spades、quast等多款软件操作运行,K
‑
mer的分析方法,具体过程为:S1:从一段连续序列中迭代地选取长度为K个碱基的序列,若read长度为L,K
‑
mer长度为K,那么可以得到L<...
【专利技术属性】
技术研发人员:何灵江,雷鸣,王梦琪,
申请(专利权)人:苏州元华生物科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。