一种基于蛋白序列相似度的微生物群落功能基因分析方法技术

技术编号：21161732 阅读：125 留言：0更新日期：2019-05-22 08:29

本发明专利技术公开了一种基于蛋白序列相似度的微生物群落功能基因分析方法，包括如下步骤:序列除杂步骤；序列比对步骤；蛋白质序列处理步骤；蛋白质序列代表序列处理步骤；物种注释步骤。本发明专利技术的有益效果在于：分析数据相较OUT的方法更为精简：归并出的蛋白质分类单元更为集中。以氨基酸序列而非核酸序列为序列归并的依据：充分考虑到了简并性和终止密码子等等因素。针对特定功能基因目的片段时，有足够好的指向性：对目的片段以外的干扰序列可以有效剔除。

A Method of Microbial Community Functional Gene Analysis Based on Protein Sequence Similarity

The invention discloses a functional gene analysis method of microbial community based on protein sequence similarity, which comprises the following steps: sequence impurity removal step; sequence alignment step; protein sequence processing step; protein sequence representative sequence processing step; and species annotation step. The beneficial effect of the present invention is that the method of analyzing data is simpler than that of OUT, and the merged protein classification units are more concentrated. Taking amino acid sequence instead of nucleic acid sequence as the basis of sequence merging, the factors such as degeneracy and termination codon are fully taken into account. When targeting the target fragment of a specific functional gene, it has good directivity enough: interference sequences other than the target fragment can be effectively eliminated.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于蛋白序列相似度的微生物群落功能基因分析方法
本专利技术涉及微生物基因分析领域，具体涉及一种基于蛋白序列相似度的微生物群落功能基因分析方法。
技术介绍
微生物群落测序是指对微生物群体进行高通量测序，通过分析测序序列的构成分析特定环境中微生物群体的构成情况或基因的组成以及功能。借助不同环境下微生物群落的构成差异分析我们可以分析微生物与环境因素或宿主之间的关系，寻找标志性菌群或特定功能的基因。为了进一步的通过分析功能基因来分析微生物群落的一些特性。当前运用于微生物组功能基因扩增子测序研究的最常用方法，是基于序列归并和OTU(OperationalTaxonomicUnit，即可操作分类单元)划分的综合分析方法。该方法的原理是根据某一个人为设定的序列相似度阈值(最常见为97％，大致相当于分类学水平对不同的“种”[Species]进行的界定)，将来自一个或多个样本的序列进行归并，认定相似度高于该阈值的一组序列为一个OTU。但是，由于此类测序研究更侧重于基因功能的差异研究，因而直接在DNA核酸水平的解析可能并不足够，将功能基因序列翻译成氨基酸序列从而在蛋白水平进行研究是更优的选择，因此，需要引入基于OPU(OperationalProteinUnit)的数据分析方法。而现有的OTU分析方法具有如下缺陷：(1)包括但不限于由于测序区段选择偏长、序列中存在嵌合体(chimeras)、目的片段里存在终止密码子等现象导致的数据冗余，容易界定出没必要存在的底噪OTU；(2)片面强调在基因序列层面上的差异，忽略了蛋白质与功能层面上的同一性。例如密码子的简并性问题，在OTU...

【技术保护点】
1.一种基于蛋白序列相似度的微生物群落功能基因分析方法，包括如下步骤:序列除杂步骤：将现有的高质量序列使用mothur进行去冗余处理，得到一组不重复的碱基序列；序列比对步骤：查找或收集目的基因的seeds文件，使用RDPtools中的Framebot，将去重后的高质量序列同目的基因seeds文件进行比对，比对上的核酸序列会翻译成蛋白质序列；同时未比对上的序列则会剔除；蛋白质序列处理步骤：从上述得到的蛋白质序列里剔除含有终止密码子的序列，并以90％的相似度对上述得到的蛋白质序列进行聚类，得到相似度为90％的OPU聚类单元；蛋白质序列代表序列处理步骤：从每一个OPU中挑选一条作为该聚类单元全部蛋白质序列的代表序列，对这个代表序列数据集并进行对齐处理，随后构建系统发育树；物种注释步骤：将蛋白质代表序列数据集同NCBI在线比对(blastp)，得到对应的物种注释信息和蛋白质注释信息，再结合每个序列的reads，可以得到一个涵盖序列量和注释信息的综合性丰度表格。

【技术特征摘要】
1.一种基于蛋白序列相似度的微生物群落功能基因分析方法，包括如下步骤:序列除杂步骤：将现有的高质量序列使用mothur进行去冗余处理，得到一组不重复的碱基序列；序列比对步骤：查找或收集目的基因的seeds文件，使用RDPtools中的Framebot，将去重后的高质量序列同目的基因seeds文件进行比对，比对上的核酸序列会翻译成蛋白质序列；同时未比对上的序列则会剔除；蛋白质序列处理步骤：从上述得到的蛋白质序列里剔除含有终止密码子...

【专利技术属性】
技术研发人员：郭桐舟，薛正晟，孙子奎，
申请(专利权)人：上海派森诺生物科技股份有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人