基于序列依赖频率矩阵的生物序列进化信息提取方法技术

技术编号：14874474 阅读：117 留言：0更新日期：2017-03-23 22:07

本发明专利技术提供了一种基于序列依赖频率矩阵的生物序列进化信息提取方法，其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取，所述SDFM采用以下步骤获得：对于任意的生物序列，首先利用序列比对工具搜索对应的生物序列数据库，生成对应的多序列比对MSA；然后统计在多序列比对MSA中每个位点生物序列子串出现的频率，得到如式（1）所示的序列依赖频率矩阵SDFM。本发明专利技术的技术方案考虑到了生物序列中相邻位点的依赖关系，能够从多序列比对中提取出更多、更准确的功能、结构等生物序列进化特征，使得统计的概率分布信息包含了序列位点依赖关系信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于生物信息学
，尤其涉及一种基于序列依赖频率矩阵的生物序列进化信息提取方法及其应用。
技术介绍
如何从生物序列中提取更多的进化信息是生物信息学领域中最重要的基础任务之一。基于多序列比对提取出来的表示生物序列的位置特异性打分矩阵PSSM(PositionSpecificScoringMatrix，位点特异性打分矩阵)是目前常用的一种生物序列进化信息提取技术。多序列比对通过插入空位的方法将两条以上的生物序列对齐。然后PSSM统计多序列比对中不同位置出现的核苷酸(DNA、RNA)或氨基酸(Protein)出现的频率。根据统计的不同位置的概率分布情况发现与序列进化相关的保守区域，从而发现不同序列之间的相似部分和探索导致它们产生共同功能的序列模式，来推断它们在结构和功能上的相似性。从多序列比对中提取位置特异性打分矩阵PSSM是在序列位点相互独立的假设前提下，基于核苷酸或氨基酸在每一列上出现的频率来计算矩阵中相应位置的打分。然而依据生物序列相邻位点进行独立性检验的结果得知相邻位点的具有相关性的。PSSM没有考虑到生物序列中不同位置的依懒关系，损失了多序列比对中大量的生物进化信息。随着已知序列与已知结构和功能的生物分子数目之间的差距越来越大,需要更高效且准确的方法来解决生物序列比对的问题，需要从生物序列上提取更多的生物进化信息。现有的方法从生物序列上提取的信息量不够，没有包含生物序列位点的依赖关系信息，影响了比对的有效性和准确性。
技术实现思路
针对以上技术问题，本专利技术公开了一种基于序列依赖频率矩阵的生物序列进化信息提取方法及其应用，考虑到了生物序列...

【技术保护点】
一种基于序列依赖频率矩阵的生物序列进化信息提取方法，其特征在于：其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取，所述SDFM采用以下步骤获得：步骤S1：对于任意的生物序列，首先利用序列比对工具搜索对应的生物序列数据库，生成对应的多序列比对MSA；步骤S2：统计在多序列比对MSA中每个位点生物序列子串出现的频率，得到该生物序列的序列依赖频率矩阵SDFM，所述SDFM为如式(1)所示的Sk×(L‑k+1)维的矩阵：M=m1,1m1,2...m1,L-k+1m2,1m2,2...m2,L-k+1............mSk,1mSk,2...mSk,L-k+1---(1)]]>其中，S是生物序列字母表的大小，k表示生物序列子串的长度，Sk表示长度为k的生物序列子串种类的数量；L表示生物序列的长度，mi，j代表第i个生物序列子串在多序列比对MSA的第j列上出现的打分，mi，j的计算公式如下：mij=nij+bijNj+Bj---(2)]]>其中，ni，j是多序列比对MSA中第i个生物序列子串在第j列上出现的频率，Nj是多序列比对MSA中第j列上所有生物序列子串出现的总频率，bi，j是...

【技术特征摘要】
1.一种基于序列依赖频率矩阵的生物序列进化信息提取方法，其特征在于：其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取，所述SDFM采用以下步骤获得：步骤S1：对于任意的生物序列，首先利用序列比对工具搜索对应的生物序列数据库，生成对应的多序列比对MSA；步骤S2：统计在多序列比对MSA中每个位点生物序列子串出现的频率，得到该生物序列的序列依赖频率矩阵SDFM，所述SDFM为如式(1)所示的Sk×(L-k+1)维的矩阵：M=m1,1m1,2...m1,L-k+1m2,1m2,2...m2,L-k+1............mSk,1mSk,2...mSk,L-k+1---(1)]]>其中，S是生物序列字母表的大小，k表示生物序列子串的长度，Sk表示长度为k的生物序列子串种类的数量；L表示生物序列的长度，mi，j代表第i个生物序列子串在多序列比对MSA的第j列上出现的打分，mi，j的计算公式如下：mij=nij+bijNj+Bj---(2)]]>其中，ni，j是多序列比对MSA中第i个生物序列子串在第j列上出现的频率，Nj是多序列比对MSA中第j列上所有生物序列子串出现的总频率，bi，j是生物序列子串的背景概率，Bj为第j列上所有bi,j的总和。2...

【专利技术属性】
技术研发人员：刘滨，陈俊杰，郭明月，
申请(专利权)人：哈尔滨工业大学深圳研究生院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人