基于kendall相关系数的DNA序列相似性比对方法技术

技术编号：15501145 阅读：120 留言：0更新日期：2017-06-03 22:39

本发明专利技术公开基于kendall相关系数的DNA序列相似性比对方法，其包括如下步骤：1)获取N条待比对的DNA序列；2)选取长度k，按滑动窗口的方式获取每对组合DNA序列的相应的k词，并组合成相应的向量3)以步骤2)所获取的k词，计算每个k词在DNA序列中出现的次数即计算k词在DNA序列中出现的频率向量，将其记为x

DNA sequence similarity alignment method based on Kendall correlation coefficient

The invention discloses a DNA sequence Kendall correlation coefficient based on similarity matching method, which comprises the following steps: 1) to obtain N alignment of DNA sequences; 2) selected by sliding window length k, access to each combination of DNA sequences corresponding to K words, and combined into the corresponding vector in step 3) 2) k the K to calculate the number of each word appears in the DNA sequence in the calculation of the frequency vector of the K word appears in the DNA sequence, which is denoted as X

全部详细技术资料下载

【技术实现步骤摘要】
基于kendall相关系数的DNA序列相似性比对方法
本专利技术涉及计算机与生物信息学处理领域，尤其涉及基于kendall相关系数的DNA序列相似性比对方法。
技术介绍
生物信息学的中心任务,是从浩如烟海的DNA序列数据中提取理性知识。生物信息学家所面临的任务,不仅是解决高效的数据储存手段,而且需要开发有效的数据分析工具。因为只有利用新的、有效的数据分析工具,才能将DNA序列信息转换成生物学知识,并弄清它们所蕴含的结构和功能信息，进而彻底了解它们所代表的生物学意义。DNA序列比对的理论基础是进化理论，如果两个DNA序列之间具有足够的相似性，就推测二者可能有共同的进化祖先，经过DNA序列内残基的替换、残基或DNA序列片段的缺失以及DNA序列重组等遗传变异过程分别演化而来。DNA序列相似和DNA序列同源是不同的概念，DNA序列之间的相似程度是可以量化的参数，而DNA序列是否同源需要有进化事实的验证。DNA序列比对实际上就是运用某种特定的数学模型或算法，找出两个或多个DNA序列之间的最大匹配碱基数。黄玉娟、王天明等人采用DNA序列中的k词出现的频率及位置信息构建了一个概...
基于kendall相关系数的DNA序列相似性比对方法

【技术保护点】
基于kendall相关系数的DNA序列相似性比对方法，其特征在于：其包括如下步骤：1)获取N条待比对的DNA序列；2)选取长度k，按滑动窗口的方式获取每对组合DNA序列的相应的k词，并组合成相应的向量；3)以步骤2)所获取的k词，计算每个k词在DNA序列中出现的次数，即计算k词在DNA序列中出现的频率向量，将其记为x

【技术特征摘要】
1.基于kendall相关系数的DNA序列相似性比对方法，其特征在于：其包括如下步骤：1)获取N条待比对的DNA序列；2)选取长度k，按滑动窗口的方式获取每对组合DNA序列的相应的k词，并组合成相应的向量；3)以步骤2)所获取的k词，计算每个k词在DNA序列中出现的次数，即计算k词在DNA序列中出现的频率向量，将其记为xi；4)对N条DNA序列k词向量进行两两组合，即得到组合，每个组合向量记为X＝{xi},Y＝{yi}；5)每种组合的k词频率向量即xi，yi，计算其对应的kendall相关系数；6)建立N条DNA序列的N×N阶相关系数矩阵，以获取DNA序列的相似信息以及进化关系图。2.根据权利要求1所述基于kendall相关系数的DNA序列相似性比对方法，其特征在于：所述步骤2)中，对DNA序列取其长度为k的词频向量。3.根据权利要求1所述基于kendall相关系数的DNA序列相似性比对方法，其特征在于：所述步骤5)中，通过如下步骤获得DNA序列的k词的kendall相关系数：a)通过下式，获取待比对DNA序列A的k词，其中DNA序列A长度设为n：b...

【专利技术属性】
技术研发人员：林劼，林丽玉，江育娥，
申请(专利权)人：福建师范大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人