The invention discloses a DNA sequence Kendall correlation coefficient based on similarity matching method, which comprises the following steps: 1) to obtain N alignment of DNA sequences; 2) selected by sliding window length k, access to each combination of DNA sequences corresponding to K words, and combined into the corresponding vector in step 3) 2) k the K to calculate the number of each word appears in the DNA sequence in the calculation of the frequency vector of the K word appears in the DNA sequence, which is denoted as X
【技术实现步骤摘要】
基于kendall相关系数的DNA序列相似性比对方法
本专利技术涉及计算机与生物信息学处理领域,尤其涉及基于kendall相关系数的DNA序列相似性比对方法。
技术介绍
生物信息学的中心任务,是从浩如烟海的DNA序列数据中提取理性知识。生物信息学家所面临的任务,不仅是解决高效的数据储存手段,而且需要开发有效的数据分析工具。因为只有利用新的、有效的数据分析工具,才能将DNA序列信息转换成生物学知识,并弄清它们所蕴含的结构和功能信息,进而彻底了解它们所代表的生物学意义。DNA序列比对的理论基础是进化理论,如果两个DNA序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过DNA序列内残基的替换、残基或DNA序列片段的缺失以及DNA序列重组等遗传变异过程分别演化而来。DNA序列相似和DNA序列同源是不同的概念,DNA序列之间的相似程度是可以量化的参数,而DNA序列是否同源需要有进化事实的验证。DNA序列比对实际上就是运用某种特定的数学模型或算法,找出两个或多个DNA序列之间的最大匹配碱基数。黄玉娟、王天明等人采用DNA序列中的k词出现的频率及位置信息构建了一个概 ...
【技术保护点】
基于kendall相关系数的DNA序列相似性比对方法,其特征在于:其包括如下步骤:1)获取N条待比对的DNA序列;2)选取长度k,按滑动窗口的方式获取每对组合DNA序列的相应的k词,并组合成相应的向量;3)以步骤2)所获取的k词,计算每个k词在DNA序列中出现的次数,即计算k词在DNA序列中出现的频率向量,将其记为x
【技术特征摘要】
1.基于kendall相关系数的DNA序列相似性比对方法,其特征在于:其包括如下步骤:1)获取N条待比对的DNA序列;2)选取长度k,按滑动窗口的方式获取每对组合DNA序列的相应的k词,并组合成相应的向量;3)以步骤2)所获取的k词,计算每个k词在DNA序列中出现的次数,即计算k词在DNA序列中出现的频率向量,将其记为xi;4)对N条DNA序列k词向量进行两两组合,即得到组合,每个组合向量记为X={xi},Y={yi};5)每种组合的k词频率向量即xi,yi,计算其对应的kendall相关系数;6)建立N条DNA序列的N×N阶相关系数矩阵,以获取DNA序列的相似信息以及进化关系图。2.根据权利要求1所述基于kendall相关系数的DNA序列相似性比对方法,其特征在于:所述步骤2)中,对DNA序列取其长度为k的词频向量。3.根据权利要求1所述基于kendall相关系数的DNA序列相似性比对方法,其特征在于:所述步骤5)中,通过如下步骤获得DNA序列的k词的kendall相关系数:a)通过下式,获取待比对DNA序列A的k词,其中DNA序列A长度设为n:b...
【专利技术属性】
技术研发人员:林劼,林丽玉,江育娥,
申请(专利权)人:福建师范大学,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。