当前位置: 首页 > 专利查询>西北大学专利>正文

一种基于谱系聚类的古生物谱系演化分析方法技术

技术编号:20330329 阅读:40 留言:0更新日期:2019-02-13 06:29
本发明专利技术公开了一种基于简约聚类的古生物谱系演化分析方法,为了融入更多演化分析的先验知识以及更加合理地处理演化分析中的不适用特征状态,简约聚类(Parsimonious Clustering,ParsiCluster)包括谱系树的构建和简约树的搜索,通过融合不对称二元关系和特征空间的层次结构,提出了谱系聚类的方法推断物种之间的演化关系,进而构建谱系树;在简约原则的基础上采用一种启发式优化算法—模拟退火算法进行简约树的选择。本发明专利技术相较于最大简约法等传统谱系分析方法能够解决不适用特征状态的造成的数据的不确定性问题,提高了古生物谱系分析的准确率和稳定性。

【技术实现步骤摘要】
一种基于谱系聚类的古生物谱系演化分析方法
本专利技术属于生物信息学
,涉及一种构建古生物谱系树的方法。
技术介绍
古生物谱系树的构建是生物信息学重要的组成部分,也是探索生命进化史的主要途径。层次化谱系树细致地展现了物种的演化过程,揭示了物种之间的进化关系和量化差异。早期古生物的谱系分析对生命的起源追溯有着重要的科学意义。谱系分析的目的是找到最简约的谱系树,也就是简约树。目前,常用于古生物的谱系分析的方法可以分为两大类:1)基于最优原则的方法,包括贝叶斯系统发生推论法(BayesianInference,BI)、最大似然法(MaximumLikelihood,ML)和最大简约法(MaximumParsimony,MP)等;2)基于距离的方法,包括邻接法(NeighborJoining,NJ)等。然而,传统的方法没有考虑到古生物形态学数据矩阵中含有不适用特征状态。由于谱系分析中使用的物种的形态学特征可能在逻辑上依赖的,特征之间存在着包含关系。在古生物学领域中,生物形态的一些复杂特征可以分解为次要特征。这些可分解的复杂特征称为上层特征,由复杂特征分解的次要特征称为下层特征。上层特征和下层特征之间存在包含关系。下层特征仅适用于具有上层特征的物种,没有上层特征的物种在下层特征上被编码为不适用特征状态。特征之间的包含关系导致了不适用特征状态的出现。目前也已经提出了一些方法来处理演化分析中的不适用数据。这些方法主要有两种,一种是将不适用特征状态视为缺失数据(MissingDataReplacement,MDR)。但这种方式将会隐含地对具有该特征的物种加权。不适用特征状态与缺失数据是有本质区别的,即:缺失数据是可能存在的,不适用特征状态是不可能存在。另外一种方式是将不适用特征状态视为一种“自然”特征状态(SeparateValueReplacement,SVR)。但是这种方法违背该特征上的同源性假设,也会隐含地对不具有该特征的物种加权,而且这种方法仅仅可以在最大简约法中应用。
技术实现思路
本专利技术的目的是提供一种准确率高、稳定性好的基于谱系聚类的古生物谱系演化分析方法。一种基于谱系聚类的古生物谱系演化分析方法,包括以下步骤:步骤一:建立古生物的特征层次关系模型,并指定特征的演变序列,根据特征演变序列的极向将物种的形态学数据矩阵中的每一维特征状态分为衍征和祖征;步骤二:根据物种的衍征状态的数目计算物种之间的共近裔指数,选择具有最大近裔指数的物种对生成内节点,计算所述的内节点的特征向量并计算该内节点进化后的谱系树与树长;步骤三:将内节点的特征向量并加入形态学数据矩阵内,并删除该数据矩阵内中所述的内节点的直接后裔的特征向量,当特征层次模型中只有一个物种,则输出谱系树及其树长,若并非只剩一个物种则转到步骤二;步骤四:采用模拟退火算法搜索谱系树,得到简约树。进一步地,步骤一所述的特征演变序列的极向的确定方法包括:假设物种的形态学数据矩阵为:D{X1,...,Xi,...,Xj,...,Xn},其中Xi表示第i个物种;物种Xi的第p个形态学特征的状态表示为xip,用于构建谱系树的特征数目记为m;则物种Xi的特征向量是Xi(xi1,...,xiq,...,xip,...,xim);记第p个特征的上层特征是第q个特征;通过二进制编码将物种形态学特征的多态转换序列转换为二态转换序列,包括有序的特征多态转换序列和无序的特征多态转换序列,从而确定每一维特征的极向。进一步地,步骤一所述的将物种的形态学数据矩阵中的每一维特征状态分为衍征和祖征,包括:令sp是第p个特征的祖征状态,因此,祖先推断S(s0,s1,...,sp,...,sm-1,sm)标记每个特征的祖征状态的一个特征状态集合;以祖先推断为参考,对于物种的形态学数据矩阵中的每一维特征而言,该特征的状态中与祖先推断中标记的该特征的祖征状态相同的特征状态为祖征;否则,剩下的字符状态就是衍征状态。进一步地,步骤二所述的根据物种衍征状态的数目计算物种之间的共近裔指数的方法为:共近裔指数d(Xi,Xj)的计算公式如下所示:上式中,xip表示第i个物种的第p个特征,xjp表示第j个物种的第p个特征,sp是第p个特征的祖征状态,并且上式中的xip与xjp不属于不可适用特征;计算每对物种之间的共近裔指数得到共近裔指数矩阵Md,共近裔指数矩阵的计算公式如下所示:进一步地,步骤二所述的选择具有最大近裔指数的物种对生成内节点,包括:当共近裔指数矩阵Md中最大的共近裔指数是唯一的,则选择具有该最大共近裔指数的物种对生成一个内节点;否则,随机选择某个具有最大共近裔指数的物种对一个生成一个内节点。进一步地,步骤二所述的计算所述的内节点的特征向量并计算该内节点进化后的谱系树与树长,包括:假设d(Xi,Xj)是共近裔指数矩阵Md中的最大值。因此,选择Xi和Xj生成一个内节点Xk,它是Xi和Xj的假设祖先,是一个虚拟物种。根据物种Xi和Xj的特征向量,计算出内节点Xk的特征向量。对于Xk特征向量中的特征xkp,根据物种Xi和Xj在第p个特征上的特征状态和第p个特征的祖征状态推断出物种Xk在第p个特征上的特征状态,xkq是物种Xk第q个特征上的特征状态;如果在物种Xi和Xj在第p个特征上的特征状态中不出现不适用特征状态,则根据物种Xi和Xj在第p个特征上的特征状态xip和xjp,以及第p个特征的祖征状态sp推断出物种Xk在第p个特征上的特征状态。如果在物种Xi和Xj在第p个特征上的特征状态中出现不适用特征状态时,那么xkp的取值由Xk的第q个特征的状态决定;如果xip为衍征状态,而xkp为祖征状态,那么从物种Xi到物种Xk在第p个特征上发生一次进化事件;从虚拟物种Xk进化到物种Xi和Xj的演化步骤被记为Lk(i,j),di表示Xi的衍生特征的数目;dk-di、dk-dj分别表示从虚拟物种Xk演化到物种Xi、Xj需要变化的特征状态的数量;在生成一个新的假设祖先之后,从虚拟物种Xk到物种Xi和Xj的演化步骤计算为:Lk(i,j)=(dk-di)+(dk-dj)L(TS)=∑Lk(i,j)根据祖先推断S进行构建的谱系树表示为Ts。树的长度表示为L(Ts)。进一步地,步骤四采用模拟退火算法搜索简约树方法为:步骤4.1,令初始解状态为S,外循环的迭代次数为L,衰减因子的阈值为β;步骤4.2,对步骤4.3至步骤4.6进行迭代,使k=1,2…,L;步骤4.3,产生新解Sp',即对于每个特征,我们随机选择一个除了不适用特征状态之外的特征状态(“0”或“1”),作为祖先状态来获得一个新的Sp';步骤4.4,计算增量Δf=L(Sp')-L(Sp),其中L(Sp)为评价函数;步骤4.5,若Δf<0则接受Sp'作为新的当前解,否则以概率exp(-Δf/T)接受Sp'作为新的当前解,其中L(Sp)和L(Sp')之间的变化是衰减因子Δf;步骤4.6,内层循环的终止条件取为Δf<β,即连续若干个新解都没有被接受,如果满足终止条件则输出当前解作为最优解,结束程序;步骤4.7,如果k<L,然后转步骤4.2,反之输出当前谱系树作为简约树。本专利技术与现有技术相比具有以下技术特点:1.本专利技术为了融入更多演化本文档来自技高网
...

【技术保护点】
1.一种基于简约聚类的古生物谱系演化分析方法,其特征在于,包括以下步骤:步骤一:建立古生物的特征层次关系模型,并指定特征的演变序列,根据特征演变序列的极向将物种的形态学数据矩阵中的每一维特征状态分为衍征和祖征;步骤二:根据物种的衍征状态的数目计算物种之间的共近裔指数,选择具有最大近裔指数的物种对生成内节点,计算所述的内节点的特征向量并计算该内节点进化后的谱系树与树长;步骤三:将内节点的特征向量并加入形态学数据矩阵内,并删除该数据矩阵内中所述的内节点的直接后裔的特征向量,当特征层次模型中只有一个物种,则输出谱系树及其树长,若并非只剩一个物种则转到步骤二;步骤四:采用模拟退火算法搜索谱系树,得到简约树。

【技术特征摘要】
1.一种基于简约聚类的古生物谱系演化分析方法,其特征在于,包括以下步骤:步骤一:建立古生物的特征层次关系模型,并指定特征的演变序列,根据特征演变序列的极向将物种的形态学数据矩阵中的每一维特征状态分为衍征和祖征;步骤二:根据物种的衍征状态的数目计算物种之间的共近裔指数,选择具有最大近裔指数的物种对生成内节点,计算所述的内节点的特征向量并计算该内节点进化后的谱系树与树长;步骤三:将内节点的特征向量并加入形态学数据矩阵内,并删除该数据矩阵内中所述的内节点的直接后裔的特征向量,当特征层次模型中只有一个物种,则输出谱系树及其树长,若并非只剩一个物种则转到步骤二;步骤四:采用模拟退火算法搜索谱系树,得到简约树。2.如权利要求1所述的基于简约聚类的古生物谱系演化分析方法,其特征在于,步骤一所述的特征演变序列的极向的确定方法包括:假设物种的形态学数据矩阵为:D{X1,...,Xi,...,Xj,...,Xn},其中Xi表示第i个物种;物种Xi的第p个形态学特征的状态表示为xip,用于构建谱系树的特征数目记为m;则物种Xi的特征向量是Xi(xi1,...,xiq,...,xip,...,xim);记第p个特征的上层特征是第q个特征;通过二进制编码将物种形态学特征的多态转换序列转换为二态转换序列,包括有序的特征多态转换序列和无序的特征多态转换序列,从而确定每一维特征的极向。3.如权利要求2所述的基于简约聚类的古生物谱系演化分析方法,其特征在于,将物种的形态学数据矩阵中的每一维特征状态分为衍征和祖征,包括:令sp是第p个特征的祖征状态,因此,祖先推断S(s0,s1,...,sp,...,sm-1,sm)标记每个特征的祖征状态的一个特征状态集合,以祖先推断为参考,对于物种的形态学数据矩阵中的每一维特征而言,该特征的状态中与祖先推断中标记的该特征的祖征状态相同的特征状态为祖征;否则,剩下的字符状态就是衍征状态。4.如权利要求1所述的基于简约聚类的古生物谱系演化分析方法,其特征在于,步骤二根据物种衍征状态的数目计算物种之间的共近裔指数的方法为:共近裔指数d(Xi,Xj)的计算公式如下所示:上式中,xip表示第i个物种的第p个特征,xjp表示第j个物种的第p个特征,sp是第p个特征的祖征状态,并且上式中的xip与xjp不属于不可适用特征;计算每对物种之间的共近裔指数得到共近裔指数矩阵Md,共近裔指数矩阵的计算公式如下所示:5.如权利要求1所述的基于简约聚类的古生物谱系演化分析方法,其特征在于,所述的选择具有最大近裔指数的物种对生成内节点,包括:当共近裔指数矩阵Md中最大的共近裔指数是唯一的,则选择具有该最大共近裔指数的物种对生成一个内节点;否则...

【专利技术属性】
技术研发人员:冯宏伟申丹丹刘泽云冯筠刘建妮韩健
申请(专利权)人:西北大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1