【技术实现步骤摘要】
一种基于谱系聚类的古生物谱系演化分析方法
本专利技术属于生物信息学
,涉及一种构建古生物谱系树的方法。
技术介绍
古生物谱系树的构建是生物信息学重要的组成部分,也是探索生命进化史的主要途径。层次化谱系树细致地展现了物种的演化过程,揭示了物种之间的进化关系和量化差异。早期古生物的谱系分析对生命的起源追溯有着重要的科学意义。谱系分析的目的是找到最简约的谱系树,也就是简约树。目前,常用于古生物的谱系分析的方法可以分为两大类:1)基于最优原则的方法,包括贝叶斯系统发生推论法(BayesianInference,BI)、最大似然法(MaximumLikelihood,ML)和最大简约法(MaximumParsimony,MP)等;2)基于距离的方法,包括邻接法(NeighborJoining,NJ)等。然而,传统的方法没有考虑到古生物形态学数据矩阵中含有不适用特征状态。由于谱系分析中使用的物种的形态学特征可能在逻辑上依赖的,特征之间存在着包含关系。在古生物学领域中,生物形态的一些复杂特征可以分解为次要特征。这些可分解的复杂特征称为上层特征,由复杂特征分解的次要特征称为下层特征。上层特征和下层特征之间存在包含关系。下层特征仅适用于具有上层特征的物种,没有上层特征的物种在下层特征上被编码为不适用特征状态。特征之间的包含关系导致了不适用特征状态的出现。目前也已经提出了一些方法来处理演化分析中的不适用数据。这些方法主要有两种,一种是将不适用特征状态视为缺失数据(MissingDataReplacement,MDR)。但这种方式将会隐含地对具有该特征的物种加权。不适用特 ...
【技术保护点】
1.一种基于简约聚类的古生物谱系演化分析方法,其特征在于,包括以下步骤:步骤一:建立古生物的特征层次关系模型,并指定特征的演变序列,根据特征演变序列的极向将物种的形态学数据矩阵中的每一维特征状态分为衍征和祖征;步骤二:根据物种的衍征状态的数目计算物种之间的共近裔指数,选择具有最大近裔指数的物种对生成内节点,计算所述的内节点的特征向量并计算该内节点进化后的谱系树与树长;步骤三:将内节点的特征向量并加入形态学数据矩阵内,并删除该数据矩阵内中所述的内节点的直接后裔的特征向量,当特征层次模型中只有一个物种,则输出谱系树及其树长,若并非只剩一个物种则转到步骤二;步骤四:采用模拟退火算法搜索谱系树,得到简约树。
【技术特征摘要】
1.一种基于简约聚类的古生物谱系演化分析方法,其特征在于,包括以下步骤:步骤一:建立古生物的特征层次关系模型,并指定特征的演变序列,根据特征演变序列的极向将物种的形态学数据矩阵中的每一维特征状态分为衍征和祖征;步骤二:根据物种的衍征状态的数目计算物种之间的共近裔指数,选择具有最大近裔指数的物种对生成内节点,计算所述的内节点的特征向量并计算该内节点进化后的谱系树与树长;步骤三:将内节点的特征向量并加入形态学数据矩阵内,并删除该数据矩阵内中所述的内节点的直接后裔的特征向量,当特征层次模型中只有一个物种,则输出谱系树及其树长,若并非只剩一个物种则转到步骤二;步骤四:采用模拟退火算法搜索谱系树,得到简约树。2.如权利要求1所述的基于简约聚类的古生物谱系演化分析方法,其特征在于,步骤一所述的特征演变序列的极向的确定方法包括:假设物种的形态学数据矩阵为:D{X1,...,Xi,...,Xj,...,Xn},其中Xi表示第i个物种;物种Xi的第p个形态学特征的状态表示为xip,用于构建谱系树的特征数目记为m;则物种Xi的特征向量是Xi(xi1,...,xiq,...,xip,...,xim);记第p个特征的上层特征是第q个特征;通过二进制编码将物种形态学特征的多态转换序列转换为二态转换序列,包括有序的特征多态转换序列和无序的特征多态转换序列,从而确定每一维特征的极向。3.如权利要求2所述的基于简约聚类的古生物谱系演化分析方法,其特征在于,将物种的形态学数据矩阵中的每一维特征状态分为衍征和祖征,包括:令sp是第p个特征的祖征状态,因此,祖先推断S(s0,s1,...,sp,...,sm-1,sm)标记每个特征的祖征状态的一个特征状态集合,以祖先推断为参考,对于物种的形态学数据矩阵中的每一维特征而言,该特征的状态中与祖先推断中标记的该特征的祖征状态相同的特征状态为祖征;否则,剩下的字符状态就是衍征状态。4.如权利要求1所述的基于简约聚类的古生物谱系演化分析方法,其特征在于,步骤二根据物种衍征状态的数目计算物种之间的共近裔指数的方法为:共近裔指数d(Xi,Xj)的计算公式如下所示:上式中,xip表示第i个物种的第p个特征,xjp表示第j个物种的第p个特征,sp是第p个特征的祖征状态,并且上式中的xip与xjp不属于不可适用特征;计算每对物种之间的共近裔指数得到共近裔指数矩阵Md,共近裔指数矩阵的计算公式如下所示:5.如权利要求1所述的基于简约聚类的古生物谱系演化分析方法,其特征在于,所述的选择具有最大近裔指数的物种对生成内节点,包括:当共近裔指数矩阵Md中最大的共近裔指数是唯一的,则选择具有该最大共近裔指数的物种对生成一个内节点;否则...
【专利技术属性】
技术研发人员:冯宏伟,申丹丹,刘泽云,冯筠,刘建妮,韩健,
申请(专利权)人:西北大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。