System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 整合微观和宏观尺度的比较基因组学分析方法技术_技高网

整合微观和宏观尺度的比较基因组学分析方法技术

技术编号:41217475 阅读:2 留言:0更新日期:2024-05-09 23:38
本发明专利技术提供一种整合微观和宏观尺度的比较基因组学分析方法,该方法实现三个主要的功能:微观共线性分析,宏观共线性分析,整合微观&宏观共线性分析。该发明专利技术不仅包含了现有基因共线分析工具的核心功能,还包含一些全新的分析算法,例如:(i)对鉴定得到的微观共线性基因所在的序列区间进行调控元件的鉴定;(ii)实现祖先到现存物种核型进化的宏观共线性分析;(iii)通过整合微观&宏观共线性分析实现对基因组结构的泛进化分析。综上所述,本发明专利技术开发出最全面和最先进的整合宏观和微观尺度的比较基因组综合分析软件,不仅可以填补宏观共线性分析工具的空白,还可以实现整合微观共线和宏观共线的基因组共线性的泛进化和调控分析。

【技术实现步骤摘要】

本专利技术涉及生物信息分析,尤其涉及一种整合宏观和微观尺度的比较基因组学分析方法。


技术介绍

1、了解基因组的结构和功能是解码地球生命史和生物多样性的核心。2018年启动的地球生物基因组计划(earth biogenome project, ebp)旨在10年内对所有已知的真核生物进行基因组测序,这为真核生物的全谱系研究开辟了一个新的基因组学时代。目前地球生物基因组计划每年产生约3000个基因组,随着测序成本的飞速下降和组装算法的优化,高质量基因组将会呈指数级增长趋势,在不久的将来有望获得上百万个达到“参考质量”的基因组测序数据,这将以前所未有的力量推动真核生物基因组结构及其进化史的研究。在新的基因组学时代,许多实验室正面临着不断生成的海量基因组数据带来的机遇和挑战,因此亟需先进、系统的比较基因组学方法的研发。

2、基因组共线性分析为比较基因组学研究提供了基本框架。现存物种基因组之间(微观共线性)或祖先与现存物种基因组之间(宏观共线性)的基因组共线性分析是阐明基因组结构、调控元件及其进化史的重要步骤。虽然目前已有许多常见的软件或工具可完成基本的基因组共线性分析(例如:mcscanx、dagchainer、symap等),但它们大多被开发用于基因组微共线性分析(即:依赖保守的基因顺序信息,并且局限在对亲缘关系密切相关的物种间进行基因组共线性分析的一种方法)。理解基因组架构从祖先到现存物种的宏观进化,需要进行深度的系统发育比较,即需要研究从祖先进化而来的保守的同源基因之间的连锁关系(宏观共线性)。越来越多的研究也表明,宏观共线性分析方法在推断动物祖先核型演化历史方面卓有成效。遗憾的是,随着组装到染色体水平基因组数目的爆炸性增长,仍缺乏易于使用且便于个性化定制的宏观共线性分析工具。此外,目前大多数分析方法仅仅在微观或宏观进化的单一尺度上研究基因组共线性,而整合微观进化和宏观进化双重视角下的综合基因组共线性分析仍然很少,限制了对基因组共线性的泛进化历史和功能意义的全面认知。

3、综上所述,目前基因共线性分析软件和分析框架尚存在诸多不足,并且系统地整合微观和宏观共线性数据以及功能基因组数据有助于推动基因组进化研究。因此,亟待设计一种系统整合宏观视角和微观视角的基因共线性分析方法。


技术实现思路

1、鉴于此,本专利技术的目的在于提供一种整合宏观和微观尺度的比较基因组学分析方法,以填补宏观共线性分析工具的空白,并实现整合微观共线和宏观共线的基因组共线性的泛进化和调控分析。

2、为实现上述专利技术目的,本专利技术提供一种整合宏观和微观尺度的比较基因组学分析方法,所述方法包括以下步骤:

3、微观共线性分析:鉴定基因组内/间的微观共线性,实现对微观共线性基因区域的染色体水平的可视化,鉴定微观共线性基因所在序列区间的保守非编码序列,以及对微观共线性基因集进行功能富集分析;

4、宏观共线性分析:重建祖先基因组,鉴定古老基因家族,计算现存物种核型的保守程度,分析染色体进化推导整个进化树中进化节点处发生的染色体断裂融合事件;

5、微观&宏观整合分析:对通过微观共线性分析和宏观共线性分析鉴定得到的微观共线性区块和宏观共线性区块执行一个交叉分析,以从下向上的进化视角和从上向下的进化视角分别对基因共线性进行整合分析,实现对整个宏观演化过程中基因组结构的泛进化分析。

6、进一步的,s201、鉴定基因组内/间的微观共线性,具体为:内置扫描多个基因组或亚基因组以识别假定的同源染色体区域并使用基因作为锚点对齐基因区域的算法,鉴定两个或多个基因组间的第一类微观共线性基因,对synphoni算法进行包装,仅依靠间隔基因数目和微观共线性区块大小计算基因组间第二类微观共线性基因,针对具备多倍体特征的基因组,应先对整个基因组进行拆分获取亚基因组数据后进行微观共线性分析。

7、s202、微观共线性基因区域的染色体水平的可视化,具体为:依靠blast或diamond比对算法鉴定基因组间双向最佳比对基因,并根据gff文件的基因位置信息,将其定位在各自染色体的位置上,通过设定基因聚类和最大基因间隔数目实现对微观共线性基因区域的染色体水平的可视化;

8、s203、鉴定保守非编码序列,具体为:通过dna序列过滤和比对,根据预设条件阈值,对提取出的非编码序列进行过滤,最终完成对微观共线性基因所在序列区间进行保守非编码序列的鉴定;

9、s204、功能富集分析,具体为:基于比较一个给定基因列表中的特定功能注释的基因数与期望情况下随机选择相同数量基因的频率的原理,对鉴定得到的微观共线性基因集进行基因功能富集分析,如果基因功能富集分析显示某个功能类别的p值低于设定的阈值,则认为在所测试的基因集合中该功能类别的富集显著。

10、进一步的,所述宏观共线性分析具体包括以下步骤:

11、s301、重建祖先基因组,具体为:①多序列比对:首先对现存物种的dna序列进行多重比对,以获取物种间的进化关系和基因组区域的共有序列;②构建进化树:通过鉴定序列变异的距离或最大似然统计模型的方法,构建一棵表示物种进化关系的进化树;③重建祖先序列:在进化树上沿着时间轴向从现存物种到进化节点处的祖先推进,根据模型和推断算法,在每个节点处重建祖先基因组的序列;④校验重建结果:通过进一步比对、回溯和校验,评估重建结果的准确性、确定性和可靠性;

12、s302、鉴定古老基因家族,具体为:基于系统发育关系依赖blast或diamond比对算法对各物种包含的所有基因进行同源性比较,其次采用分层循环聚类的算法对获得的全部基因家族进行筛选得到古老基因家族,当任一基因家族至少符合以下标准之一时,此基因家族被确定为双侧动物祖先基因家族:① 该基因家族内存在至少两个原口动物类群和两个后口动物类群中;② 该基因家族内存在至少两个原口动物类群或两个后口动物类群以及两个非双侧动物类群中;

13、s303、计算物种核型的保守性,具体为:首先选定研究物种,然后从鉴定得到的古老基因家族中筛选出该物种和“祖先”的保守基因对,基于gff文件提供的基因位置信息将基因对分别定位在现存物种和“祖先”的染色体上,采用点图的形式展示染色体水平的现存物种染色体和“祖先”染色体的对应,最终通过计算保守系数和费希尔精确概率检验评估现存物种核型的保守度,对于scaffold水平的基因组,采用启发式的分层聚类方法将scaffolds聚类为相应的“染色体”,使用cluster3.0程序进行聚类,树切割阈值默认为0.25;

14、s304、染色体进化分析及推导染色体断裂融合事件,具体为:通过对现存物种与其祖先进行核型比较,观察现存物种染色体相较于祖先染色体的变化,进一步推导出现存物种染色体发生的断裂和融合事件,在完成对研究类群进化树上多个现存物种染色体发生的断裂和融合事件的计算后,基于系统发生关系,依次推导出祖先节点处发生的染色体断裂和融合事件。

15、进一步的,微观&宏观整合分析本文档来自技高网...

【技术保护点】

1.一种整合宏观和微观尺度的比较基因组学分析方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种整合宏观和微观尺度的比较基因组学分析方法,其特征在于,所述微观共线性分析具体包括以下步骤:

3.根据权利要求1所述的一种整合宏观和微观尺度的比较基因组学分析方法,其特征在于,所述宏观共线性分析具体包括以下步骤:

4.根据权利要求3所述的一种整合宏观和微观尺度的比较基因组学分析方法,其特征在于,微观&宏观整合分析包括简单整合和全面整合两种整合方法,具体如下:

【技术特征摘要】

1.一种整合宏观和微观尺度的比较基因组学分析方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种整合宏观和微观尺度的比较基因组学分析方法,其特征在于,所述微观共线性分析具体包括以下步骤:

3.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员:王师李语丽于洪伟包立随张玲玲胡景杰包振民
申请(专利权)人:中国海洋大学三亚海洋研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1