确定林木基因组中假基因的方法技术

技术编号:18895168 阅读:33 留言:0更新日期:2018-09-08 11:16
本发明专利技术公开了一种确定林木基因组中假基因的方法,其包括以下步骤:获得待测林木的基础生物信息,所述基础生物信息包括蛋白质序列、基因组序列和功能基因的染色体位置;利用Pseudopipe法对所述待测林木进行假基因鉴定处理,以便获得原始假基因数据;对所述原始假基因数据进行重复项删除处理,以便获得候选假基因数据;以及根据功能基因和假基因在染色体上的物理位置信息,对所述候选假基因数据进行去除假阳性处理,以便确定所述待测林木基因组中的假基因。利用该方法能够有效地确定林木基因组中的假基因,并且该方法操作简单,易于掌握,需时短,无需额外的配套条件,成本低,且所得结果准确性好,可靠度高,适于推广。

A method for determining pseudogenes in tree genome

The invention discloses a method for determining pseudogenes in tree genome, which comprises the following steps: obtaining the basic biological information of the tree to be tested, the basic biological information including the protein sequence, the genomic sequence and the chromosome position of the functional gene; and identifying the pseudogenes of the tree to be tested by the Pseudopipe method In order to obtain the original pseudogene data, the original pseudogene data is deleted repeatedly to obtain the candidate pseudogene data, and the candidate pseudogene data is deleted pseudopositive according to the physical location information of the functional gene and pseudogene on the chromosome to determine the candidate pseudogene data. Pseudogenes in tree genome. This method can effectively identify pseudogenes in tree genome, and it is simple to operate, easy to grasp, requires short time, does not need additional supporting conditions, low cost, and the results obtained are accurate, reliable and suitable for popularization.

【技术实现步骤摘要】
确定林木基因组中假基因的方法
本专利技术涉及生物信息学和基因组学
,具体而言,涉及确定林木基因组中假基因的方法。
技术介绍
假基因(Pseudogene)具有与功能基因相似的序列,但由于在长期的进化过程中累积了大量突变(诸如移码突变、终止子提前或其它功能缺失)以致失去了正常的功能。假基因的鉴定和注释意义重大:(1)假基因很好地保留了祖先基因的分子记录,可为研究基因组动态变化,揭示基因复制与突变等事件的年代以及频率等提供重要线索;(2)假基因提供了一系列近期进化事件的证据,例如灵长类嗅觉逐步演化的过程等;(3)针对假基因群体的相关分析有利于解析其产生的生物学机制及其在生物进化过程中的改变趋势,例如人类基因组假基因的注释结果显示在灵长类物种形成过程中曾暴发过一次基因的逆转录活动;(4)一些假基因可能产生具有功能的RNAs,并可通过多种机制调控其它基因的表达;(5)嵌合在基因组中的假基因,与亲本基因具有高度同源性,容易彼此混淆,假基因的确定有利于功能基因的正确鉴定。因此假基因的鉴定对于研究物种的起源、遗传和进化乃至基因的生物学功能均具有重要意义。然而,目前确定假基因尤其是林木的假基因的方法仍有待改进
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术的一个目的在于提出一种能够准确有效地确定林木基因组中的假基因的方法。需要说明的是,本专利技术是基于专利技术人的下列发现和工作而完成的:目前鉴定假基因的主要生物信息方法有3种:PseudoPipe、RetroFinder和Pseudo-Finder。其中,PseudoPipe是目前最常用的假基因检测方法,其基于基因组数据,利用同源性原理,可在全基因组内大规模地识别假基因,并可区分假基因的类型。但是,专利技术人研究发现,PseudoPipe的应用存在一定的局限性:一方面,目前该流程主要应用于人类和动物基因组假基因的鉴定,尚无林木假基因鉴定的应用案例;另一方面,PseudoPipe流程检测的结果冗余,且假阳性概率高,显著降低了检测结果的准确性,给后期的基因组进化分析和假基因生物功能等研究带来很大困扰,甚至会混淆研究结果。这些都在很大程度上降低了假基因的应用范围和价值,同时大大增加了假基因研究的时间、精力和和成本。因而,针对林木遗传背景复杂,杂合度高等特性,专利技术人进行了一系列的研究和实验探索,尝试对PseudoPipe法的流程进行改进和优化,以期使该方法能够用于林木基因组假基因的鉴定,并且力求结果的高准确性。结果,专利技术人意外地发现,对PseudoPipe法中序列一致性和完整性方面的设置参数和鉴定指标进行优化后,该方法即可有效用于林木基因组假基因的鉴定;进一步,专利技术人还发现,针对PseudoPipe检测结果进行筛选:包括删除重复项和去除假阳性处理,最终就能够得到高可信度的假基因数据。从而,在本专利技术的一个方面,本专利技术提供一种确定林木基因组中假基因的方法。根据本专利技术的实施例,该方法包括以下步骤:获得待测林木的基础生物信息,所述基础生物信息包括蛋白质序列、基因组序列和功能基因的染色体位置;基于所述待测林木的基础生物信息,利用Pseudopipe法对所述待测林木进行假基因鉴定处理,以便获得原始假基因数据;对所述原始假基因数据进行重复项删除处理,以便获得候选假基因数据;以及根据功能基因和假基因在染色体上的物理位置信息,对所述候选假基因数据进行去除假阳性处理,以便确定所述待测林木基因组中的假基因,其中,利用Pseudopipe法对所述林木进行假基因鉴定处理,是通过遵循如下的参数设置和鉴定指标实现的:(1)假基因和其亲本基因两者的氨基酸序列一致性>35%;(2)BLASTE值低于1E-100;以及(3)假基因应覆盖其亲本基因编码序列的70%以上。专利技术人惊奇地发现,利用本专利技术的确定林木基因组中假基因的方法,能够有效地确定林木基因组中的假基因,并且该方法操作简单,易于掌握,需时短,无需额外的配套条件,成本低,且所得结果准确性好,可靠度高,适于推广。并且,本专利技术的方法,一方面结合PseudoPipe流程的优势,并针对林木遗传背景复杂,杂合度高等特性,对PseudoPipe流程采用的序列一致性和完整性方面的设置参数和鉴定指标进行了适当调整,从而显著提高了结果的可靠性和精确性;另一方面,针对PseudoPipe检测结果冗余和假阳性概率高等特征,对PseudoPipe检测结果进行了进一步的筛选,主要包括删除重复项和去除假阳性处理,最终能够得到高可信度的假基因数据。其中,需要说明的是,获得待测林木的基础生物信息的方法和手段不受特别限制,例如可以通过多组学测序或者查询相关网站等方法获得待测林木的蛋白质序列、基因组序列和功能基因的染色体位置。根据本专利技术的实施例,可以通过访问以下网址http://pseudogene.org/下载PseudoPipe应用,利用Pseudopipe法对所述待测林木进行假基因鉴定处理。在本文中所述的“亲本基因”是指与假基因对应的功能基因。根据本专利技术的实施例,利用office办公软件中的excel组件进行所述重复项删除处理。由此,极大地提高了数据分析的灵活性,且操作简便,易于掌握,用时短,简化了配套条件并显著地降低了实验成本。根据本专利技术的实施例,按照如下标准进行所述去除假阳性处理:当候选假基因的核苷酸序列与已知功能基因序列的物理位置存在完全重叠或者部分重叠时,认定所述候选假基因为假阳性,并予以去除。由此,能够显著提高结果的可靠性和精确性。根据本专利技术的实施例,利用office办公软件中的excel组件进行所述去除假阳性处理。由此,能够简化配套条件并显著降低实验成本,且操作简便,易于掌握,需时短。此外,还需要说明的是,根据本专利技术的实施例,本专利技术的确定林木基因组中假基因的方法具有下列优点的至少之一:1、本专利技术的方法采用优化的PseudoPipe流程结合删除重复项和去除假阳性的操作处理,不仅显著提高了结果的可靠性和精确性,而且极大地提高了数据分析的灵活性,且本筛选过程的操作系统采用office,操作简便,易于掌握,用时短,简化了配套条件并显著地降低了实验成本。具体地,本专利技术的方法,是专利技术人针对林木遗传背景复杂、杂合度高的特征和PseudoPipe流程检测结果冗余、假阳性概率高的特征,对PseudoPipe流程进行设置参数的优化,并增加对其结果数据的删除重复和去除假阳性等操作而实现的。2、本专利技术的方法,可直接应用于林木基因组假基因的鉴定,而且理论清晰、方法简便,所需操作系统简单,操作易于掌握,过程方便快捷,结果精确可靠。3、本专利技术的方法,填补现有技术中林木假基因发掘方法的空白,并解决了现有假基因发掘法PseudoPipe存在的结果冗余、假阳性概率高和价格高昂等问题。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。具体实施方式下面将结合实施例对本专利技术的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本专利技术,而不应视为限定本专利技术的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品本文档来自技高网...

【技术保护点】
1.一种确定林木基因组中假基因的方法,其特征在于,包括以下步骤:获得待测林木的基础生物信息,所述基础生物信息包括蛋白质序列、基因组序列和功能基因的染色体位置;基于所述待测林木的基础生物信息,利用Pseudopipe法对所述待测林木进行假基因鉴定处理,以便获得原始假基因数据;对所述原始假基因数据进行重复项删除处理,以便获得候选假基因数据;以及根据功能基因和假基因在染色体上的物理位置信息,对所述候选假基因数据进行去除假阳性处理,以便确定所述待测林木基因组中的假基因,其中,利用Pseudopipe法对所述林木进行假基因鉴定处理,是通过遵循如下的参数设置和鉴定指标实现的:(1)假基因和其亲本基因两者的氨基酸序列一致性>35%;(2)BLAST E值低于1E‑100;以及(3)假基因应覆盖其亲本基因编码序列的70%以上。

【技术特征摘要】
1.一种确定林木基因组中假基因的方法,其特征在于,包括以下步骤:获得待测林木的基础生物信息,所述基础生物信息包括蛋白质序列、基因组序列和功能基因的染色体位置;基于所述待测林木的基础生物信息,利用Pseudopipe法对所述待测林木进行假基因鉴定处理,以便获得原始假基因数据;对所述原始假基因数据进行重复项删除处理,以便获得候选假基因数据;以及根据功能基因和假基因在染色体上的物理位置信息,对所述候选假基因数据进行去除假阳性处理,以便确定所述待测林木基因组中的假基因,其中,利用Pseudopipe法对所述林木进行假基因鉴定处理,是通过遵循如下的参数设置和鉴定指标实现的:(...

【专利技术属性】
技术研发人员:张德强李英谢剑波
申请(专利权)人:北京林业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1