当前位置: 首页 > 专利查询>清华大学专利>正文

基于信息论基因转录本组装与量化方法及系统技术方案

技术编号:17780145 阅读:183 留言:0更新日期:2018-04-22 08:52
本发明专利技术提出了一种基于信息论基因转录本组装与量化方法及系统,其中,方法包括:将测序的读段与参照的基因组对齐,并根据测序的读段与参照的基因组对齐结果对初始的基因与转录本的开始位置与终止位置进行预测;在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合;根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与峰度估计。该发明专利技术具有能够不依赖于外部的基因位置标记,基因组装准确性显著提高,提升测序精度的优点。

【技术实现步骤摘要】
基于信息论基因转录本组装与量化方法及系统
本专利技术涉及计算生物学
,尤其涉及一种基于信息论基因转录本组装与量化方法及系统。
技术介绍
随着下一代基因测序技术的发展,基因生物学研究迫切需要有效的量化方法,来对高通量RNA测序的内在基因调控与转录情况进行解析。在RNA层面,转录本的识别与丰度估计是评估转录功能差异性的重要方法,在新一代测序研究中能揭示疾病潜在的机理,发现新的生物结论。转录本组装是从大规模测序读段中有结构的恢复基因所表达出来的转录本变体。峰度估计是对发现的转录本的表达水平进行量化估计。然而,要完成这两项任务,仅有的数据是从转录本片段中推测完整的测序信息。从有限的观测中获取完整的数据解析本质上是一个病态的数学问题。由于缺失信息的存在,在得到对结果中会出现显著的不确定性。传统的转录本发现与丰度量化方法采用的是基于多种不同考虑建立的参数统计方法,比如概率生成模型护着是线性回归模型。尽管他们的数学表示存在很大的差别,内在的数学概念仍然是同属于相似的数据拟合类别。从转录本到RNA测序的读段这个测序过程中,会由于信息缺失和数据模糊引入显著的不确定水平。例如,转录本元素的不确定性,RNA测序读段映射的多样性,读段在转录本上分布的分均一性等,这些都是很难控制的不确定元素。当数据拟合任务遇到众多不确定性时,在最终估计结果中会引入无法避免的偏差。许多数据拟合方法依赖于外部的信息来减少数据的不确定性,可能需要部分或者全部的基因组注释来指导转录本组装。但是目前相关技术中的方法的精度有限,需要进一步提升。而且尽管这些方法的数学基础是非常相似的,但是被这些不同方法发现的转录本存在着较大的差异。因此,仍然需要更精确与通用的无需基因注释的转录本推断与量化方法。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一方面目的在于提出一种能够不依赖于外部的基因位置标记,基因组装准确性显著提高,提升测序精度的基于信息论基因转录本组装与量化方法。本专利技术另一方面目的在于提出一种基于信息论基因转录本组装与量化系统。为达到上述目的,本专利技术一方面的实施例提出了一种基于信息论基因转录本组装与量化方法,包括以下步骤:将测序的读段与参照的基因组对齐,并根据测序的读段与参照的基因组对齐结果对初始的基因与转录本的开始位置与终止位置进行预测;在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合;根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与峰度估计。根据本专利技术实施例的基于信息论基因转录本组装与量化方法,通过对齐测序的读段与参照的基因组,根据结果预测初始的基因与转录本的开始位置与终止位置,并建立候选转录本集合,根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与峰度估计。该方法不依赖于外部的基因位置标记,基因组装准确性显著提高,提升测序精度。在一些示例中,所述对初始的基因进行预测,包括:子外显子发现、基因边界预测和基因结构预测。在一些示例中,所述在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合,包括:根据所述有向图翻译基因剪切变体,以模拟可能的转录本,得到候选转录本集合。在一些示例中,所述根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与峰度估计,包括:根据目标函数对候选转录本集合进行转录本预测与峰度估计,其中,所述目标函数为:maxI(T;R|Θ)+λL(Θ;R),其中,L(Θ;R)=logP(R|Θ)为似然项,λ平衡了不确定性与似然的相对重要性。在一些示例中,所述的基于信息论基因转录本组装与量化方法,其特征在于,其中,与定义为经过k次选择之后选择与未选择的转录本,转录本tk+1通过如下方差来进行(k+1)次选择,所述方差为:其中,当所述目标函数达到最大值时前向选择终止。本专利技术的另一方面的实施例提出了一种基于信息论基因转录本组装与量化系统,包括:初始的基因预测模块,用于将测序的读段与参照的基因组对齐,并根据测序的读段与参照的基因组对齐结果对初始的基因与转录本的开始位置与终止位置进行预测;候选转录本集合获取模块,用于在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合;转录本预测与峰度估计模块,用于根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与峰度估计。根据本专利技术实施例的基于信息论基因转录本组装与量化系统,通过对齐测序的读段与参照的基因组,根据结果预测初始的基因与转录本的开始位置与终止位置,并建立候选转录本集合,根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与峰度估计。该系统不依赖于外部的基因位置标记,基因组装准确性显著提高,提升测序精度。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明图1是根据本专利技术实施例的基于信息论基因转录本组装与量化方法的流程图;图2是根据本专利技术一个实施例的基于信息论基因转录本组装与量化方法技术实施方案的流程图;和图3是本专利技术一个实施例的基于信息论基因转录本组装与量化系统的结构示意图。图2中,a)为本方法所研究的问题,转录本到测序读段之间的测序过程通过信道传输来进行模拟,转录本作为信息源,测序读段作为得到的接收到的编码信号;b)为候选基因预测与候选基因重建;图中两个基因(A和B)定位在基因组上,由读段的分布来决定;在基因A中,8个子外显子被识别出来,用于构建有向图的节点;一对初始与终止节点(S1,S2)加在图中用以标注来时与终止节点;c)为信息传输模型;H(T)和H(R)代表着转录本与读段的熵,I(T;R)是互信息,用来衡量转录本与读段之间的信息共享;概率图模型被引入来解析从转录本(T)到RNA测序读段(R)的过程;R1,R2代表一组读段。在图中,S与L代表转录本的开始位置与片段长度,Q代表读段匹配的质量。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。图1为根据本专利技术实施例的基于信息论基因转录本组装与量化方法的流程图及图2根据本专利技术一个实施例的基于信息论基因转录本组装与量化方法技术实施方案的流程图。结合图1和图2,该方法包括以下步骤:S1,将测序的读段与参照的基因组对齐,并根据测序的读段与参照的基因组对齐结果对初始的基因与转录本的开始位置与终止位置进行预测首先,基因预测通常包括三个部分:子外显子发现,基因边缘寻找与转录本起止位置预测。在具体示例中,读段首先通过TopHat2与基因组进行匹配。读段中检测到的链接被认为是可能的剪切点。有较少读段支持的剪切点被排除在外来降低组装错误。两种表达的片段被推断为子外显子:在相邻的3端与5端区域以及在5端与3端的区域。进一步地,在组装好子外显子之后,本方法决定基因的边界,将子外显子分配到不同的基因位置。基因位置首先通过他们方向信息决定。如果读段中的链接TopHat2被标记为不同的方向,那就应该属于不同的基因。在局部基因区域,使用高质量的子外显子来估计子外显子长度的概率分布,特别长的子外显子被认为是可能横跨两个基本文档来自技高网
...
基于信息论基因转录本组装与量化方法及系统

【技术保护点】
一种基于信息论基因转录本组装与量化方法,其特征在于,包括以下步骤:将测序的读段与参照的基因组对齐,并根据测序的读段与参照的基因组对齐结果对初始的基因与转录本的开始位置与终止位置进行预测;在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合;根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与峰度估计。

【技术特征摘要】
1.一种基于信息论基因转录本组装与量化方法,其特征在于,包括以下步骤:将测序的读段与参照的基因组对齐,并根据测序的读段与参照的基因组对齐结果对初始的基因与转录本的开始位置与终止位置进行预测;在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合;根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与峰度估计。2.根据权利要求1所述的基于信息论基因转录本组装与量化方法,其特征在于,所述对初始的基因进行预测,包括:子外显子发现、基因边界预测和基因结构预测。3.根据权利要求1所述的基于信息论基因转录本组装与量化方法,其特征在于,所述在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合,包括:根据所述有向图翻译基因剪切变体,以模拟可能的转录本,得到候选转录本集合。4.根据权利要求1所述的基于信息论基因转录本组装与量化方法,其特征在于,所述根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与峰度估计,包括:根据目标函数对候选转录本集合进行转录本预测与峰度估计,其中,所述目标函数为:maxI(T;R|Θ)+λL...

【专利技术属性】
技术研发人员:索津莉鲍峰戴琼海
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1