当前位置: 首页 > 专利查询>清华大学专利>正文

基于信息论基因转录本组装与量化方法及系统技术方案

技术编号:17780145 阅读:191 留言:0更新日期:2018-04-22 08:52
本发明专利技术提出了一种基于信息论基因转录本组装与量化方法及系统,其中,方法包括:将测序的读段与参照的基因组对齐,并根据测序的读段与参照的基因组对齐结果对初始的基因与转录本的开始位置与终止位置进行预测;在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合;根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与峰度估计。该发明专利技术具有能够不依赖于外部的基因位置标记,基因组装准确性显著提高,提升测序精度的优点。

【技术实现步骤摘要】
基于信息论基因转录本组装与量化方法及系统
本专利技术涉及计算生物学
,尤其涉及一种基于信息论基因转录本组装与量化方法及系统。
技术介绍
随着下一代基因测序技术的发展,基因生物学研究迫切需要有效的量化方法,来对高通量RNA测序的内在基因调控与转录情况进行解析。在RNA层面,转录本的识别与丰度估计是评估转录功能差异性的重要方法,在新一代测序研究中能揭示疾病潜在的机理,发现新的生物结论。转录本组装是从大规模测序读段中有结构的恢复基因所表达出来的转录本变体。峰度估计是对发现的转录本的表达水平进行量化估计。然而,要完成这两项任务,仅有的数据是从转录本片段中推测完整的测序信息。从有限的观测中获取完整的数据解析本质上是一个病态的数学问题。由于缺失信息的存在,在得到对结果中会出现显著的不确定性。传统的转录本发现与丰度量化方法采用的是基于多种不同考虑建立的参数统计方法,比如概率生成模型护着是线性回归模型。尽管他们的数学表示存在很大的差别,内在的数学概念仍然是同属于相似的数据拟合类别。从转录本到RNA测序的读段这个测序过程中,会由于信息缺失和数据模糊引入显著的不确定水平。例如,转录本元素的不确定性本文档来自技高网...
基于信息论基因转录本组装与量化方法及系统

【技术保护点】
一种基于信息论基因转录本组装与量化方法,其特征在于,包括以下步骤:将测序的读段与参照的基因组对齐,并根据测序的读段与参照的基因组对齐结果对初始的基因与转录本的开始位置与终止位置进行预测;在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合;根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与峰度估计。

【技术特征摘要】
1.一种基于信息论基因转录本组装与量化方法,其特征在于,包括以下步骤:将测序的读段与参照的基因组对齐,并根据测序的读段与参照的基因组对齐结果对初始的基因与转录本的开始位置与终止位置进行预测;在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合;根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与峰度估计。2.根据权利要求1所述的基于信息论基因转录本组装与量化方法,其特征在于,所述对初始的基因进行预测,包括:子外显子发现、基因边界预测和基因结构预测。3.根据权利要求1所述的基于信息论基因转录本组装与量化方法,其特征在于,所述在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合,包括:根据所述有向图翻译基因剪切变体,以模拟可能的转录本,得到候选转录本集合。4.根据权利要求1所述的基于信息论基因转录本组装与量化方法,其特征在于,所述根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与峰度估计,包括:根据目标函数对候选转录本集合进行转录本预测与峰度估计,其中,所述目标函数为:maxI(T;R|Θ)+λL...

【专利技术属性】
技术研发人员:索津莉鲍峰戴琼海
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1