一种分析鉴定筛选骨骼肌长链非编码RNA中可编码ORFs的方法技术

技术编号:37268526 阅读:26 留言:0更新日期:2023-04-20 23:39
本发明专利技术涉及一种分析鉴定筛选骨骼肌长链非编码RNA中可编码ORFs的方法,包括:取骨骼肌样本,分别对转录组、翻译组、蛋白质组进行建库测序;筛选长链非编码RNA内部具有潜在编码能力的ORFs作为集合1;分别计算长链非编码RNA和mRNA的ORFs的核糖体释放评分RRS,以RRS得分大于1.24的ORFs作为候选ORFs,取这些候选ORFs与上述集合1的交集,形成集合2;分析骨骼肌内所有小肽,与集合2筛选的ORFs可形成的理论翻译小肽比对,筛选能唯一比对的ORFs即为所述骨骼肌长链非编码RNA中可编码ORFs。本发明专利技术有利于高效分析鉴定筛选肌肉发育调控关键性分子。高效分析鉴定筛选肌肉发育调控关键性分子。高效分析鉴定筛选肌肉发育调控关键性分子。

【技术实现步骤摘要】
一种分析鉴定筛选骨骼肌长链非编码RNA中可编码ORFs的方法


[0001]本专利技术涉及生物信息学
,具体涉及一种分析鉴定筛选骨骼肌长链非编码RNA中可编码ORFs的方法。

技术介绍

[0002]长链非编码RNA(long non

coding RNA,LncRNA)是指长度在200bp

100k bp之间基本不具有编码能力的线性RNA分子,其主要来源于非编码区。有些LncRNA在肌肉中表达丰度较高,对肌肉的发育具有重要的调控作用。LncRNA通过反式(Trans)与顺式(Cis)机制参与肌肉发育的转录调控过程。LncRNA的顺式与反式调控作用取决于靶基因的位置,LncRNA顺式调控作用指的是LncRNA的表达位于或接近同一基因座的靶基因,即对临近靶基因的转录调控作用。而反式调控作用的LncRNA可以抑制或激活独立染色体基因座的基因转录,即对远端靶基因的转录调控作用。
[0003]由短链氨基酸组成的多肽在动植物生长发育和抗逆过程中发挥重要作用。这些功能性多肽大多是通过加工前体蛋白或直接翻译基因组中存在的开放阅读框(ORF)而获得的,ORF有时位于信使RNA(mRNA)的非翻译区序列中。除了源自前体加工的常规肽,近年来越来越多的动植物研究发现非常规肽(Non

conventional peptides,NCPs)的存在及其功能,这些肽是从转录本的5'UTR或3'UTR翻译的,目前被定义为非编码RNA(ncRNA)的编码肽。包括LncRNA、circRNA和pre

miRNA都可编码非常规肽,其中LncRNA可以具有一个或多个碱基少于300个的ORF(small ORF,sORF)这些sORF可以被翻译成长度小于100个氨基酸的小肽。
[0004]LncRNA以前被定义为线性不编码蛋白质的RNA,但随着研究的进展,发现一些LncRNA不仅可以编码生成小肽,还可以使用这些小肽来执行生物学功能。比如骨骼肌相关的LncRNA(人类中的LINC00948和小鼠中的AK009351)包含一个138个核苷酸的短开放阅读框,并有可能编码46个高度保守的氨基酸。由LncRNA编码的小肽在脊椎动物中是保守的,被命名为肌调节蛋白(MLN)。MLN几乎在所有骨骼肌中都有表达,并编码跨膜α螺旋。MLN与磷蛋白和肌脂蛋白具有很强的结构相似性,它们的跨膜区包含许多相同的保守残基。最近,研究人员发现了一种由LncRNA LINC00961编码的由90个氨基酸组成的小肽,该小肽在人和小鼠的骨骼肌中都高度表达,并对骨骼肌发育有促进作用。
[0005]随着组学时代的到来,转录组、翻译组和蛋白组学技术能在不同的层面上揭示基因表达规律。目前对于LncRNA中可编码开放阅读框(ORFs)鉴定缺乏有效的手段,已有的技术是基于基因组分析预测潜在可编码ORFs(如专利CN202110996256.2),但是此种方法仅通过单一组学数据进行分析,假阳性率较高,预测得到的ORFs并不一定会编码翻译产生小肽。因此需要研发一种基于转录组、翻译组和蛋白组学的多组学联合筛选骨骼肌长链非编码RNA中可编码ORFs的方法,并结合分子生物学验证的方法,实现既能可以批量筛选骨骼肌LncRNA中可编码ORFs,又能极大地降低所筛选的LncRNA可编码ORFs的假阳性数目。

技术实现思路

[0006]为了解决以上问题,本专利技术提出一种筛选骨骼肌长链非编码RNA中可编码ORFs的方法。
[0007]本专利技术提供的筛选骨骼肌长链非编码RNA中可编码ORFs的方法,包括如下步骤:
[0008]步骤1)、取骨骼肌样本,分别对转录组、翻译组、蛋白质组进行建库测序,建库测序方法与常规流程一致,分别获得转录组测序数据、翻译组测序数据、蛋白质组质谱数据;
[0009]步骤2)、对步骤1)获得的转录组数据进行分析,筛选长链非编码RNA内部具有潜在编码能力的ORFs作为集合1;
[0010]步骤3)、分析步骤1)中获得的转录组和翻译组数据,分别计算长链非编码RNA和mRNA的ORFs的核糖体释放评分RRS,以RRS得分大于1.24的ORFs作为候选ORFs,取这些候选ORFs与上述集合1的交集,形成集合2;
[0011]所述步骤3)中RRS的计算公式为:RRS=(RPKMCDS/RPKM3

UTR)
Ribo

seq
/(RPKMCDS/RPKM3

UTR)
RNA

seq
,公式中RPKMCDS表示位于编码区转录本的表达量、RPKM3

UTR表示位于编码区上游3

非编码区转录本的表达量、Ribo

seq代表该部分所分析的数据来源于翻译组测序数据、RNA

seq代表该部分所分析的数据来源于转录组测序数据。
[0012]步骤4)、通过步骤1)中获得的蛋白质组数据分析骨骼肌内所有小肽,与集合2筛选的ORFs可形成的理论翻译小肽比对,筛选能唯一比对的ORFs作为集合3,所述集合3中的ORFs即为所述骨骼肌长链非编码RNA中可编码ORFs。
[0013]优选地,所述步骤2)中筛选长链非编码RNA内部具有潜在编码能力的ORFs作为集合1的步骤为:首先使用ORFfinder工具预测所述转录组数据中长链非编码RNA内部所有潜在ORFs,提取其中起始密码子为ATG且长度范围为60~450bp的ORFs;随后通过fickett和hexamer算法以mRNA编码能力得分前95%做为筛选可编码ORFs的条件,从上述提取的ORFs中筛选具有潜在编码能力的ORFs作为集合1。
[0014]本专利技术的有益效果如下:
[0015]1、本专利技术的方法极大地降低了假阳性ORFs存在的概率:本专利技术的步骤3)和步骤4)均是解决假阳性的关键步骤,其基本原理遵循基因表达的中心法则,从DNA转录到RNA、RNA结合核糖体进行翻译、最后翻译完的小肽即蛋白水平鉴定得到对应的产物。传统方法是基于DNA转录为RNA,然后预测转录本RNA里面潜在的ORFs,本专利技术步骤2)即包含了这种预测与计算。本专利技术在此基础上,继续追踪转录本RNA的哪些部分结合了核糖体进行翻译,这即为步骤3)所述的方案,这个步骤中去除了没有核糖体结合转录本的LncRNA

ORFs,没有核糖体结合转录本的LncRNA

ORFs就是假阳性的ORFs;步骤4)是在蛋白层面对核糖体结合的LncRNA

ORFs进行检测,也就是在步骤3)的基础上进一步去除没有小肽产物的LncRNA

ORFs,即通过小肽产物是否能被检测到,倒推这些LncRNA

ORFs是否能够编码,进一步去除集合2中不能编码的LncRNA

ORFs,极大降低了假阳性分子存在的概率,最终本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分析鉴定筛选骨骼肌长链非编码RNA中可编码ORFs的方法,其特征在于,包括如下步骤:步骤1)、取骨骼肌样本,分别对转录组、翻译组、蛋白质组进行建库测序,建库测序方法与常规流程一致,分别获得转录组数据、翻译组数据、蛋白质组数据;步骤2)、对步骤1)获得的转录组数据进行分析,筛选长链非编码RNA内部具有潜在编码能力的ORFs作为集合1;步骤3)、分析步骤1)中获得的转录组和翻译组数据,分别计算长链非编码RNA和mRNA的ORFs的核糖体释放评分RRS,以RRS得分大于1.24的ORFs作为候选ORFs,取这些候选ORFs与上述集合1的交集,形成集合2;所述RRS的计算公式为:RRS = (RPKM
퐶퐷푆
/ RPKM3

푈푇푅 )
푅푖푏표

푠푒푞 /(RPKM
퐶퐷푆
/ RPKM3

푈푇푅 )
푅푁퐴

푠푒
q
,公式中RPKM
퐶퐷푆
表示位于编码区转录本的表达量、RPKM3

...

【专利技术属性】
技术研发人员:刘庆友黄孔威
申请(专利权)人:佛山科学技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1