基于深度学习区别编码和非编码核糖核酸的方法技术

技术编号:31485995 阅读:26 留言:0更新日期:2021-12-18 12:21
本发明专利技术公开了一种基于深度学习区别编码和非编码核糖核酸的方法,具体为:从数据库中筛选出长度大于200nt的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列,将筛选出的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列进行类平衡处理,然后处理后的每一条转录本序列转化为k

【技术实现步骤摘要】
基于深度学习区别编码和非编码核糖核酸的方法


[0001]本专利技术属于计算生物信息学
,涉及一种基于深度学习区别编码和非编码核糖核酸的方法。

技术介绍

[0002]长链核糖核酸是转录本长度超过200个碱基的RNA分子,包括长链编码核糖核酸和长链非编码核糖核酸。长链非编码核糖核酸不能编码蛋白质,起初被认为是基因组转录的噪音,是核糖核酸聚合酶转录的副产物,不具有生物学功能。然而,近年来的研究表明,长非编码核糖核酸参与染色质修饰、转录激活、转录干扰等多种重要的调控过程。目前,已经有许多方法用来区分长链编码与非编码的转录本序列,主要是依据开放阅读框特征、进化特征等方法,这些方法会受到不良基因注释的影响和需要消耗大量的时间。

技术实现思路

[0003]本专利技术的目的是提供一种基于深度学习区别编码和非编码核糖核酸的方法,解决了现有技术中存在的会受到不良基因注释和需要消耗大量的计算时间的问题。
[0004]本专利技术所采用的技术方案是,基于深度学习区别编码和非编码核糖核酸的方法,具体按照如下步骤实施:/>[0005]步骤本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于深度学习区别编码和非编码核糖核酸的方法,具体按照如下步骤实施:步骤1,从数据库中筛选出长度大于200nt的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列,将筛选出的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列进行类平衡处理;步骤2,将步骤1进行类平衡处理之后的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列中的每一条转录本序列转化为k

mer频率;步骤3,构建卷积神经网络模型,选取相同数量的经步骤1中的经类平衡处理后的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列作为训练样本数据,将输入构建的卷积神经网络模型中进行训得到预测模型,将待区分的核酸序列输入到预测模型中得到区分结果。2.根据权利要求1所述的基于深度学习区别编码和非编码核糖核酸的方法,其特征在于,所述步骤1中为从RefSeq数据库中下载人的长非编码核糖核酸转录本数据和信使核糖核酸转录本数据,然后从转录本数据中从筛选的出序列长度大于200nt的长非编码核糖核酸转录本和信使核糖核酸转录本。3.根据权利要求2所述的基于深度学习区别编码和非编码核糖核酸的方法,其特征在于,所述步骤1中将筛选出的长非编码核糖核酸转录本序列和信使核糖核酸转录本序列进行类平衡处理即就是:从筛选的长非编码核糖核酸转录本和信使核糖核酸转录本随机挑选出相同数量的长非编码核糖核酸转录本和信使核糖核酸转录本。4.根据权利要求3所述的基于深度学习区别编码和非编码核糖核酸的方法,其特征在于,所述步骤2中将长非编码核糖核酸转录本序列和信使核糖核酸转录本序列中的每一条转录本序列转化为k

mer频率具体为:首先将每一条转录本序列转化为k

mer模式,其中,一个k

mer模式是指一个具有k个核苷酸的特定字符串,每个字符串都是由A,T,G,C四种碱基组成,其中k=1,2,3,4,5,6,当k=1时,有A,T,G,C四种模式;当k=2时,有AA,AT,AC,AG,TA,TT,TC,TG,
……
,GG,16种模式,依次类推,当k=3时,有64种模式;当k=4时,有256个模式;当k=5时,有1024个模式;当k=6时,有4096个模式,因此,每一条转录本序列共有4+16+64+256+1024+4096=5460个模式;然后,以k作为滑动窗口的长度,将滑动窗口沿着每一条转录本序列滑动,滑动窗口的步长设置为1,滑动窗口在每条转录本序列上滑动时,如果在滑动窗口内的字符串与5460个模式中的某种模式匹配,则在该条转录本序列中该模式出现次数加1,由c
i
表示,i=1,2,3,

,5460,即就是c
i
表示在某条转录本序列中模式...

【专利技术属性】
技术研发人员:李爱民熊思琪周红芳费蓉刘雅君王竹荣魏嵬袁细国黑新宏王磊
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1