一种基于深度学习的长链非编码RNA亚细胞位置预测算法制造技术

技术编号:17033292 阅读:150 留言:0更新日期:2018-01-13 19:37
本发明专利技术涉及RNA生物学领域,具体涉及一种基于深度学习的长链非编码RNA(long noncoding RNA,lncRNA)亚细胞位置预测算法。针对多分类问题训练样本中存在的类别不均衡性,本发明专利技术提出了一种新型的上采样方法来对训练样本进行预处理。采用堆叠的栈式自编码器来对序列的原始特征进行特征提取。本发明专利技术采用了基于深度学习的融合算法来整合多个分类器的预测效果。采用上采样方法大大减小了数据集的不平衡性对分类器效果的影响。在原始特征中有效提取出了区分度较高的更高层次特征。采用基于深度学习的融合算法整合各个分类器的预测结果,提高了鲁棒性,更加适应亚细胞位置多样性和复杂性的具体情形。

【技术实现步骤摘要】
一种基于深度学习的长链非编码RNA亚细胞位置预测算法
本专利技术涉及RNA生物学领域,具体涉及一种基于深度学习的长链非编码RNA(longnoncodingRNA,lncRNA)亚细胞位置预测算法。
技术介绍
非编码RNA(noncodingRNA,ncRNA)已经被证明是重要的调控因子。microRNA(miRNA)和lncRNA是ncRNA的两种主要类型。近年来lncRNA在RNA生物学领域受到极大关注。相关的研究表明lncRNA的位置信息对于了解其复杂的生物学功能有着很大的帮助。此外,它们已被证明是某些疾病的标志物。因此,理解lncRNA的细胞功能已经成为后基因组织时代的核心任务。像蛋白质一样,lncRNA的功能依赖于它们所处的细胞区域。因此,定位信息可以为揭示其功能提供重要的参考。过去十年来,由于通过生物实验鉴定亚细胞定位的困难,亚细胞定位的自动预测已成为生物信息学的热门话题。然而,几乎所有现有的预测工具都是为蛋白质设计的。据了解目前尚没有公开发表的lncRNA亚细胞定位的预测算法。原因主要有两个方面:一方面,由于lncRNA在核基因的调控中起作用,所以大多数lncRNA被认为是专属于核内的。然而最近很多研究发现并证实了他们亚细胞位置的多样性。另一方面,对lncRNA亚细胞定位的预测研究受限于信息源。对于大多数lncRNAs而言,序列特征可能是唯一可用的信息来源。随着新一代测序技术的发展,现在已经有足够序列信息来对lncRNA进行分析研究。基于序列的亚细胞位置预测可以大致分为两类,即基于相似性的搜索算法和机器学习算法。lncRNA在其序列中通常具有很大的多样性。因此,相比于公共数据库中具有丰富的序列信息和定位注释信息的蛋白质,基于机器学习的预测方法更适用于lncRNA亚细胞定位预测的研究。特别是近年来,出现了一些很好的lncRNAs数据库,如RNAlocate(http://www.rna-society.org/rnalocate/)和LncATLAS,其中包含实验验证的lncRNAs的相关知识,这就为训练机器学习模型提供了标准的训练数据集。基于机器学习模型中的一个重要问题是如何将原始数据编码为训练特征。因此,如何从原始序列中提取区分度较高的高层次特征是本专利技术的关键问题。原始的序列词袋特征,如k-mers特征中存在大量的噪声和无效信息,其精度非常有限,使用过长k-mers甚至会导致过拟合和模型复杂度的指数性提升。与传统的机器学习模型不同,无监督的深度学习模型可以自动捕获高级语义表征特征并且具有较机器学习更加优越的学习能力。正是考虑到深度学习模型在特征提取中的突出优势,本专利技术旨在基于堆叠的栈式自编码器框架从lncRNA原始序列中挖掘高层次特征,并开发一种用于预测lncRNA亚细胞位置的计算工具。为了提高性能,还实现了一个集成神经网络,用他来集成多个分类器的预测结果以提升本专利技术的鲁棒性。此外,本专利技术发现训练样本中存在着较为严重的数据分布不平衡问题。例如,在组建的lncRNA数据集中,位于细胞质,细胞核,细胞溶质,核糖体和外来体中的样本数量分别为304,152,96,47和26。大多数机器学习方法的分类结果对主类别存在偏见,而对于同样重要甚至更加重要的少数类别则会表现不佳。因此,本专利技术采用上采样的方法来解决这一问题并且在一定程度上缓解了数据不平衡对实验结果所造成的影响。
技术实现思路
:针对当前领域内没有相关的预测算法的现状,本专利技术的目的在于提供一种长链非编码RNA(longnoncodingRNA,lncRNA)亚细胞位置预测算法。本专利技术是通过以下技术方案实现的:一种基于深度学习的长链非编码RNA亚细胞位置预测算法,算法流程图如图1,包括以下步骤:S1、组建lncRNA序列亚细胞位置预测训练基准数据集;S2、从lncRNA序列中提取原始的k-mer频率特征;S3、采用上采样算法对训练数据进行预处理;S4、采用三层堆叠的栈式自编码器对提取的频率信息就行特征提取,将得到的频率特征和利用模型抽取的特征分别接入随机森林分类器和支持向量机模型训练;S5、将四个分类器的输出概率经过基于神经网络的整合算法进行融合训练输出预测结果。进一步的,所述步骤S1组建lncRNA序列亚细胞位置预测训练基准数据集,数据集组建流程图如图2,具体包括以下步骤:S11、从RNAlocate数据库中提取全部的lncRNA序列,将全部的1361条序列中officialsymbol相同但存在多个亚细胞位置的样本合并预处理,合并后得到1074条记录;S12、清洗序列信息,剔除掉不含亚细胞位置信息的样本序列,清洗后得到714条记录;S13、为了减少序列冗余对于分类器精度的影响,使用cd-hit工具在714条lncRNA序列中删除了冗余度在80%以上的序列样本,随后剔除掉样本量较少的类别,最终选择包含位于5个亚细胞区域的625条序列信息作为基准lncRNA亚细胞位置预测训练数据集(见表1)。表1本专利技术组建的用做lncLocator训练样本的lncRNA亚细胞位置预测数据集。表1进一步的,所述步骤S2从lncRNA序列中提取原始的k-mer频率特征,具体如下:从lncRNA序列中提取原始的k-mer频率特征,所谓的原始的频率特征就是指lncRNA序列中的核苷酸组合特征。假设组建的lncRNA标准数据集为(N1,N2,…,NM),那么lncRNA的序列可以表示为N=B1B2B3B4B5B6…BL,在这里L代表给定序列的核苷酸的个数,根据碱基的不同,B可以被替换为A,C,G或者U中的一个。对于k-mer的核苷酸组成特征而言,可以表示为B1B2B3…Bk,由于B存在ACGU四种可能,所以对应共有4k种不同的组合情况,接下来只需要判定B1B2B3…Bk,B2B3B4…Bk+1,…,BL-k+1BL-k+2BL-k+3…BL分别属于哪种组合情况,因此所提取的特征便是这4k种不同的组成在给定序列中出现的次数。在本专利技术中,由于采用的k-mer特征,故所得到的原始频率特征即为256维,每一维特征对应这种组合在给定序列中出现的次数。进一步的,所述步骤S3采用上采样算法对训练数据进行预处理,数据上采样部分的流程图如图3,具体步骤如下:S31、确定需要上采样的类别,假定为k=1,2,3….接下来利用原始的数据集训练初始分类器——Cmodel,训练得到的分类器用来判断接下来步骤中合成的样本是否被采纳。S32、对需要上采样的类别合成新样本,对每一个需要合成新样本的集合k=1,2,3…,在其中随机选取两个样本和利用下面的公式合成对应类别的新样本λ是0到1之间的随机值。接下来利用之前训练的模型Cmodel来对合成的新样本的可信度进行判别:只要分类的预测结果位于我们之前设定的阈值之中则该样本会被采纳。S33、重复训练直到每个类别达到预先设定的样本数量。进一步的,所述步骤S4采用三层堆叠的栈式自编码器对提取的频率信息就行特征提取,将得到的频率特征和利用模型抽取的特征分别接入随机森林分类器和支持向量机模型训练,具体如下:S41、构建并训练堆叠的三层栈式自编码网络对原始频率特征进行特征提取。栈式自编码器是一个利用输出来重构输入的神经网络模型。对于一个栈式自编码器而言它存在一本文档来自技高网
...
一种基于深度学习的长链非编码RNA亚细胞位置预测算法

【技术保护点】
一种基于深度学习的长链非编码RNA亚细胞位置预测算法,其特征在于:包括以下步骤:S1、组建lncRNA序列亚细胞位置预测训练基准数据集;S2、从lncRNA序列中提取原始的k‑mer频率特征;S3、采用上采样算法对训练数据进行预处理;S4、采用三层堆叠的栈式自编码器对提取的频率信息就行特征提取,将得到的频率特征和利用模型抽取的特征分别接入随机森林分类器和支持向量机模型训练;S5、将四个分类器的输出概率经过基于神经网络的整合算法进行融合训练输出预测结果。

【技术特征摘要】
1.一种基于深度学习的长链非编码RNA亚细胞位置预测算法,其特征在于:包括以下步骤:S1、组建lncRNA序列亚细胞位置预测训练基准数据集;S2、从lncRNA序列中提取原始的k-mer频率特征;S3、采用上采样算法对训练数据进行预处理;S4、采用三层堆叠的栈式自编码器对提取的频率信息就行特征提取,将得到的频率特征和利用模型抽取的特征分别接入随机森林分类器和支持向量机模型训练;S5、将四个分类器的输出概率经过基于神经网络的整合算法进行融合训练输出预测结果。2.根据权利要求1所述的一种基于深度学习的长链非编码RNA亚细胞位置预测算法,其特征在于:所述步骤S1具体包括以下步骤:S11、从RNAlocate数据库中提取全部的lncRNA序列,将全部的1361条序列中officialsymbol相同但存在多个亚细胞位置的样本合并预处理,合并后得到1074条记录;S12、清洗序列信息,剔除掉不含亚细胞位置信息的样本序列,清洗后得到714条记录;S13、在714条lncRNA序列中删除冗余度在80%以上的序列样本,剔除掉样本量较少的类别,选定包含位于5个亚细胞区域的625条序列信息作为基准lncRNA亚细胞位置预测训练数据集。3.根据权利要求1所述的一种基于深度学习的长链非编码RNA亚细胞位置预测算法,其特征在于:步骤S2中所述原始的频率特征是指lncRNA序列中的核苷酸组合特征,采用k-mer特征,得到的原始频率特征为256维,每一维特征对应这种组合在给定序列中出现的...

【专利技术属性】
技术研发人员:曹真杨旸沈红斌
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1