一种预测siRNA沉默效率的方法技术

技术编号:26480679 阅读:35 留言:0更新日期:2020-11-25 19:26
本发明专利技术揭示了一种预测siRNA沉默效率的方法,其特征在于:在输入层设置特征提取模块对数据集进行特征提取和处理,使用多模motif输入结合词向量预训练模型获得序列词向量、循环神经网络提取序列的潜在特征并引入注意力模型,利用逻辑回归模块计算得到siRNA沉默效率的预测结果。应用本发明专利技术预测siRNA沉默效率的技术解决方案,通过训练得到神经网络模型能提高对输入序列进行预测的效率,为实验人员提供效率上的参考,减少试验次数,降低时间与金钱成本;有利于实现沉默效率预测的量化,并提升预测准确度,模型预测效果在Husken数据集上PCC值达到0.716。

【技术实现步骤摘要】
一种预测siRNA沉默效率的方法
本专利技术涉及一种研究基因沉默的方法,尤其涉及一种预测siRNA沉默效率的方法,属于计算机应用领域。
技术介绍
在探索基因的过程中,人们发现了RNA干扰(RNAi)这一现象,发现微量的双链RNA能够抑制某个基因的表达,能够起到基因沉默的效果。经过多年的研究,RNA干扰技术逐渐成熟,如今RNA干扰技术已经被广泛应用在基因调控筛选、基因功能分析、生物制药、疾病治疗等方面。RAN干扰主要通过两种媒介实现:一种是小干扰RNA(siRNA),另一种是微小RNA(miRNA)。它们产生基因抑制效果的主要步骤类似,以siRNA为例,细胞中的dsRNA被Dicer酶特异性识别后,会被切割为短链siRNA分子,siRNA会与靶mRNA结合,最终实现靶mRNA的降解。实现RNA干扰的关键是设计高效的siRNA序列,完全依靠生物学实验来设计siRNA序列,将消耗大量的资金和时间。而早期用总结的规则来设计siRNA,同样存在效率低下、准确率低的问题。siRNA沉默效率预测在早期主要是基于实验经验,总结针对某些特定位置碱基的设计规则。在2002年,SaydaM.Elbashir首先提出了一种siRNA设计规则,但是只考虑到的GC碱基的含量。后来TimothyA.Vickers和AnastasiaKhvorova分别提出siRNA沉默效率会受到mRNA二级结构和热力学稳定性影响。接下来AngelaReynolds、KumikoUi-Tei、MohammedAmarzguioui、AndrewC.Hsieh、KathyQ.Luo等人分别提出一系列针对siRNA序列及其沉默效率关系的规则。但这些规则大多存在样本量少、规则不够具体、不同规则间存在矛盾、无法定量预测缺点。后来人们开始使用机器学习算法,这相对以往的基于规则的算法效率更高,准确性也更高。最早是在2004年,Saetrom使用GP算法进行siRNA的分类,后来分别由Teramoto、Shabalina、Huesken、Vert等人提出SVM模型、人工神经网络模型、线性回归模型等来预测siRNA沉默效率。他们利用不同的算法建立预测模型,相比基于规则的方法更有效。但是普遍存在只能对siRNA进行高效和低效的分类,而无法定量预测,并且不同算法划分高效和低效的阈值不同,不同模型间缺少可比性。近年来,开始有研究者使用深度学习模型来对siRNA序列进行沉默效率的预测。其中具有代表性的是2017年韩烨等人提出的用CNN网络模型预测siRNA沉默效率的方法,他们在Husken数据集上进行了训练,最后的相关系数达到了0.717,并在2018年优化模型,结合了DNN,使模型效果达到了0.725。韩烨的成功也验证了深度学习方法在RNAi领域内的可行性,基于深度学习的预测方法目前已经成为研究siRNA沉默效率的主要研究方向。深度学习方法开始于MP模型的提出,它本质上其实是对人类思维的模拟。2006年神经网络开始了爆发式发展,一方面是GeoffreyHinton在Science上提出了训练深层网络的新思想,解决了梯度消失的问题,另一方面也得益于目前计算机算力的提升和数据规模的迅速增大。深度学习相比传统机器学习具有从数据中挖掘有效特征的能力,这避免了人为的特征工程。同时使用比较简单的表示来表达复杂的表示,如在图像处理中先提取边再到角、轮廓最后图像整体。深度神经网络的训练过程分为前向传播和反向传播。前向传播是,在接收输入数据后,数据从输入层向输出层流动,这称为前向传播。而在训练过程中,我们需要不断更新参数来优化模型,这个过程通常是从输出层流向输入层,是反向传播。在普通的RNN(RecurrentNeuralNetwork)网络中,反向传播阶段更新参数时,容易出现梯度消失的问题,即在距离输出较远的地方,梯度就会变得变得非常小,从而导致无法很好的训练远处的节点参数。在机器学习及深度学习相关任务中,数据的编码是很重要的一个环节。自然语言处理任务中的文本数据,需要人为的为文本数据编码,一方面要能够表示出词汇的唯一性,另一方面还需要表示其在语句中的含义。早期在这方面主要是使用离散型的编码,最初是ont-hot,后来逐渐出现了词袋编码、Bi-gram、N-gram以及TF-IDF等编码。这些编码主要还是基于ont-hot的思想以及词频的计数和统计。后来发展出了分布式的表示方法,经典的方法有2003年提出的NNLM(NeuralNetworkLanguagemodel)以及2013年的word2vec。Ont-hot编码的基本思想是让每个词都表示成互不相同的二进制串,词编码的维度便是词汇的总数,编码中只有1位为1,其余都为0。One-hot的优点是将文字转换成了可使用的数字编码,缺点是编码的结果太稀疏,且无法表示词汇在语句中的重要性、语义、和其他词汇的关系等。在one-hot的基础上,发展出了BagofWords即词袋编码。它也只是简单地将文本中所有词汇的编码相加,得到一个整体的编码,同时可以获得每个词汇在文本中的出现次数。后来出现了Bi-gram和N-gram,这两种编码方式基本相同,在BagofWords的基础上,Bi-gram是对相邻的两个词编码,N-gram则是对相邻的N个词编码,Bi-gram相当于N-gram中N等于2的情况。此外还有基于频率统计的TF-IDF编码等。最早是由Bengio在2003年提出了NeuralNetworkLanguagemodel(NNLM),基本思想是用前n-1个词预测第n个词,并且使用长度为n-1的滑动窗口遍历文本中的词汇,使得目标概率之和最大。最后求出的所有词的概率之和应该为1。令wn为待预测词汇,前n-1个词分别是w1..n-1,则目标函数和约束条件可以表示如下:∑w∈vocabularyP(w|wt-n+1,...,wt-1)=1(2)训练过程中要不断地调整神经网络的参数,在训练第i个词时,可以优化前n-1个词的编码,当所有语料训练完毕,可以得到所有词汇的分布式表示,保存在MatrixC中,MatrixC格式如式(3)所示:其中参数D为词汇的编码维度。使用MatrixC预测候选词时,使用前n-1个词的编码,因此隐藏层存在(n-1)*D个节点,输出层使用Softmax回归,神经元个数与词汇总数相同。NNLM模型解决了词汇在语义表示上的问题,联系前文的内容表示当前词,但是缺点也很明显,计算量会非常大。此外,注意力机制最早在视觉图像领域提出来的,用于给予需要重点关注的目标区域(注意力焦点)更重要的注意力,同时基于周围的图像更低的注意力,然后随着时间的推移调整焦点。NLP领域的注意力机制最早可以追溯到2015年Bahdanau等提出的《NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate》,后续陆续提出了各种注意力模型。直观上可以把注意力机制理解成为模型添加一层本文档来自技高网...

【技术保护点】
1.一种预测siRNA沉默效率的方法,其特征在于:在输入层设置特征提取模块对数据集进行特征提取和处理,使用词向量预训练模型获得序列词向量,并结合循环神经网络提取序列的潜在特征,再利用逻辑回归模块计算得到siRNA沉默效率的预测结果。/n

【技术特征摘要】
1.一种预测siRNA沉默效率的方法,其特征在于:在输入层设置特征提取模块对数据集进行特征提取和处理,使用词向量预训练模型获得序列词向量,并结合循环神经网络提取序列的潜在特征,再利用逻辑回归模块计算得到siRNA沉默效率的预测结果。


2.根据权利要求1所述预测siRNA沉默效率的方法,其特征在于:在输入层使用多模motif输入,所述词向量预训练模型至少为word2vec模型、glove模型、ELMo模型、BERT模型中的一种,且循环神经网络中引入有注意力模型。


3.根据权利要求1所述预测siRNA沉默效率的方法,其特征在于包括步骤:
S1、在输入层将包含AUGCT五种碱基、长度介于19bp至29bp之间且已知的siRNA序列及对应的沉默效率整合构成数据集;
S2、将数据集中各个siRNA序列分别提取特征,令一模motif为G、C、A、T或U的单个碱基,二模motif为双连续碱基,三模motif为三连续碱基,进行多模motif输入;
S3、在Embedding层对提取的特征进行编码,并使用数据集训练word2vec模型,将前步训练模型的输入Embedding权重作为后续模型的Embedding编码值;
S4、在LSTMAttention层将编码好的siRNA序列特征输入到LSTM循环神经网络中进行模型训练,通过反向传播在训练阶段调整参数,并通过注意力模型更新每个位置的权重参数,逐一与siRNA序列对应位置原始生成的隐状态相乘后累加,得到处理结果;
S5、将处理结果输入逻辑回归模块的多层感知机,得到siRNA序列沉默效率的预测模型。


4.根据权利要求1或2所述预测siRNA沉默效率的方法,其特征在于:...

【专利技术属性】
技术研发人员:徐迪张佩珩
申请(专利权)人:中国科学院计算技术研究所苏州智能计算产业技术研究院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1