【技术实现步骤摘要】
RNA二级结构预测方法及装置
[0001]本专利技术神经网络预测的
,尤其是涉及一种RNA二级结构预测方法及装置。
技术介绍
[0002]预测RNA结构有重要意义,根据遗传法则,RNA是基因的载体,在基因的选择与表达、基因调控、密码子与反密码子的结合和蛋白质翻译等生物过程中发挥着关键作用。具体而言,ncRNA在高等生物中具有关键作用,是RNA家族中的重要一份子、对于转录和转录后调节以及染色质修饰复合物提供依据。
[0003]RNA分子具有三层结构,分别为一级序列、二级结构和三级空间结构三个层次。RNA三级空间结构是由二级结构单元之间的相互作用、扭曲、折叠等产生的。是在空间中形成的稳定结。因此,预测RNA二级结构是鉴定三级结构的重要依据。也是帮助我们了解RNA机制,了解遗传发展、了解蛋白质与各种生物活性的重要前提。
[0004]现有技术中,一些传统的RNA二级结构方法有如下几种:
[0005]1)比较序列分析法:以RNA序列中互补碱基间的共变联配(covariant
‑
alignment)活动为基础;以已知的RNA序列的数据为依据标准,以查找被测算RNA序列中的高近似度序列为手段;以一定的相关数学模型为依托,共同研究推算所给RNA序列的二级结构,其缺点是对于较少、甚至是一条序列,以及同源性低的序列不适合使用,测算结果较差;
[0006]2)动态规划法:最大碱基配对算法基于在碱基互补配对的过程中碱基间的氢键能让两个碱基比较紧密地结合在一起的基本假设,RNA结构中配对 ...
【技术保护点】
【技术特征摘要】
1.一种RNA二级结构预测方法,其特征在于,具体包括如下步骤:S101:获取RNA碱基顺序及其配对序列,并对所述RNA碱基顺序及其配对序列进行特征处理,以获取RNA碱基序列训练集;S102:构建双向LSTM神经网络,在所述构建双向LSTM神经网络输出端引入注意力层,在所述注意力层输出端引入全连接分类器以构建双向LSTM
‑
注意力神经网络,利用所述RNA碱基序列训练集对所述双向LSTM
‑
注意力神经网络进行训练;对所述RNA碱基顺序及其配对序列进行特征处理,以获取RNA碱基序列训练集的步骤包括:1)将所述RNA碱基顺序及其配对序列进行one
‑
hot编码以生成第一矩阵;2)将所述RNA碱基顺序及其配对序列进行点括号编码值,所述点括号编码值用于获取所述RNA碱基顺序及其配对序列的点括号编码值灰度图,构建并利用CDCGAN网络的生成器与鉴别器进行生成与对抗对所述RNA碱基顺序及其配对序列的点括号编码值灰度图进行扩充以及特征优化,生成第二矩阵;3)基于第一矩阵以及第二矩阵获取RNA碱基序列训练集。2.根据权利要求1所述的方法,其特征在于,所述基于第一矩阵以及第二矩阵获取RNA碱基序列训练集的步骤包括:将所述第一特征矩阵以及第二特征矩阵进行相加以获取第三特征矩阵;所述第三矩阵划分所述RNA碱基序列训练集。3.根据权利要求2所述的方法,其特征在于,获取第一特征矩阵步骤包括:将所述RNA碱基顺序及其配对序列进行one
‑
hot编码,获取mask值、某个配对的碱基占所有配对碱基的比例以及标签,碱基具体为
‘
A
’
,
‘
G
’
,
‘
C
’
,
‘
U
’
;基于将所述RNA碱基顺序及其配对序列进行one
‑
hot编码所获取的编码值、mask值、某个配对的碱基占所有配对碱基的比例以及标签获取所述第一矩阵。4.根据权利要求2所述的方法,其特征在于,所述CDCGAN网络包括生成器以及判别器,所述生成器对所述RNA碱基顺序及其配对序列的点括号编码值灰度图进行扩充;所述判别器用于判定扩充的所述RNA碱基顺序及其配对序列的点括号编码值灰度图是否为真样本;采用如下方式进行CDCGAN网络的生成与对抗:A:对生成器进行训练:即固定判别器,单独对生成器进行训练,直至判别器的误判别误差超过预设的第一阈值;B:对判别器进行训练:即固定生成器,单独对判别器进行训练,直至判别器的误判别误差小过预设的第二阈值。5.根据权利要求1所述的方法,其特征在于,所述构建双向LSTM神经网络,在所述构建双向LSTM神经网络输出端引入注意力层,在所述注意力层输出端引入全连接分类器以构建双向LSTM
‑
注意力神经网络,利用所述RNA碱基序列训练集对所述双向LSTM
‑
注意力神经网络进行训练的步骤包括:构建双向LSTM神经网络并对所述双向LSTM神经网络进行训练以生成张量,引入注意力层对生成的张量进行训练,并对注意力层输出的数据采用全连接分类器进行分类。6.根据权利要求5所述的方法,其特征在于,所述RNA碱基序列训练集为总长度
×
8的训
练矩阵,所述构建双...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。