RNA二级结构预测方法及装置制造方法及图纸

技术编号:38193434 阅读:13 留言:0更新日期:2023-07-20 21:13
本发明专利技术实施例提供了一种RNA二级结构预测方法及装置,涉及人工智能的技术领域,方法包括S1:获取RNA碱基顺序及其配对序列,并对所述RNA碱基顺序及其配对序列进行特征处理,以获取RNA碱基序列训练集;S2:构建双向LSTM神经网络,在所述构建双向LSTM神经网络输出端引入注意力层,在所述注意力层输出端引入全连接分类器以构建双向LSTM

【技术实现步骤摘要】
RNA二级结构预测方法及装置


[0001]本专利技术神经网络预测的
,尤其是涉及一种RNA二级结构预测方法及装置。

技术介绍

[0002]预测RNA结构有重要意义,根据遗传法则,RNA是基因的载体,在基因的选择与表达、基因调控、密码子与反密码子的结合和蛋白质翻译等生物过程中发挥着关键作用。具体而言,ncRNA在高等生物中具有关键作用,是RNA家族中的重要一份子、对于转录和转录后调节以及染色质修饰复合物提供依据。
[0003]RNA分子具有三层结构,分别为一级序列、二级结构和三级空间结构三个层次。RNA三级空间结构是由二级结构单元之间的相互作用、扭曲、折叠等产生的。是在空间中形成的稳定结。因此,预测RNA二级结构是鉴定三级结构的重要依据。也是帮助我们了解RNA机制,了解遗传发展、了解蛋白质与各种生物活性的重要前提。
[0004]现有技术中,一些传统的RNA二级结构方法有如下几种:
[0005]1)比较序列分析法:以RNA序列中互补碱基间的共变联配(covariant

alignment)活动为基础;以已知的RNA序列的数据为依据标准,以查找被测算RNA序列中的高近似度序列为手段;以一定的相关数学模型为依托,共同研究推算所给RNA序列的二级结构,其缺点是对于较少、甚至是一条序列,以及同源性低的序列不适合使用,测算结果较差;
[0006]2)动态规划法:最大碱基配对算法基于在碱基互补配对的过程中碱基间的氢键能让两个碱基比较紧密地结合在一起的基本假设,RNA结构中配对的碱基对越多,连接的氢键越多,结构就越稳定,但其没有考虑到连续碱基对可以形成茎区这一更为稳定的结构,因此预测出二级结构中各个碱基对是不连续的,不能够形成稳定的茎区;
[0007]3)组合优化的方法:根据碱基配对可以构成各式各样不同种类的茎区,茎区组合的种类繁多茎区数量大,因此该问题灵活性很大,也容易产生错误。
[0008]综上所述,现有技术中,RNA二级结构预测方法的梯度爆炸和消失问题以及正负样本之间的不平衡的技术问题,进而提高RNA二级结构预测的准确率。

技术实现思路

[0009]有鉴于此,本专利技术的目的在于提供一种RNA二级结构预测方法,以缓解现有技术中RNA二级结构预测方法中梯度爆炸和消失问题以及正负样本之间的技术问题。同时,本专利技术使用CDCGAN从现有的数据特征中获取新的数据特征,并通过图像扩展技术的应用实现了RNA序列数据量的扩充。更加的高效快捷,对特征的处理能力更好提高了RNA预测系统的准确率。
[0010]第一方面,本专利技术提供了RNA二级结构预测方法,具体包括如下步骤:
[0011]S101:获取RNA碱基顺序及其配对序列,并对所述RNA碱基顺序及其配对序列进行特征处理,以获取RNA碱基序列训练集;
[0012]S102:构建双向LSTM神经网络,在所述构建双向LSTM神经网络输出端引入注意力
层,在所述注意力层输出端引入全连接分类器以构建双向LSTM

注意力神经网络,利用所述RNA碱基序列训练集对所述双向LSTM

注意力神经网络进行训练;
[0013]所述RNA碱基顺序及其配对序列进行特征处理,以获取RNA碱基序列训练集的步骤包括:
[0014]1)将所述RNA碱基顺序及其配对序列进行one

hot编码以生成第一矩阵;
[0015]2)将所述RNA碱基顺序及其配对序列进行点括号编码值,所述点括号编码值用于获取所述RNA碱基顺序及其配对序列的点括号编码值灰度图,构建并利用CDCGAN网络的生成器与鉴别器进行生成与对抗对所述RNA碱基顺序及其配对序列的点括号编码值灰度图进行扩充以及特征优化,生成第二矩阵;
[0016]3)基于第一矩阵以及第二矩阵获取RNA碱基序列训练集。
[0017]一种可能的方式是,所述基于第一矩阵以及第二矩阵获取RNA碱基序列训练集的步骤包括:
[0018]将所述第一特征矩阵以及第二特征矩阵进行相加以获取第三特征矩阵;
[0019]所述第三矩阵划分所述RNA碱基序列训练集。
[0020]一种可能的方式是,获取第一特征矩阵步骤包括:
[0021]将所述RNA碱基顺序及其配对序列进行one

hot编码,获取mask值、某个配对的碱基占所有配对碱基的比例以及标签,碱基具体为

A



G



C



U


[0022]基于将所述RNA碱基顺序及其配对序列进行one

hot编码所获取的编码值、mask值、某个配对的碱基占所有配对碱基的比例以及标签获取所述第一矩阵。
[0023]一种可能的方式是,所述CDCGAN网络包括生成器以及判别器,所述生成器对所述RNA碱基顺序及其配对序列的点括号编码值灰度图进行扩充;
[0024]所述判别器用于判定扩充的所述RNA碱基顺序及其配对序列的点括号编码值灰度图是否为真样本;
[0025]采用如下方式进行CDCGAN网络的生成与对抗:
[0026]A:对生成器进行训练:即固定判别器,单独对生成器进行训练,直至判别器的误判别误差超过预设的第一阈值;
[0027]B:对判别器进行训练:即固定生成器,单独对判别器进行训练,直至判别器的误判别误差小过预设的第二阈值。
[0028]一种可能的方式是,所述构建双向LSTM神经网络,在所述构建双向LSTM神经网络输出端引入注意力层,在所述注意力层输出端引入全连接分类器以构建双向LSTM

注意力神经网络,利用所述RNA碱基序列训练集对所述双向LSTM

注意力神经网络进行训练的步骤包括:
[0029]构建双向LSTM神经网络并对所述双向LSTM神经网络进行训练以生成张量,引入注意力层对生成的张量进行训练,并对注意力层输出的数据采用全连接分类器进行分类。
[0030]一种可能的方式是,所述RNA碱基序列训练集为总长度
×
8的训练矩阵,所述构建双向LSTM神经网络并对所述双向LSTM神经网络进行训练以生成张量的步骤包括:
[0031]将所述RNA碱基序列训练集为总长度
×
8的训练矩阵进行如下处理
[0032](1):所述双向LSTM神经网络获取上一时刻的输出值以及本时刻的输入值,将上一时刻的输出值以及本时刻的输入值进入遗忘门以获取要舍弃的信息;
[0033](2):将上一时刻的输出值以及本时刻的输入值进入输出门确定要更新的信息以及当前细胞状态
[0034](3):将(1)中遗忘门的输出与(2)中输入门的输出进行组合以获取长时信息以及短时信息作为第一输出量。
[0035]一种可能的方式是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种RNA二级结构预测方法,其特征在于,具体包括如下步骤:S101:获取RNA碱基顺序及其配对序列,并对所述RNA碱基顺序及其配对序列进行特征处理,以获取RNA碱基序列训练集;S102:构建双向LSTM神经网络,在所述构建双向LSTM神经网络输出端引入注意力层,在所述注意力层输出端引入全连接分类器以构建双向LSTM

注意力神经网络,利用所述RNA碱基序列训练集对所述双向LSTM

注意力神经网络进行训练;对所述RNA碱基顺序及其配对序列进行特征处理,以获取RNA碱基序列训练集的步骤包括:1)将所述RNA碱基顺序及其配对序列进行one

hot编码以生成第一矩阵;2)将所述RNA碱基顺序及其配对序列进行点括号编码值,所述点括号编码值用于获取所述RNA碱基顺序及其配对序列的点括号编码值灰度图,构建并利用CDCGAN网络的生成器与鉴别器进行生成与对抗对所述RNA碱基顺序及其配对序列的点括号编码值灰度图进行扩充以及特征优化,生成第二矩阵;3)基于第一矩阵以及第二矩阵获取RNA碱基序列训练集。2.根据权利要求1所述的方法,其特征在于,所述基于第一矩阵以及第二矩阵获取RNA碱基序列训练集的步骤包括:将所述第一特征矩阵以及第二特征矩阵进行相加以获取第三特征矩阵;所述第三矩阵划分所述RNA碱基序列训练集。3.根据权利要求2所述的方法,其特征在于,获取第一特征矩阵步骤包括:将所述RNA碱基顺序及其配对序列进行one

hot编码,获取mask值、某个配对的碱基占所有配对碱基的比例以及标签,碱基具体为

A



G



C



U

;基于将所述RNA碱基顺序及其配对序列进行one

hot编码所获取的编码值、mask值、某个配对的碱基占所有配对碱基的比例以及标签获取所述第一矩阵。4.根据权利要求2所述的方法,其特征在于,所述CDCGAN网络包括生成器以及判别器,所述生成器对所述RNA碱基顺序及其配对序列的点括号编码值灰度图进行扩充;所述判别器用于判定扩充的所述RNA碱基顺序及其配对序列的点括号编码值灰度图是否为真样本;采用如下方式进行CDCGAN网络的生成与对抗:A:对生成器进行训练:即固定判别器,单独对生成器进行训练,直至判别器的误判别误差超过预设的第一阈值;B:对判别器进行训练:即固定生成器,单独对判别器进行训练,直至判别器的误判别误差小过预设的第二阈值。5.根据权利要求1所述的方法,其特征在于,所述构建双向LSTM神经网络,在所述构建双向LSTM神经网络输出端引入注意力层,在所述注意力层输出端引入全连接分类器以构建双向LSTM

注意力神经网络,利用所述RNA碱基序列训练集对所述双向LSTM

注意力神经网络进行训练的步骤包括:构建双向LSTM神经网络并对所述双向LSTM神经网络进行训练以生成张量,引入注意力层对生成的张量进行训练,并对注意力层输出的数据采用全连接分类器进行分类。6.根据权利要求5所述的方法,其特征在于,所述RNA碱基序列训练集为总长度
×
8的训
练矩阵,所述构建双...

【专利技术属性】
技术研发人员:沈丛陈海飞
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1