一种基于条件扩散模型的核糖核酸二级结构预测方法技术

技术编号：40354780 阅读：9 留言：0更新日期：2024-02-09 14:40

本发明专利技术公开了一种基于条件扩散模型的核糖核酸二级结构预测方法，将RNA二级结构预测任务转化为图像中的分类任务，训练由Unet作为去噪网络的扩散模型，同时，通过扩散模型结合不同形式的条件，融入包含先验知识的约束，在测试阶段随机从分类分布中采样得到随机噪声x<subgt;T</subgt;,给定RNA序列作为条件，经过反向去噪T步得到预测的二级结构接触图。本发明专利技术利用了扩散模型的长程学习能力和条件融入形式，提升了对于复杂拓扑结构的捕获能力，提高了预测的精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物信息学、计算机核酸结构预测领域，尤其涉及一种基于条件扩散模型的核糖核酸二级结构预测方法。

技术介绍

1、核糖核酸(rna)在生命活动中承担着重要的生物学功能，准确地对rna结构建模是理解其功能的关键。相比于蛋白质而言，rna保守性小得多，结构上更加灵活，这种灵活性使rna结构的研究具有挑战性。从不同维度上看，rna可以分为一级结构、二级结构和三级结构。现有测定rna三级结构的实验方法包括x射线晶体学、核磁共振、冷冻电镜和其他技术方法，这些方法测定的三级结构的精度和可信度很高，然而由于实验成本昂贵、低通量和技术难度大等局限性，难以得到大规模应用。相比于三级结构而言，rna二级结构在细胞内含量丰富且稳定，实验测定难度和成本更低。同时，rna二级结构中包含的拓扑结构有助于预测三级结构和理解生物学功能。因此，预测rna二级结构对于推动三级结构预测方法的发展和rna功能的研究具有重要意义。

2、rna二级结构预测是指确定rna分子中碱基之间的配对关系和空间结构的过程。rna二级结构描述了rna中碱基对的形成方式，包括核苷酸之间的碱基配对、链的方向以及链与链之间的交互。现有的rna二级结构预测方法大体可以分为三种类型：多序列方法、热力学方法和基于深度学习的方法。多序列方法是指通过比较不同rna序列之间的结构和功能关系，在已知结构的同源序列中搜索模板来确定预测序列的保守区域和功能元件的方法。当预测序列中存在较高质量的同源序列时，该方法可以获得目前最精确的预测结果，并且可以预测复杂拓扑结构；但当缺少同源序列或者同源

3、名词解释：

4、rnastralign∶rna二级结构数据集名称。

5、bprna-1m：rna二级结构数据集名称。

6、cdpfold：一种获得rna碱基之间配对概率的方法，输入为长度为l的rna序列，输出为l×l的二维概率矩阵，具体流程见说明书附图2。

7、adam optimizer方法：一种常用的优化算法，主要用于深度学习中的梯度下降。

8、真实接触图：一种表示rna二级结构的形式，对于长度为l的rna序列，输出l×l的接触图，其中对于每个位置，碱基配对为1，不配对为0。

9、rna-fm预训练网络：一种通用的rna预训练基础大模型，输入为rna序列，输出为包含语义信息的rna表示。

技术实现思路

1、为解决上述技术问题，本专利技术提出了一种基于条件扩散模型的核糖核酸二级结构预测方法。

2、本专利技术的目的通过以下技术方案实现：

3、一种基于条件扩散模型的核糖核酸二级结构预测方法，包括如下步骤：

4、步骤一、构建核酸序列数据集；

5、步骤二、构建核糖核酸二级结构预测网络；所述核糖核酸二级结构预测网络包括unet概率预测网络、rna-fm预训练网络和条件扩散模型网络；unet概率预测网络用于根据输入的核酸序列输出对应1×l×l的图像类似条件信息cimg，l表示输入的核酸序列的长度；

6、rna-fm预训练网络用于根据输入的核酸序列输出640×l的序列类似条件信息cseq；

7、所述条件扩散模型网络用于根据输入的核酸序列数据的核酸序列经过unet概率预测网络得到的图像类似条件信息cimg和经过rna-fm预训练网络得到的序列类似条件信息cseg作为条件控制信息，从完全随机的噪声中逐步预测得到与核酸序列相应的二级结构接触图；

8、核糖核酸二级结构预测网络的总损失函数如下：

9、

10、其中，表示总损失函数，其中kl表示kl散度计算，定义形式为t表示总去噪步数，t表示当t时刻的去噪步，xt表示t时刻的预测接触图，x0表示0时刻的接触图，即真实接触图，q(·|·)表示前向加噪过程中获得的后验分布，p(·|·)表示反向训练过程中需要学习拟合的分布，k表示总类别数，k表示第k个类别；θpost(xt，x0)表示给定0和t时刻的接触图x0、xt预测t-1时刻接触图xt-1的后验概率分布；表示通过unet神经网络f(·)预测得到的t＝0时刻的接触图，表示利用unet神经网络f(·)直接输出预测的性质将log p(x0|x1)简化为计算熵的形式，其中，x0,k、分别表示第k个x0、

11、步骤三、将训练集输入核糖核酸二级结构预测网络进行训练直至总损失函数收敛或达到预设的训练总周期e得到训练好的核糖核酸二级结构预测网络；

12、步骤四，将待预测二级结构的核糖核酸序列输入训练好的核糖核酸二级结构预测网络得到预测结构。

13、进一步的改进，所述核酸序列数据集包括训练集、验证集和测试集；

14、进一步的改进，所述核酸序列数据集的构建方法如下：

15、1.1构建初始数据集：

16、从mathews lab获取rnastralign和archiveii数据集，从bprna数据库获取bprna-1m数据集，从rfam14.2收集bprna-new数据集，上述数据集均分别通过cd-hit-est核酸序列去重软件去除相似度设定百分比以上的序列，分别将rnastralign和bprna按照设定的比例拆分为训练集、验证集、测试集，分别将archiveii和bprna-new作为rnastralign和bprna测试集的补充，形成初始数据集；

17、1.2对初始数据集中的4种典型碱基类型进行独热编码，分别表示为：腺嘌呤a：1000，胞嘧啶c：0100，鸟嘌呤g：0010，尿嘧啶u：0001，对于数据集中可能出现的其他碱基类型，按照iupac编码表随机转化为a、c、g、u中的某一种编码形式；

18、1.3构建真实接触图：设初始数据集中某一个rna序列长度为l，则真实接触图大小为l×l，其中对于第i个碱基和第j个碱基，如果两者配对，则标记为1，反之标记为0；形成核酸序列数据集，将核酸序列数据集按照预设比例划分为训练集、验证集和测试集。

19、进一步的改进，所述步骤三中，将训练集分别输入unet概率预测网络、rna-fm预训练网络生成条件控制信息：

20、3.1)对于输入unet概率预测网络的训练集，处理方法如下：

21、对于长度为l的序列，首先将步骤1.2)进行独热编码的序列x∈{0，1}l×4进行克罗内克积和重塑维度操作，然后与通过cdpfold方法获得的特征图进行拼接操作，得到尺寸为17×l×l的张量输入，视为通道数为17、尺寸为l本文档来自技高网...

【技术保护点】

1.一种基于条件扩散模型的核糖核酸二级结构预测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于条件扩散模型的核糖核酸二级结构预测方法，其特征在于，所述核酸序列数据集包括训练集、验证集和测试集。

3.如权利要求2所述的基于条件扩散模型的核糖核酸二级结构预测方法，其特征在于，所述核酸序列数据集的构建方法如下：

4.如权利要求3所述的基于条件扩散模型的核糖核酸二级结构预测方法，其特征在于，所述步骤三中，将训练集序列信息分别输入Unet概率预测网络、RNA-FM预训练网络生成条件控制信息：

5.如权利要求3所述的基于条件扩散模型的核糖核酸二级结构预测方法，其特征在于，所述条件扩散模型网络为采样噪声满足分类分布的扩散模型，训练阶段，模型输入为RNA条件控制信息和相应的真实接触图，预测阶段，模型输入为RNA条件控制信息，RNA条件控制信息包括图像类似条件信息cimg和序列类似条件信息cseq；

6.如权利要求5所述的基于条件扩散模型的核糖核酸二级结构预测方法，其特征在于，所述条件扩散模型网络的训练方法如下：

【技术特征摘要】

1.一种基于条件扩散模型的核糖核酸二级结构预测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于条件扩散模型的核糖核酸二级结构预测方法，其特征在于，所述核酸序列数据集包括训练集、验证集和测试集。

3.如权利要求2所述的基于条件扩散模型的核糖核酸二级结构预测方法，其特征在于，所述核酸序列数据集的构建方法如下：

4.如权利要求3所述的基于条件扩散模型的核糖核酸二级结构预测方法，其特征在于，所述步骤三中，将训练集序列信息分别输入unet概率预测网...

【专利技术属性】
技术研发人员：冯翊祯，王振，田清文，燕鹏举，张贵军，李晓林，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人