面向上下文深层表征的RNA-蛋白质结合位点预测方法技术

技术编号：40348300 阅读：5 留言：0更新日期：2024-02-09 14:33

本发明专利技术涉及生物信息技术领域，具体公开了一种面向上下文深层表征的RNA‑蛋白质结合位点预测方法。在Transformer‑Encoder架构的基础上，设计单词重建与句意判断的预训练策略，通过预训练执行该策略用于学习RNA子序列的上下文深层表示特征，形成k‑mer语义编码以表征RNA序列在不同语境下的功能语义信息，进而提高模型预测准确性；同时基于注意力权重的结合位点提取方法，通过计算首层Transformer‑Encoder为输入子序列分配的注意力权重来提取结合位点，通过比较注意力权重大小以衡量不同结合位点间的重要性。本发明专利技术能够学习RNA序列的上下文深层表征，建模子序列片段在不同语境下的功能语义信息，进而提高模型预测准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物信息，具体涉及一种面向上下文深层表征的rna-蛋白质结合位点预测方法。

技术介绍

1、核糖核酸(ribonucleic acid，rna)和蛋白质是生物体内重要的物质基础。rna由四种碱基以不同顺序排列组合而成，是存在于生物细胞中的遗传信息载体序列。作为遗传信息的转录和翻译的枢纽，rna接收转录的遗传信息，引导体内蛋白质的合成。蛋白质由20多种氨基酸按不同比例组合而成，是构成细胞的基本有机物。蛋白质作为组成人体一切细胞、组织的重要成分，是生命活动的主要承担者。

2、rna结合蛋白(rna binding protein，rbp)指在细胞中结合了rna的蛋白质，在基因调控过程中发挥重要作用。研究表明，除少数rna能以核酶的形式单独发挥功能外，大部分rna是通过与rbp结合形成rna-蛋白质复合物参与基因调控。rna结合蛋白在rna的合成、选择性剪接、修饰、转运和翻译等生命活动的调控中都起到关键作用，例如，异质核糖核蛋白不仅直接调控许多rna的选择性剪接，还能通过反向剪接调控环状rna的形成。

3、rna-蛋白质相互作用(rna-protein interaction,rpi)指rbp与特异rna结合的过程，是许多基本的细胞生理过程得以实现的关键。rna-蛋白质相互作用涉及多种细胞活动，如基因表达调控、转录后调控和蛋白质合成。rna-蛋白质相互作用受到干扰后可能导致致命的细胞功能障碍。此外，rna-蛋白质相互作用还与癌症的发生和发展有关，rna-蛋白质相互作用是开发新的癌症治疗方法的一个重要方向。

4、实验方法通过高通量技术探究rna-蛋白质相互作用机理。高通量技术存在耗时长且花费高的问题，但它提供了已验证的rna-蛋白质相互作用数据，这促进了用于预测rpi的生物信息学计算方法的发展。为减少生物实验的成本，研究人员需要可靠的rpi计算模型来指导实验，预测rna序列是否与蛋白质发生相互作用。因此，基于计算模型的rpi预测研究对于学术研究与实际应用都具有重要意义。

5、rna-蛋白质相互作用的生物信息学计算方法可分为两类：基于传统机器学习的预测方法与基于深度学习的预测方法。

6、基于传统机器学习的预测方法是计算模型最先采用的方法，主要通过支持向量机(svm)作为分类器进行特征提取以预测相互作用。rpi计算方法旨在充分提取相关生物学特征，但对于机器学习方法而言，特征的构建需要领域知识与专家手动设计。预定义的特征仅能提供固定的见解，这限制了模型从原始数据进行模块学习，使得基于传统机器学习的rna-蛋白质相互作用预测方法难以充分提取序列特征。

7、基于深度学习的预测方法通过自学习的方式提取序列特征，是当前计算方法构建模型的首要选择。rpi的深度学习预测流程设计可以依次划分为三个阶段：编码阶段、模型阶段以及可解释性阶段。前两个阶段旨在通过设计合理的序列编码方式与深度学习模型完成序列分类任务。可解释性阶段旨在设计合适的可解释性方法定位结合位点。然而，在编码方面，现有方法对子序列片段仅形成固定的嵌入表示，较少学习序列的上下文深层表征，无法建模子序列片段在不同语境下的功能语义信息；在可解释性方面，现有方法采用卷积核提取法，通过卷积核提取结合位点，但卷积核提取法对提取的多个结合位点一视同仁，未能衡量不同结合位点间的重要性。

技术实现思路

1、针对上述问题，本专利技术的目的在于提供一种面向上下文深层表征的rna-蛋白质结合位点预测方法，通过学习rna序列的上下文深层表征，建模子序列片段在不同语境下的功能语义信息；同时，基于注意力权重进行结合位点提取，以衡量不同结合位点间的重要性。技术方案如下：

2、一种面向上下文深层表征的rna-蛋白质结合位点预测方法，包括如下步骤：

3、s1：获取包含rna-蛋白质结合位点的预训练数据与微调数据，并进行数据预处理；

4、s2：构建预训练模型，使用预训练数据进行模型预训练，同时执行单词重建任务和句意判断任务，以建模rna子序列在不同语境下的功能语义信息，并从句子层级学习具有结合位点语义信息的序列；

5、s3：构建微调模型，共享预训练模型对应部分的参数至微调模型进行初始化，采用最小平方差损失函数在子数据集上分别微调模型，以对rna序列结合性进行预测；

6、s4：基于注意力权重提取rna-蛋白质结合位点，衡量不同结合位点间的重要性。

7、进一步的，所述s1具体包括：

8、s11：获取rbp-24集中的rna数据，并对该数据进行k-mer编码操作，将rna序列划分为一系列子序列；采用维度为4k+1的独热向量表征4k+1种子序列，将独热向量中该子序列对应的索引位设置为1，其余位设置为0；按序拼接得到整条序列的矩阵表示，作为微调数据；

9、s12：对微调数据进行掩码操作，作为预训练数据；具体为：从每条序列中选取设定比例的k-mer子序列替换成[mask]标志位，序列化表示中对应位替换为1，记录掩去词与掩去词在序列中的下标，其中掩去词作为单词补全预训练任务的标签，得到输入数据掩码后的序列化表示；且每次选取连续k个k-mer子序列掩去，总掩去子序列数量保持设定比例不变。

10、更进一步的，步骤s11具体为：

11、步骤s111：获取数据

12、获取rbp-24集中的rna数据，并在此基础上，使用bedtools shuffle工具将正样本序列打乱随机组合，获得负样本序列数据，即其与rna结合蛋白不发生结合，分类标签为0；

13、步骤s112：固定序列长度

14、对输入序列进行k-mer序列化表示，将rna序列统一为固定的长度l表示，若rna序列长度s不足l，则在序列的尾端填充(l-s)个填充位n；若rna序列长度s超过l，舍去长度为(s-l)的尾端序列；

15、步骤s113：对序列进行k-mer表示

16、采用滑动窗口法获取序列的k-mer表示，其中滑动窗口长为k，步长为1；滑动窗口从序列首端滑至序列尾端，每次截得序列部分即为k-mer子序列，长为l的序列截得l-k+1个k-mer子序列；

17、步骤s114：构建映射字典并将数据序列化表示

18、构建k-mer子序列到独热向量的映射字典，根据映射字典，将输入的k-mer子序列映射为字典中对应索引，实现k-mer子序列的独热向量化，再通过词嵌入降维独热向量，以此作为微调数据。

19、更进一步的，所述步骤s2具体为：

20、s21：构建单词重建任务

21、单词重建任务由transformer-encoder模型与多分类器实现；transformer-encoder模型对序列中填充位进行遮挡处理，即填充位计算的注意力权重取0，确保模型不关注序列填充部分；通过增加一个多分类器接收transformer-encoder模型编码后的功能语义嵌入矩阵，根据上下文本文档来自技高网...

【技术保护点】

1.一种面向上下文深层表征的RNA-蛋白质结合位点预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的面向上下文深层表征的RNA-蛋白质结合位点预测方法，其特征在于，所述S1具体包括：

3.根据权利要求2所述的面向上下文深层表征的RNA-蛋白质结合位点预测方法，其特征在于，步骤S11具体为：

4.根据权利要求3所述的面向上下文深层表征的RNA-蛋白质结合位点预测方法，其特征在于，所述步骤S2具体为：

5.根据权利要求4所述的面向上下文深层表征的RNA-蛋白质结合位点预测方法，其特征在于，S21中构建单词重建任务时，多分类器将Transformer-Encoder的输出矩阵取输入序列掩去位在矩阵中对应输出向量作为多分类器输入矩阵l为输入序列长度，dmodel为词嵌入降维后的维度，r为掩去的k-mer子序列的数量；

6.根据权利要求4所述的面向上下文深层表征的RNA-蛋白质结合位点预测方法，其特征在于，S22中构建句意判断任务时，二分类器将Transformer-Encoder的输出矩阵以tanh作为激活函数做一次

7.根据权利要求1所述的面向上下文深层表征的RNA-蛋白质结合位点预测方法，其特征在于，所述步骤S3具体为：

8.根据权利要求1所述的面向上下文深层表征的RNA-蛋白质结合位点预测方法，其特征在于，所述步骤S4具体为：

...

【技术特征摘要】

1.一种面向上下文深层表征的rna-蛋白质结合位点预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的面向上下文深层表征的rna-蛋白质结合位点预测方法，其特征在于，所述s1具体包括：

3.根据权利要求2所述的面向上下文深层表征的rna-蛋白质结合位点预测方法，其特征在于，步骤s11具体为：

4.根据权利要求3所述的面向上下文深层表征的rna-蛋白质结合位点预测方法，其特征在于，所述步骤s2具体为：

5.根据权利要求4所述的面向上下文深层表征的rna-蛋白质结合位点预测方法，其特征在于，s21中构建单词重建任务时，多分类器将transformer-encoder的输出矩阵取输入序列掩去位在矩阵中对应输出向量作为多分类器输...

【专利技术属性】
技术研发人员：朱敏，甘霖，王心翌，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人