一种对RNA序列进行预训练的方法及其应用技术

技术编号：41966657 阅读：22 留言：0更新日期：2024-07-10 16:48

本公开涉及一种对RNA序列进行预训练的方法及其应用。该方法包括：基于RNA序列生成预训练语言模型可读取数据；和将所述可读取数据输入至经过训练的预训练语言模型，以便提取所述RNA序列的可用特征，其中，所述预训练语言模型的起始偏差(bias)是基于预先构建的权重矩阵确定的，所述权重矩阵是基于碱基之间形成共价键结合的概率而构建的。在本申请的一些示例中，上述方法能够用于充分提取输入RNA序列的高维稠密特征，基于前述高维稠密特征能够实现RNA结构和功能的准确预测。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及生物信息，具体地，本申请涉及一种对rna序列进行预训练的方法及其应用。

技术介绍

1、在细胞的基本生物学过程中，核酸分子扮演着至关重要的角色。其中，rna(ribonucleicacid)作为一种单链核酸，存在于所有活细胞中，承担着多种生物学功能，包括但不限于遗传信息传递、蛋白质合成和细胞信号传导。rna的结构与功能之间密不可分，解析rna的结构对于理解其功能机制、辅助rna工程和药物研发具有重要意义。

2、为了更好地理解rna的结构与功能，研究人员开发了多种方法来预测rna的结构。这些方法包括基于湿实验、基于热力学建模和基于机器学习的方法。尤其是随着机器学习技术的发展，基于大规模数据的机器学习方法在rna结构预测中展现出了巨大潜力。然而，由于rna序列的高维特征和复杂性，以及数据量的限制，现有方法仍然存在很多不足，如rna三级结构预测精度差、无法兼顾特殊二级结构等。

3、值得注意的是，自然语言处理领域中的预训练方法为解决rna结构预测问题提供了新的思路。预训练大语言模型在自然语言处理领域取得了巨大成功...

【技术保护点】

1.一种对RNA序列进行预训练的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预训练语言模型选自BERT模型。

3.根据权利要求2所述的方法，其特征在于，所述BERT模型采用多头注意力机制，其中，所述多头注意力机制的所述起始偏差是通过将所述权重矩阵输入至神经网络模型而得到的。

4.根据权利要求3所述的方法，其特征在于，所述经过训练的BERT模型是采用遮蔽预测法进行训练的；

5.一种对RNA序列进行预测的方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述预测模型包括：卷积残差神经网络...

【技术特征摘要】

1.一种对rna序列进行预训练的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预训练语言模型选自bert模型。

3.根据权利要求2所述的方法，其特征在于，所述bert模型采用多头注意力机制，其中，所述多头注意力机制的所述起始偏差是通过将所述权重矩阵输入至神经网络模型而得到的。

4.根据权利要求3所述的方法，其特征在于，所述经过训练的bert模型是采用遮蔽预测法进行训练的；

5.一种对rna序列进行预测的方法，其...

【专利技术属性】
技术研发人员：谢震，尹伟杰，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人