一种基于集成学习的RNA中2OM位点预测方法技术

技术编号:43879912 阅读:46 留言:0更新日期:2024-12-31 19:03
本发明专利技术公开了一种基于集成学习的RNA中2OM位点预测方法,属于生物信息学技术领域。本发明专利技术针对RNA序列特性,对Promoter‑BERT模型进行特定任务的微调,使其能够更有效地捕捉特定任务中RNA序列的复杂模式,从而获取高质量的生物学特征表示;采用ANOVA技术对提取的特征进行选择,剔除冗余特征,保留最具影响力的特征,此外,结合传统的序列特征与通过Word2Vec模型得到的嵌入特征,以增强模型的表达能力;结合轻量级梯度提升机与深度学习模型的预测结果,通过软投票机制形成最终的预测模型,这种集成方法不仅提高了模型的泛化能力,还增加了预测的稳定性。

【技术实现步骤摘要】

本专利技术涉及生物信息学,具体涉及一种基于集成学习的rna中2om位点预测方法。


技术介绍

1、2'-o-甲基化(2om)是rna转录后的重要修饰,存在于rrna、trna、mrna、snorna、mirna和pirna等多种rna中。2om可以稳定rna的二级结构,特别是螺旋结构,使其更加稳固,有助于维持rna分子的三维构象。2om还可以调节rna与蛋白质或其他rna分子的相互作用,影响细胞信号传导、基因表达和调控过程。此外,2om修饰可以帮助先天免疫系统区分内源性和外源性mrna,一些病毒通过2om修饰逃避免疫识别。识别2om位点对于揭示其在生物学和疾病治疗中的功能具有重要意义。

2、早期的实验技术如hclo4水解和高通量技术如nm-seq已经用于2om位点的识别。然而,这些方法各有局限,如早期实验技术操作复杂,可能对样本造成不可逆损伤,而高通量技术成本高,限制了其在一般实验室中的应用。计算方法特别是基于人工智能的方法可以高效预测2om位点。一些研究人员使用支持向量机(svm)开发了一种计算方法,另一些研究人员基于svm构建了irna-2o本文档来自技高网...

【技术保护点】

1.一种基于集成学习的RNA中2OM位点预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于集成学习的RNA中2OM位点预测方法,其特征在于,在所述步骤S1中,具体处理过程如下:

3.根据权利要求1所述的一种基于集成学习的RNA中2OM位点预测方法,其特征在于,在所述步骤S2中,为了覆盖不同级别的序列信息,将RNA序列分割成1mer、3mer、5mer作为词汇,然后将RNA序列作为句子输入预先训练好的Promoter-BERT模型进行微调,得到微调后的基于1mer、3mer、5mer的Promoter-BERT模型。

<p>4.根据权利要求...

【技术特征摘要】

1.一种基于集成学习的rna中2om位点预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于集成学习的rna中2om位点预测方法,其特征在于,在所述步骤s1中,具体处理过程如下:

3.根据权利要求1所述的一种基于集成学习的rna中2om位点预测方法,其特征在于,在所述步骤s2中,为了覆盖不同级别的序列信息,将rna序列分割成1mer、3mer、5mer作为词汇,然后将rna序列作为句子输入预先训练好的promoter-bert模型进行微调,得到微调后的基于1mer、3mer、5mer的promoter-bert模型。

4.根据权利要求1所述的一种基于集成学习的rna中2om位点预测方法,其特征在于,在所述步骤s2中,微调后的promoter-bert模型对rna序列进行编码的表达式如下:

5.根据权利要求1所述的一种基于集成学习的rna中2om位点预测方法,其特征在于,在所述步骤s2中,三种手工设计的特征分别为核苷酸组成k-mer、核苷酸化合物特性ncp、自动相关性特性anf;其中,核苷酸组成k-mer用于计算连续k个核苷酸的频率,以提取rna序列的短程信息,所述核苷酸化合物特性ncp用于利用向量编码(1,1,1)、(0,0,1)、(0,1,0)和(1,0,0)分别表示a、u、c和g,所述自动相关性特性anf用于描述rna序列中核苷...

【专利技术属性】
技术研发人员:窦欣雨彭伟赵子涵魏卓宇祝小雷
申请(专利权)人:安徽农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1