一种基于多尺度交叉注意力模型的RNA修饰位点预测方法技术

技术编号:36533805 阅读:32 留言:0更新日期:2023-02-01 16:18
本发明专利技术公开了一种基于多尺度交叉注意力模型的RNA修饰位点预测方法,涉及生物信息学RNA转录后修饰位点预测领域。包括:对包含N1‑

【技术实现步骤摘要】
一种基于多尺度交叉注意力模型的RNA修饰位点预测方法


[0001]本专利技术涉及生物信息学RNA转录后修饰位点预测领域,特别涉及一种基于多尺度交叉注意力模型的RNA中N1‑
甲基腺苷修饰位点预测方法。

技术介绍

[0002]研究表明,通过转录后RNA修饰的表观转录组调控对于所有种类的RNA都是必不可少的,所以,准确识别RNA修饰对于理解其目的和调控机制至关重要。
[0003]传统的RNA修饰位点识别实验方法相对复杂、费时、费力。机器学习方法已经应用于RNA序列特征提取和分类的计算过程中,可以更有效地补充实验方法。近年来,卷积神经网络(Convolutional Neural Networks,CNN)和长时记忆(Long short

term memory,LSTM)由于在表征学习方面的强大功能,在修饰位点预测方面取得了显著的成就。
[0004]然而,卷积神经网络(CNN)可以从空间数据中学习局部响应,但不能学习序列相关性;长时记忆(LSTM)专门用于序列建模,可以同时访问上下文表示,但与CNN相比缺乏空间数据提取。由于以上原因,使用自然语言处理(Natural Language Processing,NLP)、其他深度学习(DeepLearn,DL)构建预测框架的动力十分强烈。
[0005]现有技术中,在构建预测框架时,使用注意力机制虽然可以关注到句子上下文的重要特征,但是单个注意力序列之间缺乏信息交互,难以描述复杂方面词的上下文关系;且没有充分联系上下文,加强文本中重要词汇对甲基化位点预测的影响。

技术实现思路

[0006]基于此,有必要针对上述技术问题,提供一种基于多尺度交叉注意力模型的RNA修饰位点预测方法。
[0007]本专利技术实施例提供一种基于多尺度交叉注意力模型的RNA修饰位点预测方法,包括:
[0008]对包含N1‑
甲基腺苷修饰位点的RNA碱基序列为正样本和不包含N1‑
甲基腺苷修饰位点的RNA碱基序列为负样本,每个样本取3组不同尺度的RNA碱基序列作为输入序列;
[0009]对3组输入序列均依次进行word2vec词嵌入编码和位置编码;
[0010]将编码后的3组序列编码模块中,获得特征序列;其中,所述编码模块包括:多个依次串联的编码块;所述编码块包括:一个多头交叉注意力层和一个前向反馈全连接层,且每层之间通过残差连接和标准化层;
[0011]将经过编码模块的输出结果求平均值,后经过全连接神经网络层和两分类器,预测人类物种RNA碱基序列中是否包含N1‑
甲基腺苷修饰位点。
[0012]进一步地,构建数据集;所述数据集包括:RNA碱基序列为正样本、RNA碱基序列为负样本和类别标签,且样本长度是41bp;输入序列设为序列a、序列b和序列c,其分别是长度为xbp、ybp、zbp不同尺度序列组成的集合;
[0013]所述数据集的训练集与测试集表示为:
[0014][0015]其中,y
n
∈{0,1},分别表示样本长度为xbp、ybp、zbp不同尺度的辅助序列,辅助序列是以序列中心为中心点左右截取不同尺度的序列。
[0016]进一步地,所述每个样本取3组不同尺度的RNA碱基序列作为输入序列,包括:
[0017]数据集中样本序列是以共同基序A为中心,前后取值窗口为大小不同的bp,以x1bp、y1bp、z1bp共3个不同为例,即每个m1A正样本/负样本由xbp、ybp、zbp组成,当样本序列在某些位置不存在碱基时,缺少碱基使用
‘‑’
字符填充;此处设x1=10,y1=15,z1=20,因此,x=21,y=31,z=41。
[0018]进一步地,所述word2vec词嵌入编码,具体包括:
[0019]利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此会获得105种不同的子序列和唯一的整数序列组成的字典;
[0020]针对不同尺度的样本序列,分别使用word2vec的CBOW模型编码RNA序列;对于41个碱基的样本,利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此,得到39个由3个碱基组成的子序列,使用word2vec的CBOW模型编码RNA序列,因此,每个子序列被转换成表征语义的词向量,再利用得到的词向量将RNA碱基序列中长度为41bp转换成39*100的矩阵,其中,39为预处理时词的个数,100为词向量维度。
[0021]进一步地,所述编码模块包括:3个依次串联编码块。
[0022]进一步地,所述编码模块包括:
[0023]模型输出的维度d
model
=64,多头数h=8,前向反馈网络维度d_ff=256,暂时从网络中丢弃的概率为dropout=0.1。
[0024]进一步地,所述多尺度交叉注意力层,包括:
[0025]序列a进行自注意力计算的同时,序列a分别与序列b、序列c进行交叉注意力计算,交叉注意力是指第一个序列用作查询query输入,另一个序列用做键key输入和值value输入,进行注意力计算;将3种注意力的输出结果加起来作为交叉注意力层的输出,实现多尺度交叉注意力层。
[0026]进一步地,所述多尺度交叉注意力层中的交叉注意力机制算法,包括:
[0027]多个相同维度不同尺度的独立序列,其中,第一个序列用作查询query输入,剩下序列分别与第一个序列进行注意力计算,即剩下序列在进行注意力计算时,用做键key输入和值value输入;其具体包括:
[0028]一个序列为序列a,另一个序列为序列b,序列a做查询输入,序列b中每个键与值对应;将序列a的查询与序列b的键之间先做矩阵相乘再做放缩,产生一个注意力得分;使用softmax函数对注意力得分做归一化处理,得到每个键的权重,将权重矩阵相乘序列b的值得到交互注意力输出,其对应的等式如下:
[0029][0030]其中,softmax的作用是对向量做归一化,即对相似度的归一化,得到了一个归一
化之后的权重矩阵,矩阵中,某个值的权重越大,表示相似度越高。Q
a
是序列a查询向量、K
b
是序列b键向量、V
b
是序列b值向量,d
k
为序列b键向量的维度大小,K
bT
为序列b键向量的转置;当输入序列为X时,首先使用线性投影将序列X转换成Q
x
、K
x
、V
x
,它们们都是从同样的输入序列X线性变换而来的,通过以下等式表示:
[0031]Q
x
=XW
Q
[0032]K
x
=XW
K
[0033]V
x
=XW
V
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,包括:对包含N1‑
甲基腺苷修饰位点的RNA碱基序列为正样本和不包含N1‑
甲基腺苷修饰位点的RNA碱基序列为负样本,每个样本取3组不同尺度的RNA碱基序列作为输入序列;对3组输入序列均依次进行word2vec词嵌入编码和位置编码;将编码后的3组序列输入到编码模块中,获得特征矩阵;其中,所述编码模块包括:多个依次串联的编码块;所述编码块包括:一个多头交叉注意力层和一个前向反馈全连接层,且每层之间通过残差连接和标准化层;将经过编码模块的输出结果求平均值,后经过全连接神经网络层和两分类器,预测人类物种RNA碱基序列中是否包含N1‑
甲基腺苷修饰位点。2.如权利要求1所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,还包括:构建数据集;所述数据集包括:RNA碱基序列为正样本、RNA碱基序列为负样本和类别标签,且样本长度是41bp;输入序列设为序列a、序列b和序列c,其分别是长度为xbp、ybp、zbp不同尺度序列组成的集合;所述数据集的训练集与测试集表示为:其中,y
n
∈{0,1},分别表示样本长度为xbp、ybp、zbp不同尺度的辅助序列,辅助序列是以序列中心为中心点左右截取不同尺度的序列。3.如权利要求2所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述每个样本取3组不同尺度的RNA碱基序列作为输入序列,包括:数据集中样本序列是以共同基序A为中心,前后取值窗口为大小不同的bp,以x1bp、y1bp、z1bp共3个不同为例,即每个m1A正样本/负样本由xbp、ybp、zbp组成,当样本序列在某些位置不存在碱基时,缺少碱基使用
‘‑’
字符填充;此处设x1=10,y1=15,z1=20,因此,x=21,y=31,z=41。4.如权利要求1所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述word2vec词嵌入编码,具体包括:利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此会获得105种不同的子序列和唯一的整数序列组成的字典;针对不同尺度的样本序列,分别使用word2vec的CBOW模型编码RNA序列;对于41个碱基的样本,利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此,得到39个由3个碱基组成的子序列,使用word2vec的CBOW模型编码RNA序列,因此,每个子序列被转换成表征语义的词向量,再利用得到的词向量将RNA碱基序列中长度为41bp转换成39*100的矩阵,其中,39为预处理时词的个数,100为词向量维度。5.如权利要求1所述的基于多视角分类模型多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述编码模块包括:3个依次串联的编码块。6.如权利要求1所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在
于,所述编码模块包括:其输出的维度d
model
=64,多头数h=8,前向反馈网络维度d_ff=256,暂时从网络中丢弃的概率为dropout=0.1。7.如权利要求1所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述多尺度交叉注意力层,包括:序列a进行自注意力计算的同时,序列a分别与序列b、序列c进行交叉注意力计算,交叉注意力是指第一个序列用作查询query输入,另一个序列用做键key输入和值value输入,进行注意力计算;将3种注意力的输出结果加起来作为交叉注意力层的输出,实现多尺度交叉注意力层。8.如权利要求7所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述多尺度交叉注意力层中的交叉注意力机制算法,包括:多个相同维度不同尺度的独立序列,其中,第一个序列用作查询query输入,剩下序列分别与第一个序列进行注意力计算,即剩下序列在进行注意力计算时,用做键key输入和值value输入;其具体包括:一个序列为序列a,另一个序列为序列b,序列a做查询输入,序列b中每个键与值对应;将序列a的查询与序列b的键之间先做矩阵相乘再做放缩,产生一个注意力得分;使用softmax函数对注意力得分做归一化处理,得到每个键的权重,将权重矩阵相乘序列b的值得到交互注意力输出,其对应的等式如下:其中,softmax的作用是对向量做归一化,即对...

【专利技术属性】
技术研发人员:王鸿磊张林刘辉张雪松王栋曾文亮
申请(专利权)人:徐州工业职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1