一种基于attention的双向表示模型的RNA修饰位点预测方法技术

技术编号:35838961 阅读:15 留言:0更新日期:2022-12-03 14:10
本发明专利技术公开了一种基于attention的双向表示模型的RNA修饰位点预测方法,其涉及生物信息学RNA转录后修饰位点预测领域。包括:将包含N1‑

【技术实现步骤摘要】
一种基于attention的双向表示模型的RNA修饰位点预测方法


[0001]本专利技术涉及生物信息学RNA转录后修饰位点预测领域,特别涉及一种基于attention的双向表示模型的RNA中N1‑
甲基腺苷修饰位点预测方法。

技术介绍

[0002]研究表明,通过转录后RNA修饰的表观转录组调控对于所有种类的RNA都是必不可少的,所以,准确识别RNA修饰对于理解其目的和调控机制至关重要。
[0003]传统的RNA修饰位点识别实验方法相对复杂、费时、费力。机器学习方法已经应用于RNA序列特征提取和分类的计算过程中,可以更有效地补充实验方法。近年来,卷积神经网络(Convolutional Neural Networks,CNN)和长时记忆(Long short

term memory,LSTM)由于在表征学习方面的强大功能,在修饰位点预测方面取得了显著的成就。
[0004]然而,卷积神经网络(CNN)可以从空间数据中学习局部响应,但不能学习序列相关性;长时记忆(LSTM)专门用于序列建模,可以同时访问上下文表示,但与CNN相比缺乏空间数据提取。由于以上原因,使用自然语言处理(Natural Language Processing,NLP)、其他深度学习(DeepLearn,DL)构建预测框架的动力十分强烈。
[0005]现有技术中,在构建预测框架时,使用注意力机制虽然可以关注到句子上下文的重要特征,但是单个注意力矩阵之间缺乏信息交互,难以描述复杂方面词的上下文关系;且没有充分联系上下文,加强文本中重要词汇对情感分析的影响。

技术实现思路

[0006]基于此,有必要针对上述技术问题,提供一种基于attention的双向表示模型的RNA修饰位点预测方法。
[0007]本专利技术实施例提供一种基于attention的双向表示模型的RNA修饰位点预测方法,包括:
[0008]将包含N1‑
甲基腺苷修饰位点的人类物种RNA碱基序列为正样本和不包含N1‑
甲基腺苷修饰位点的人类物种RNA碱基序列为负样本,进行word2vec词嵌入编码;
[0009]将经过word2vec词嵌入编码后的序列分为两路词嵌入编码序列;其中,在一个词嵌入编码序列首段添加分类符号并进行位置编码形成正向序列,对另一个词嵌入编码序列位置反转后并在其首段添加分类符号和进行位置编码形成反向序列;
[0010]将正向序列和反向序列均输入编码模块中进行训练,获得正向特征序列和反向特征序列;其中,所述编码模块包括3个依次串接的编码块;所述编码块包括:一个多头自注意力层和一个前向反馈全连接层,且每层之间通过残差连接和标准化层连接;
[0011]将正向特征序列的分类符号的值和反向特征序列的分类符号的值相加,后经过全连接神经网络层和二分类器,预测人类物种RNA碱基序列中是否包含N1‑
甲基腺苷修饰位点。
[0012]进一步地,所述对RNA碱基序列进行word2vec词嵌入编码,具体包括:
[0013]利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此获得105种不同的子序列和唯一的整数序列组成的字典;
[0014]每条样本101个碱基,利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此得到99个由3个碱基组成的子序列,使用word2vec的CBOW模型编码RNA序列,因此,每个子序列被转换成表征语义的词向量,再利用得到的词向量将RNA碱基序列中长度为101bp转换成99*100的矩阵,其中,99为预处理时词的个数,100为词向量维度。
[0015]进一步地,所述编码模块包括:3个依次串联编码块。
[0016]进一步地,所述多头自注意力层是将多个自注意力的输出拼接融合而形成的;自注意力将序列的查询query与序列的键key之间先做矩阵相乘再做放缩,得到一个注意力得分,使用softmax函数对注意力得分做归一化处理,得到每个键的权重,将权重矩阵相乘序列的值得到交互注意力输出,自注意力对应的数学公式形式如下:
[0017][0018]上式中,Q是查询向量、K是键向量、V是值向量,d
k
为键向量K的维度大小,K
T
为键向量的转置,即向量为列向量时,取了转置后就是行向量;当输入序列为X时,Q、K、V都是从同样的输入序列X线性变换而来的,通过以下等式表示:
[0019]Q=XW
Q
[0020]K=XW
K
[0021]V=XW
V
[0022]上式中,X为n行向量组成,W为权重,W
Q
代表查询向量Q的权重,W
K
代表键向量K的权重,W
V
代表值向量V的权重,三个权重最初随机初始化,最终值由网络自己学习得到;
[0023]多头自注意力层,则是将自注意力中的查询、键和值分别h次线性投影到dk、dk和dv维度上,其中dv为值向量V的维度大小;在每个查询、键和值的投影版本上,并行执行自注意力机制,产生dv维度的输出值;将以上h次自注意力的输出值拼接起来,再次投影到线性网络,产生最终值;即所述多头自注意力层对应的数学公式形式如下:
[0024]MultiHead(Q,K,V)=Concat(head1,...,head
h
)W
O
[0025]head
i
=Attention(QW
iQ
,KW
iK
,VW
iV
)
[0026]上式中,Concat为将多个自注意力的输出head
i
拼接,i取值正整数,代表具体第i头数,W
O
为多个自注意力拼接的权重,R为代表集合实数集,实数集是包含所有有理数和无理数的集;d
k
为键向量K的维度大小,此处d
k
=16;d
v
为值向量V的维度大小,此处d
v
=16;d
model
为输出维度,此处d
model
=128;
[0027]以上公式,使用h=8个并行注意力层或头,对于其中的每一个,使用d
k
=d
v
=d
model
/h=16。
[0028]进一步地,所述前向反馈全连接层,包括:
[0029]两个线性变换组成,中间有一个Relu激活函数;即所述前向反馈全连接层对应的数学公式形式如下:
[0030]FFN(x)=max(0,xW1+b1)W2+b2。
[0031]上式中,max()为ReLU激活函数;W1、W2、b1和b2均为前向反馈全连接层的参数。
[0032]进一步地,所述编码模块包括:
...

【技术保护点】

【技术特征摘要】
1.一种基于attention的双向表示模型的RNA修饰位点预测方法,其特征在于,包括:将包含N1‑
甲基腺苷修饰位点的人类物种RNA碱基序列为正样本和不包含N1‑
甲基腺苷修饰位点的人类物种RNA碱基序列为负样本,进行word2vec词嵌入编码;将经过word2vec词嵌入编码后的序列分为两路词嵌入编码序列;其中,在一个词嵌入编码序列首段添加分类符号并进行位置编码形成正向序列,对另一个词嵌入编码序列位置反转后并在其首段添加分类符号和进行位置编码形成反向序列;将正向序列和反向序列均输入编码模块中进行训练,获得正向特征序列和反向特征序列;其中,所述编码模块包括多个依次串接的编码块;所述编码块包括:一个多头自注意力层和一个前向反馈全连接层,且每层之间通过残差连接和标准化层连接;将正向特征序列的分类符号的值和反向特征序列的分类符号的值相加,后经过全连接神经网络层和二分类器,预测人类物种RNA碱基序列中是否包含N1‑
甲基腺苷修饰位点。2.如权利要求1所述的基于attention的双向表示模型的RNA修饰位点预测方法,其特征在于,所述对RNA碱基序列进行word2vec词嵌入编码,具体包括:利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此获得105种不同的子序列和唯一的整数序列组成的字典;每条样本101个碱基,利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此得到99个由3个碱基组成的子序列,使用word2vec的CBOW模型编码RNA序列,因此,每个子序列被转换成表征语义的词向量,再利用得到的词向量将RNA碱基序列中长度为101bp转换成99*100的矩阵,其中,99为预处理时词的个数,100为词向量维度。3.如权利要求1所述的基于attention的双向表示模型的RNA修饰位点预测方法,其特征在于,所述编码模块包括:3个依次串联的编码块。4.如权利要求1所述的基于attention的双向表示模型的RNA修饰位点预测方法,其特征在于,所述多头自注意力层是将多个自注意力的输出拼接融合而形成的;自注意力将序列的查询query与序列的键key之间先做矩阵相乘再做放缩,得到一个注意力得分,使用softmax函数对注意力得分做归一化处理,得到每个键的权重,将权重矩阵相乘序列的值得到交互注意力输出,自注意力对应的数学公式形式如下:上式中,Q是查询向量、K是键向量、V是值向量,d
k
为键向量K的维度大小,K
T
为键向量的转置,即向量为列向量时,取了转置后就是行向量;当输入序列为X时,Q、K、V都是从同样的输入序列X线性变换而来的,通过以下等式表示:Q=XW
Q
K=XW
K
V=XW
V
上式中,X为n行向量组成,W为权重,W
Q
代表查询向量Q的权重,W
K
代表键向量K的权重,W
V
代表值向量V的权重,三个权重最初随机初始化,最终值由网络自己学习得到;
多头自注意力层,则是将自注意力中的查询、键和值分别h次线性投影到dk、dk和dv维度上,其中dv为值向量V的维度大小;在每个查询、键和值的投影版本上,并行执行自注意力机制,产生dv维度的输出值;将以上h次自注意力的输出值拼接起来,再次投影到线性网络,产生最终值;即所述多头自注意力层对应的数学公式形式如下:MultiHead(Q,K,V)=Concat(head1,...,head
h

【专利技术属性】
技术研发人员:王鸿磊刘辉张林张雪松王栋黄涛
申请(专利权)人:徐州工业职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1