【技术实现步骤摘要】
全长环状RNA上蛋白绑定核苷酸位点的预测方法
[0001]本专利技术涉及的是一种生物工程领域的技术,具体是一种基于可解释Transformer深度学习方法的全长环状RNA上蛋白绑定核苷酸位点的预测方法。
技术介绍
[0002]环状RNA(circRNA)与RNA结合蛋白(RBP)相互作用以调节基因表达并完成生物学功能。例如,circRNAciRS
‑
7通过与AGO蛋白结合发挥miRNA
‑
7海绵的功能。同时,RBP在许多生物过程中起着至关重要的作用。对于CRISPR/Cas9基因组编辑技术,引导RNA(gRNA)结合Cas9蛋白进行调节,激活DNA靶标上的核酸内切酶活性。蛋白质PEG10结合并包装RNA作为RNA传递工具。此外,circCDYL和RBP之间的相互作用影响与膀胱癌相关的癌症途径[5]。因此,识别circRNA和RBP之间的相互作用可以深入了解RBP和circRNA的功能,进一步揭示疾病背后的机制。
[0003]随着高通量测序技术的发展,已经收集到许多结合靶点,包括RB ...
【技术保护点】
【技术特征摘要】
1.一种基于可解释Transformer深度学习的全长circRNA上蛋白绑定核苷酸位点的预测方法,其特征在于,将全长circRNA切分成片段后输入至一维CNN网络后,将得到的局部高级抽象特征分别输入至BiGRU网络和Transformer编码器的双分支网络,分别得到输入数据的长依赖表示特征和基于全局注意力的circRNA序列表示,经拼接后输入MLP分类器,最后通过中值滤波根据相邻核苷酸的结合信息去除假结合核苷酸降低假阳率,通过分数二值化策略获得预测的结合核苷酸,通过积分梯度识别关键序列内容,得到预测的全长circRNA与RBP结合基序,实现核苷酸位点的识别。2.根据权利要求1所述的蛋白绑定核苷酸位点预测方法,其特征是,所述的Transformer编码器包括:位置编码(PE)单元、多头注意力机制单元、层规范化(LN)单元和前馈块单元,其中:PE单元保持词在序列中的相对或绝对位置;多头注意力机制单元通过三个矩阵W
Q
,W
K
,W
V
与词向量相乘分别获得三个值Q、K和V,即MultiHead(Q,K,V)=Concat(head1,head2,...,head
h
)W0,自我注意,自我注意其中:d
k
是矩阵K的维度;LN单元根据多头注意力机制单元获得的信息,进行层规范化处理,得到对于一整层的神经元训练得到所有的输入都在同一个区间范围内的同一个转换;前馈块单元根据LN单元处理后的信息,进行全连接层非线性变换,得到模型更强表达能力的结果。3.根据权利要求2所述的蛋白绑定核苷酸位点预测方法,其特征是,所述的位置编码与单词嵌入具有相同的维度,可以通过训练或预定义来获得,具体为:单词嵌入具有相同的维度,可以通过训练或预定义来获得,具体为:其中:pos表示词在序列中的位置,d表示PE的维度,2i表示偶数索引,2i+1表示奇数索引(即有2i≤d、2i+1≤d);所述的层规范化(LN)操作的尺寸为[C,H,W],其中C,H和W分别是通道数,特征图的高度和宽度。其中:E和Var分别是输入数据的均值和方差,ε是一个非常小的数字,以防止分母为零的误差;所述的前馈单元包括两层全连接层,激活函数用的是GELU,具体为:所述的前馈单元包括两层全连接层,激活函数用的是GELU,具体为:4.根据权利要求1所述的蛋白绑定核苷酸位点预测方法,其特征是,所述的BiGRU网络包括:更新门和重置门,其中:更新门确定有多少旧状态的信息被复制到新状态中,并可以捕获序列中的长期依赖关系;重置门确定应记住多少旧状态的信息,并可以捕获序列中的短期相关性。5.根据权利要求1~4中任一所述的蛋白绑定核苷酸位点预测方法,其特征是,具体包括:S1、收集全长circRNA数据作为基准数据集,划分为训练集和测试集,该数据集是从CircInteractome数据库中提取了37个RBP的120000多个全长circRNA序列;对于每个RBP,首先将绑定的全长序列以8∶2的比例拆分...
【专利技术属性】
技术研发人员:吴贺贺,方一,潘小勇,沈红斌,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。