【技术实现步骤摘要】
基于Transformer
‑
Encoder和多尺度卷积神经网络的转录因子识别方法
[0001]本专利技术涉及蛋白质功能注释领域,具体涉及一种基于Transformer
‑
Encoder和多尺度卷积神经网络的转录因子识别方法,由于转录因子是一类具有特殊功能的蛋白质,所以本专利技术属于深度学习在蛋白质功能注释领域的应用。
技术介绍
[0002]转录因子(Transcription Factor)是一种具有特殊结构、行使调控基因表达功能的蛋白质分子。转录因子通过与DNA序列特异性结合,促进或抑制特定DNA到RNA的转录过程,从而调节目标基因的表达。
[0003]传统上,通过生化实验来鉴定和识别转录因子的方法耗时、成本昂贵,无法大规模使用;采用BLAST的同源搜索方法无法对同数据库中已知蛋白质均不同源的蛋白质是否为转录因子进行鉴定;采用传统机器学习的预测方法可基于蛋白质结构或序列信息识别其是否为转录因子,但需要人工设计和转录因子相关的特征,需要较强的领域知识,且预测精度不高;深度学习具有可以直接学习蛋白质序列的特征的优点,但现有方法大多基于卷积神经网络构建预测模型。由于卷积核的限制,这类方法虽然可以自动学习特征表示,但只能学习距离较近的氨基酸间关系的局部特征,无法学习距离较远的氨基酸间关系的全局特征,影响了模型的预测精度。
技术实现思路
[0004]针对上述技术问题,本专利技术提供了一种基于Transformer
‑
Encoder和多尺度卷积神经 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer
‑
Encoder和多尺度卷积神经网络的转录因子识别方法,其特征在于,步骤如下:步骤1:构建训练集:从蛋白质数据库中收集蛋白质序列,根据对应的蛋白质注释信息,将每条蛋白质序列标记为转录因子或者非转录因子;对所有序列进行预处理,得到训练数据集;步骤2:搭建网络结构:搭建Transformer
‑
Encoder和多尺度卷积神经网络相结合的网络结构构建转录因子预测模型;其中Transformer
‑
Encoder用于获得第i条蛋白质序列X
i
的全局特征多尺度卷积神经网络用于基于进行转录因子预测识别;步骤3:训练预测模型:用步骤1得到的训练集来训练步骤2搭建的网络,得到训练好的转录因子预测模型;步骤4:转录因子预测:利用步骤3得到的预测模型,预测未知的蛋白质序列是否为转录因子,输出预测结果。2.根据权利要求1所述的方法,其特征在于:所述步骤1包括以下子步骤:1.1从蛋白质数据库中挑选不包含非标准氨基酸即B,O,U,Z的蛋白质序列,组成数据集S1;1.2从S1中剔除长度超过1000的序列,仅保留长度小于或等于1000的序列;对长度小于1000的蛋白质序列,用零填充到长度为1000;最后得到蛋白质序列数据集S2;1.3根据蛋白质数据库中每条蛋白质的GO注释信息,分别将S2中的每条蛋白质序列分别赋予转录因子“1”或非转录因子“0”的标签;最终得到训练数据集S=(X
i
,c
i
)|i=1,..,N;其中X
i
代表数据集中第i条蛋白质序列;c
i
为X
i
的标签,c
i
∈{0,1};N为S的大小。3.根据权利要求1所述的方法,其特征在于:所述步骤1.3中,如果蛋白质的GO注释中包含“transcription factor”的GO term,或者同时包含“transcription regulation”和“DNA binding”两个GO terms,则将该蛋白质序列为转录因子,并赋值为“1”;否则,该蛋白质序列为非转录因子,并赋值为“0”。4.根据权利要求1所述的方法,其特征在于:所述步骤2中网络结构包括串联组成的Transformer
‑
Encoder结构和多尺度卷积神经网络结构;该Transformer
‑
Encoder结构仅保留Transformer中的Encoder部分,由6个Encoder块堆叠而成,每个Encoder块包含12个attention head;Transformer
‑
Encoder用于从输入的蛋白质序列中提取全局特征;多尺度卷积神经网络由四个并联的具有不同一维卷积核的卷积子网络、两个全连接层和输出层组成;卷积层包含多个分别对应不同大小卷积核的一维卷积操作获得多个不同大小的卷积特征;池化层分别对多个卷积特征进行池化,得到维度降低后的特征;池化后特征经过拼接送入全连接层;全连接层计算后得到的预测结果由输出层输出。5.根据权利要求1所述的方法,其特征在于:所述步骤2中,设一个蛋白质序列为X
i
=x
i1
,x
i2
,
…
,x
ij
,
…<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。