当前位置: 首页 > 专利查询>武汉大学专利>正文

基于Transformer-Encoder和多尺度卷积神经网络的转录因子识别方法技术

技术编号:36691723 阅读:17 留言:0更新日期:2023-02-27 19:59
本发明专利技术公开了基于Transformer

【技术实现步骤摘要】
基于Transformer

Encoder和多尺度卷积神经网络的转录因子识别方法


[0001]本专利技术涉及蛋白质功能注释领域,具体涉及一种基于Transformer

Encoder和多尺度卷积神经网络的转录因子识别方法,由于转录因子是一类具有特殊功能的蛋白质,所以本专利技术属于深度学习在蛋白质功能注释领域的应用。

技术介绍

[0002]转录因子(Transcription Factor)是一种具有特殊结构、行使调控基因表达功能的蛋白质分子。转录因子通过与DNA序列特异性结合,促进或抑制特定DNA到RNA的转录过程,从而调节目标基因的表达。
[0003]传统上,通过生化实验来鉴定和识别转录因子的方法耗时、成本昂贵,无法大规模使用;采用BLAST的同源搜索方法无法对同数据库中已知蛋白质均不同源的蛋白质是否为转录因子进行鉴定;采用传统机器学习的预测方法可基于蛋白质结构或序列信息识别其是否为转录因子,但需要人工设计和转录因子相关的特征,需要较强的领域知识,且预测精度不高;深度学习具有可以直接学习蛋白质序列的特征的优点,但现有方法大多基于卷积神经网络构建预测模型。由于卷积核的限制,这类方法虽然可以自动学习特征表示,但只能学习距离较近的氨基酸间关系的局部特征,无法学习距离较远的氨基酸间关系的全局特征,影响了模型的预测精度。

技术实现思路

[0004]针对上述技术问题,本专利技术提供了一种基于Transformer

Encoder和多尺度卷积神经网络的转录因子识别方法,可以同时提取蛋白质序列中的全局和局部信息,自动获得关于转录因子的全面表示特征,从而进一步提高预测精度。
[0005]本专利技术提供的技术方案如下:
[0006]一种基于Transformer

Encoder和多尺度卷积神经网络的转录因子识别方法,步骤如下:
[0007]步骤1:构建训练集:从蛋白质数据库中收集蛋白质序列,根据对应的蛋白质注释信息,将每条蛋白质序列标记为转录因子或者非转录因子;对所有序列进行预处理,得到训练数据集;
[0008]步骤2:搭建网络结构:搭建Transformer

Encoder和多尺度卷积神经网络相结合的网络结构构建转录因子预测模型;其中Transformer

Encoder用于获得第i条蛋白质序列X
i
的全局特征多尺度卷积神经网络用于基于进行转录因子预测识别;
[0009]步骤3:训练预测模型:用步骤1得到的训练集来训练步骤2搭建的网络,得到训练好的转录因子预测模型;
[0010]步骤4:转录因子预测:利用步骤3得到的预测模型,预测未知的蛋白质序列是否为转录因子,输出预测结果。
[0011]进一步,所述步骤1包括以下子步骤:
[0012]1.1从蛋白质数据库中挑选不包含非标准氨基酸即B,O,U,Z的蛋白质序列,组成数据集S1;
[0013]1.2从S1中剔除长度超过1000的序列,仅保留长度小于或等于1000的序列;对长度小于1000的蛋白质序列,用零填充到长度为1000;最后得到蛋白质序列数据集S2;
[0014]1.3根据蛋白质数据库中每条蛋白质的GO注释信息,将S2中的每条蛋白质序列分别赋予转录因子“1”或非转录因子“0”的标签;最终得到训练数据集S=(X
i
,c
i
)|i=1,..,N;其中X
i
代表数据集中第i条蛋白质序列;c
i
为X
i
的标签,c
i
∈{0,1};N为S的大小。
[0015]进一步,所述步骤1.3中,如果蛋白质的GO注释中包含“transcription factor”的GO term,或者同时包含“transcription regulation”和“DNA binding”两个GO terms,则将该蛋白质序列为转录因子,并赋值为“1”;否则,该蛋白质序列为非转录因子,并赋值为“0”。
[0016]进一步,所述步骤2中网络结构包括串联组成的Transformer

Encoder结构和多尺度卷积神经网络结构;
[0017]该Transformer

Encoder结构仅保留Transformer中的Encoder部分,由6个Encoder块堆叠而成,每个Encoder块包含12个attention head;Transformer

Encoder用于从输入的蛋白质序列中提取全局特征;
[0018]多尺度卷积神经网络由四个并联的具有不同一维卷积核的卷积子网络、两个全连接层和输出层组成;卷积层包含多个分别对应不同大小卷积核的一维卷积操作获得多个不同大小的卷积特征;池化层分别对多个卷积特征进行池化,得到维度降低后的特征;池化后特征经过拼接送入全连接层;全连接层计算后得到的预测结果由输出层输出。
[0019]进一步,所述步骤2中,设一个蛋白质序列为X
i
=x
i1
,x
i2
,

,x
ij
,

x
i1000
,x
ij
表示蛋白质序列X
i
中第j个位置的氨基酸,利用Transformer

Encoder得到X
i
的全局特征的具体步骤为:
[0020]2.1通过embedding操作,得到X
i
的embedding向量,embedding的具体方法如下:
[0021]2.1.1首先对不同的氨基酸种类进行随机初始化,然后按照对应的氨基酸类型将X
i
的每个氨基酸x
ij
embedding生成相应的向量;
[0022]2.1.2使用位置编码提取蛋白质序列中的氨基酸的位置信息,其中位置编码是通过正弦和余弦函数来识别氨基酸在蛋白质的不同位置,其中第j个氨基酸的位置编码公式如下所示:
[0023][0024]其中,pos表示氨基酸在蛋白质序列中的位置,d表示嵌入向量的维度,k为自然数;
[0025]2.1.3将每个氨基酸x
ij
的embedding和对应的位置编码进行相加,得到蛋白质X
i
序列的embedding向量;
[0026]2.2得到蛋白质序列X
i
的embedding向量后,将其作为Transformer

Encoder的输入,利用其attention机制挖掘每两个氨基酸之间的attention分数,将attention分数与
embedding向量做叉乘,从而得到整个蛋白质序列X
i
的全局特征
[0027]更进一步,所述步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer

Encoder和多尺度卷积神经网络的转录因子识别方法,其特征在于,步骤如下:步骤1:构建训练集:从蛋白质数据库中收集蛋白质序列,根据对应的蛋白质注释信息,将每条蛋白质序列标记为转录因子或者非转录因子;对所有序列进行预处理,得到训练数据集;步骤2:搭建网络结构:搭建Transformer

Encoder和多尺度卷积神经网络相结合的网络结构构建转录因子预测模型;其中Transformer

Encoder用于获得第i条蛋白质序列X
i
的全局特征多尺度卷积神经网络用于基于进行转录因子预测识别;步骤3:训练预测模型:用步骤1得到的训练集来训练步骤2搭建的网络,得到训练好的转录因子预测模型;步骤4:转录因子预测:利用步骤3得到的预测模型,预测未知的蛋白质序列是否为转录因子,输出预测结果。2.根据权利要求1所述的方法,其特征在于:所述步骤1包括以下子步骤:1.1从蛋白质数据库中挑选不包含非标准氨基酸即B,O,U,Z的蛋白质序列,组成数据集S1;1.2从S1中剔除长度超过1000的序列,仅保留长度小于或等于1000的序列;对长度小于1000的蛋白质序列,用零填充到长度为1000;最后得到蛋白质序列数据集S2;1.3根据蛋白质数据库中每条蛋白质的GO注释信息,分别将S2中的每条蛋白质序列分别赋予转录因子“1”或非转录因子“0”的标签;最终得到训练数据集S=(X
i
,c
i
)|i=1,..,N;其中X
i
代表数据集中第i条蛋白质序列;c
i
为X
i
的标签,c
i
∈{0,1};N为S的大小。3.根据权利要求1所述的方法,其特征在于:所述步骤1.3中,如果蛋白质的GO注释中包含“transcription factor”的GO term,或者同时包含“transcription regulation”和“DNA binding”两个GO terms,则将该蛋白质序列为转录因子,并赋值为“1”;否则,该蛋白质序列为非转录因子,并赋值为“0”。4.根据权利要求1所述的方法,其特征在于:所述步骤2中网络结构包括串联组成的Transformer

Encoder结构和多尺度卷积神经网络结构;该Transformer

Encoder结构仅保留Transformer中的Encoder部分,由6个Encoder块堆叠而成,每个Encoder块包含12个attention head;Transformer

Encoder用于从输入的蛋白质序列中提取全局特征;多尺度卷积神经网络由四个并联的具有不同一维卷积核的卷积子网络、两个全连接层和输出层组成;卷积层包含多个分别对应不同大小卷积核的一维卷积操作获得多个不同大小的卷积特征;池化层分别对多个卷积特征进行池化,得到维度降低后的特征;池化后特征经过拼接送入全连接层;全连接层计算后得到的预测结果由输出层输出。5.根据权利要求1所述的方法,其特征在于:所述步骤2中,设一个蛋白质序列为X
i
=x
i1
,x
i2
,

,x
ij
,
…<...

【专利技术属性】
技术研发人员:刘娟杨志辉
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1