当前位置: 首页 > 专利查询>鲁东大学专利>正文

一种基于卷积与Transformer的受体分类方法技术

技术编号:37973335 阅读:8 留言:0更新日期:2023-06-30 09:48
本发明专利技术属于生物信息学领域,涉及一种基于卷积与Transformer的受体分类方法,旨在提高提取细胞受体序列特征并预测受体序列种类的性能。该方法采用词向量矩阵对所有受体序列进行处理,使用两层卷积神经网络提取初级特征,再使用两个不同注意力头数量的Transformer编码器提取进一步特征,最后使用两个具有不同输出通道数的卷积神经网络提取深层次的特征并得到分类结果。该方法的步骤包括:受体序列预处理、初级特征提取、时序特征提取、高级特征提取与分类四个步骤。这种基于卷积与Transformer的受体分类方法能够提高数据利用率,有效提取受体序列的时间序列特征,并得到更优的分类效果,具有广泛应用价值。具有广泛应用价值。具有广泛应用价值。

【技术实现步骤摘要】
一种基于卷积与Transformer的受体分类方法


[0001]本专利技术属于生物信息学领域,涉及一种基于卷积与Transformer的受体分类方法。

技术介绍

[0002]细胞受体在人类生命活动中扮演着重要角色,近期的各种研究表明,可以通过细胞的受体状态来判断人类的身体状态,例如T细胞的受体序列可用于癌症的早期检测。
[0003]有许多先进的神经网络方法被成功用于细胞受体序列分类。不过,由于细胞受体序列长度不一,大多数神经网络方法都具有以下缺点:(1)需要使用多个不同的模型处理不同长度的细胞受体序列,极大地减少了数据的利用率。(2)无法有效提取受体序列的时间序列特征,分类效果达不到预期目标。

技术实现思路

[0004]本专利技术提出了一种解决受体序列分类效果不佳问题的方法,即一种基于卷积与Transformer的受体序列分类方法,Transformer是一种使用注意力机制的深度学习模型架构,使用多头自注意力机制代替传统神经网络中的RNN,能够进行并行计算获得更快的训练速度且达到更好的效果。首先,为受体序列中的每种氨基酸设置一个对应的词向量,并使用无意义的词向量对较短的细胞受体序列进行填充,使得所有受体序列长度相同,并能够提取受体序列特征。之后使用两层卷积神经网络提取词向量矩阵的初级特征,再使用两个不同注意力头数量的Transformer编码器提取进一步特征,最后使用两个具有不同输出通道数的卷积神经网络提取深层次的特征并得到分类结果。
[0005]为了实现上述目的,本专利技术采用的技术方案是:一种基于卷积与Transformer的受体分类方法,包括受体序列预处理、初级特征提取、时序特征提取,高级特征提取与分类四个步骤,其具体步骤如下:步骤 1、为受体序列中的每一种氨基酸都设置了一个词向量,将受体序列映射为对应的词向量矩阵,并使用无意义的词向量把较短的词向量矩阵填充到最大长度;步骤 2、将步骤1得到的词向量矩阵按顺序依次通过两个卷积核大小不同的卷积神经网络、激活函数和归一化函数,以此得到受体序列的初级特征;步骤 3、构建两个具有不同注意力头的Transformer编码器,将步骤2得到的初级特征分别传入到两个Transformer编码器中,将两个编码器得到的结果拼接到一起,以此得到受体序列的时间序列特征;步骤 4、构建两个具有不同输出通道数的卷积神经网络,将步骤3得到的时间序列特征分别传入到两个卷积神经网络,将两个卷积神经网络得到的结果首尾相连拼接到一起,以此得到受体序列的高级特征,并将该特征传入到两个线性层构成的全连接层中并得到最终的预测结果。
[0006]一种基于卷积与Transformer的受体分类方法,步骤1实现过程如下:将受体序列中的每种氨基酸映射为该氨基酸对应的索引值,并使用氨基酸索引值
以外的索引对小于最大长度的受体序列进行填充,以使所有受体序列的长度相同。使用Pytorch框架的nn.Embedding函数为每种氨基酸索引及填充所用的额外索引生成一个维度相同的词向量,再将填充后的受体序列映射为词向量矩阵。
[0007]一种基于卷积与Transformer的受体分类方法,步骤2实现过程如下:对数据集进行随机划分,其中三分之二的数据集作为训练集,三分之一的数据集作为测试集,把步骤1中生成的受体序列词向量矩阵作为输入,使用Pytorch框架的nn.Conv1d函数构建两个不同大小卷积核的卷积神经网络,将受体序列词向量矩阵作为输入分别依次输入到两个卷积神经网络以及激活函数、归一化函数中,以此来提取受体序列的初级特征,该操作可加快Transformer模型的收敛并提升最终效果。
[0008]一种基于卷积与Transformer的受体分类方法,步骤3实现过程如下:使用Pytorch框架的nn.TransformerEncoderlayer以及nn.TransformerEncoder函数构建两个具有不同注意力头数量的Transformer编码器,将步骤2得到的初级特征分别传入到两个Transformer编码器中,将两个编码器得到的结果拼接到一起,以此得到受体序列的时间序列特征,该操作可以提取受体序列不同维度的时间序列特征。
[0009]一种基于卷积与Transformer的受体分类方法,步骤4实现过程如下:使用Pytorch框架的nn.Conv1d函数构建两个输出通道数不同的卷积神经网络,将步骤2得到的时间序列特征分别传入到两个卷积神经网络以及激活函数、归一化函数、随机失活函数中。使用nn.linear函数构建一个包含两个线性层的全连接层,将两个卷积神经网络得到的结果首尾拼接到一起,并传入到全连接层中,以此得到最终预测结果。
附图说明
[0010]图1是一种基于卷积与Transformer的受体分类方法流程图。
[0011]图2是受体序列预处理流程图。
[0012]图3是提取初级特征流程图。
[0013]图4是提取时间序列特征流程图。
[0014]图5是提取高级特征流程图。
[0015]图6是全连接流程图。
具体实施方式
[0016]以下结合附图和实例对本专利技术进行详细说明。
[0017]本专利技术提出了一种基于卷积与Transformer的受体分类方法,特别地,用于受体序列分类。
[0018]一种基于卷积与Transformer的受体分类方法,图1是一种基于卷积与Transformer的受体分类方法流程图,包括受体序列预处理、初级特征提取、时序特征提取,高级特征提取与分类四个步骤,其具体实施方式如下:步骤1:对受体序列数据进行预处理,图 2为受体序列数据预处理流程图,包括以下内容:每条受体序列是一维矩阵,大小为tcr_len
ꢀ×
1,如公式1所示:
ꢀꢀ
(1)
其中为构成受体序列的20种氨基酸中的一种,20种氨基酸分别是甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、甲硫氨酸(蛋氨酸)、脯氨酸、色氨酸、丝氨酸、酪氨酸、半胱氨酸、苯丙氨酸、天冬酰胺、谷氨酰胺、苏氨酸、天门冬氨酸、谷氨酸、赖氨酸、精氨酸和组氨酸,tcr_len为该受体序列的初始长度,共有6种长度的受体序列,分别是12、13、14、15、16、17。为20种氨基酸建立索引表,每种索引都对应一个15维的词向量,在索引表中额外添加1个索引以及对应的词向量,作为用于填充的无意义词向量。在索引表中蛋白质W对应0、F对应1、G对应2、A对应3、V对应4、I对应5、L对应6、M对应7、P对应8、Y对应9、S对应10、T对应11、N对应12、Q对应13、C对应14、K对应15、R对应16、H对应17、D对应18、E对应19、20为填充所用索引值。将受体序列中的每个氨基酸替换为该氨基酸对应的索引值,将长度小于17的受体序列的长度填充到17,以T细胞受体序列为例, 对其转换为索引并填充后得到的受体序列的索引值序列为,其中20为填充所用词向量的索引值。使用Pytorch框架的nn.Embedding函数为每种氨基酸索引以及填充所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积与Transformer的受体分类方法,包括受体序列预处理、初级特征提取、时序特征提取,高级特征提取与分类四个步骤,具体步骤如下:步骤 1、为受体序列中的每一种氨基酸都设置了一个词向量,将受体序列映射为对应的词向量矩阵,并使用无意义的词向量把较短的词向量矩阵填充到最大长度;步骤 2、将步骤1得到的词向量矩阵按顺序依次通过两个卷积核大小不同的卷积神经网络、激活函数和归一化函数,以此得到受体序列的初级特征;步骤 3、构建两个具有不同注意力头的Transformer编码器,将步骤2得到的初级特征分别传入到两个Transformer编码器中,将两个编码器得到的结果拼接到一起,以此得到受体序列的时间序列特征;步骤 4、构建两个具有不同输出通道数的卷积神经网络,将步骤3得到的时间序列特征分别传入到两个卷积神经网络,将两个卷积神经网络得到的结果首尾相连拼接到一起,以此得到受体序列的高级特征,并将该特征传入到两个线性层构成的全连接层中并得到最终的预测结果。2.根据权利要求1所述的一种基于卷积与Transformer的受体分类方法,步骤1的实现过程如下:将受体序列中的每种氨基酸映射为该氨基酸对应的索引值,并使用氨基酸索引值以外的索引对小于最大长度的受体序列进行填充,以使所有受体序列的长度相同;使用Pytorch框架的nn.Embedding函数为每种氨基酸索引及填充所用的额外索引生成一个维度相同的词向量,再将填充后的受体序列映射为词向量矩阵。3.根据权利要求1所述的一种基于卷积与Transformer的...

【专利技术属性】
技术研发人员:刘峻江周树森臧睦君王庆军柳婵娟刘通
申请(专利权)人:鲁东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1