一种基于卷积与Transformer的受体分类方法技术

技术编号：37973335 阅读：8 留言：0更新日期：2023-06-30 09:48

本发明专利技术属于生物信息学领域，涉及一种基于卷积与Transformer的受体分类方法，旨在提高提取细胞受体序列特征并预测受体序列种类的性能。该方法采用词向量矩阵对所有受体序列进行处理，使用两层卷积神经网络提取初级特征，再使用两个不同注意力头数量的Transformer编码器提取进一步特征，最后使用两个具有不同输出通道数的卷积神经网络提取深层次的特征并得到分类结果。该方法的步骤包括：受体序列预处理、初级特征提取、时序特征提取、高级特征提取与分类四个步骤。这种基于卷积与Transformer的受体分类方法能够提高数据利用率，有效提取受体序列的时间序列特征，并得到更优的分类效果，具有广泛应用价值。具有广泛应用价值。具有广泛应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卷积与Transformer的受体分类方法

[0001]本专利技术属于生物信息学领域，涉及一种基于卷积与Transformer的受体分类方法。

技术介绍

[0002]细胞受体在人类生命活动中扮演着重要角色，近期的各种研究表明，可以通过细胞的受体状态来判断人类的身体状态，例如T细胞的受体序列可用于癌症的早期检测。
[0003]有许多先进的神经网络方法被成功用于细胞受体序列分类。不过，由于细胞受体序列长度不一，大多数神经网络方法都具有以下缺点：（1）需要使用多个不同的模型处理不同长度的细胞受体序列，极大地减少了数据的利用率。（2）无法有效提取受体序列的时间序列特征，分类效果达不到预期目标。

技术实现思路

[0004]本专利技术提出了一种解决受体序列分类效果不佳问题的方法，即一种基于卷积与Transformer的受体序列分类方法，Transformer是一种使用注意力机制的深度学习模型架构，使用多头自注意力机制代替传统神经网络中的RNN，能够进行并行计算获得更快的训练速度且达到更好的效果。首先，为受体序列中的每种氨基酸设置一个对应的词向量，并使用无意义的词向量对较短的细胞受体序列进行填充，使得所有受体序列长度相同，并能够提取受体序列特征。之后使用两层卷积神经网络提取词向量矩阵的初级特征，再使用两个不同注意力头数量的Transformer编码器提取进一步特征，最后使用两个具有不同输出通道数的卷积神经网络提取深层次的特征并得到分类结果。
[0005]为了实现上述目的，本专利技术采用的技术...

【技术保护点】

【技术特征摘要】
1.一种基于卷积与Transformer的受体分类方法，包括受体序列预处理、初级特征提取、时序特征提取，高级特征提取与分类四个步骤，具体步骤如下：步骤 1、为受体序列中的每一种氨基酸都设置了一个词向量，将受体序列映射为对应的词向量矩阵，并使用无意义的词向量把较短的词向量矩阵填充到最大长度；步骤 2、将步骤1得到的词向量矩阵按顺序依次通过两个卷积核大小不同的卷积神经网络、激活函数和归一化函数，以此得到受体序列的初级特征；步骤 3、构建两个具有不同注意力头的Transformer编码器，将步骤2得到的初级特征分别传入到两个Transformer编码器中，将两个编码器得到的结果拼接到一起，以此得到受体序列的时间序列特征；步骤 4、构建两个具有不同输出通道数的卷积神经网络，将步骤3得到的时间序列特征分别传入到两个卷积神经网络，将两个卷积神经网络得到的结果首尾相连拼接到一起，以此得到受体序列的高级特征，并将该特征传入到两个线性层构成的全连接层中并得到最终的预测结果。2.根据权利要求1所述的一种基于卷积与Transformer的受体分类方法，步骤1的实现过程如下：将受体序列中的每种氨基酸映射为该氨基酸对应的索引值，并使用氨基酸索引值以外的索引对小于最大长度的受体序列进行填充，以使所有受体序列的长度相同；使用Pytorch框架的nn.Embedding函数为每种氨基酸索引及填充所用的额外索引生成一个维度相同的词向量，再将填充后的受体序列映射为词向量矩阵。3.根据权利要求1所述的一种基于卷积与Transformer的...

【专利技术属性】
技术研发人员：刘峻江，周树森，臧睦君，王庆军，柳婵娟，刘通，
申请(专利权)人：鲁东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人