【技术实现步骤摘要】
基于层次注意力网络的蛋白质序列分类方法
本专利技术涉及蛋白质序列分类相关领域,具体来讲是一种基于层次注意力网络的蛋白质序列分类方法,应用于蛋白质序列分类系统之中。
技术介绍
蛋白质在生物体中扮演的重要角色,将蛋白质序列样本正确地划分到所属的蛋白质家族是开展计算生物学研究的基础问题之一。蛋白质序列分类对于认识蛋白质的结构和功能,进而理解细胞运行的复杂机制至关重要。相对于传统实验手段的低效率高成本,利用计算机的存储和计算能力,实现蛋白质序列分类具有更大优势,受到了生物医学研究者的广泛关注。蛋白质序列分类的挑战在于序列本身没有明显的家族识别的特征。此外,为了构建具有高性能的分类器,需要有效融合领域知识提取合适特征。目前,蛋白质序列分类的方法主要分为两类。一类是基于同源性的序列比对方法,该类方法基于同源性的假设,通过将原始序列中具有相同氨基酸的位置对齐,再通过某种测度方式进行相似度评价,最后判断是否属于同一个家族。其中,文献(AltschulStephen,GishWarren.Localalignmentstatistic ...
【技术保护点】
1.一种基于层次注意力网络的蛋白质序列分类方法,包括如下步骤;/n1),构建Embedding层;Embedding层位于网络的输入层之后,该层的主要作用是实现数据的向量化,把数据处理成后面网络需要的输入形式;/n2),建立LSTM的结构,在LSTM的结构中引入了1个核心元素“细胞”,细胞中存在状态参数,用来存储之前序列的信息;同时设计输入门、输出门和遗忘门,用来增加或者去除信息输入到细胞状态的能力;其特征在于:该方法还包括如下步骤;/n3),建立单层注意力网络模型,在LSTM模型的基础上添加了注意力层;在该层中采用注意力机制,为序列中的每个氨基酸分配一个权重,并以此来控制 ...
【技术特征摘要】
1.一种基于层次注意力网络的蛋白质序列分类方法,包括如下步骤;
1),构建Embedding层;Embedding层位于网络的输入层之后,该层的主要作用是实现数据的向量化,把数据处理成后面网络需要的输入形式;
2),建立LSTM的结构,在LSTM的结构中引入了1个核心元素“细胞”,细胞中存在状态参数,用来存储之前序列的信息;同时设计输入门、输出门和遗忘门,用来增加或者去除信息输入到细胞状态的能力;其特征在于:该方法还包括如下步骤;
3),建立单层注意力网络模型,在LSTM模型的基础上添加了注意力层;在该层中采用注意力机制,为序列中的每个氨基酸分配一个权重,并以此来控制每个氨基酸对分类的贡献;权重的向量可以作为一个参数,从数据的训练过程中学习到;
4),建立多层注意力网络模型;在单层注意力网络的基础上提出多层注意力网络,以提取用于蛋白质序列分类的深层信息;
5),实现蛋白质序列分类模型的训练过程。
2.根据权利要求1所述基于层次注意力网络的蛋白质序列分类方法,其特征在于:对于Embedding层的实现如下;
在深度学习网络模型中,Embedding层位于网络的输入层之后,该层的主要作用是实现数据的向量化,把数据处理成后面网络需要的输入形式;
采用one-hot编码对蛋白质序列进行向量化;
给定一条蛋白质序列S,序列的长度为|S|,序列中的氨基酸表示为si,i∈[1,|S|];氨基酸编码用矩阵We表示;经过Embedding层该蛋白质序列中的氨基酸可以向量化为xi=Wesi,i∈[1,|S|]。
3.根据权利要求1所述基于层次注意力网络的蛋白质序列分类方法,其特征在于:对于LSTM内部结构的实现如下;
LSTM的结构中引入了1个核心元素“细胞”,细胞中存在状态参数,用来存储之前序列的信息;同时设计了3个门结构:输入门、输出门和遗忘门,用来增加或者去除信息输入到细胞状态的能力;LSTM结构的计算公式如下:
it=σ(Wixt+Uiht-1+bi)(1)
ft=σ(Wfxt+Ufht-1+bf)(2)
ot=σ(Woxt+Uoht-1+bo)(3)
ct=ft⊙ct-1+it⊙tanh(Wcxt+Ucht-1+bc)(4)
ht=ot⊙tanh(ct)(5)
上述公式中ht为t时刻的输出,ct为细胞在t时刻的细胞状态;σ(·)是sigmoid非线性函数,tanh(·)是hyperbolictangent非线性函数,它们把线性方程映射到非线性空间,表示向量或矩阵对应元素之间的乘法;LSTM的参数有Wj,Uj,bj,j∈{i,f,o,c},其中W和U表示权重矩阵参数,b是偏移向量参数;
LSTM的输入是序列中各元素的向量化表示,在内部结构中通过结合输入的向量xt和上一时刻的输出向量ht-1,可以在t时刻输出一个固定长度的向量ht;该向量是结合了之前序列的信息和此刻序列的信息得到的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。