预测蛋白质序列的远同源性关系的神经网络结构及方法技术

技术编号:16529477 阅读:41 留言:0更新日期:2017-11-09 21:23
本发明专利技术公开一种预测蛋白质序列的远同源性关系的神经网络结构及方法,神经网络结构包括:依次连接的输入层、LSTM层、随时间分布的全连接层和输出层,输入层用于获取输入的原始的蛋白质序列,将原始的蛋白质序列转换为神经网络能够处理的输入矩阵;LSTM层用于捕捉蛋白质序列中子序列间的依赖关系,在每个时间步上输出当前输入子序列的特征;随时间分布的全连接层对LSTM层中的不同memory cell的输出以不同的权重,汇总依赖关系信息;输出层根据随时间分布的全连接层在每个时间步上输出连接而成的向量,预测蛋白质序列的远同源性关系。本发明专利技术无需人工构建特征和生成序列谱,节省了大量时间,并提高了预测的准确性。

【技术实现步骤摘要】
预测蛋白质序列的远同源性关系的神经网络结构及方法
本专利技术涉及蛋白质远同源性检测
,尤其涉及一种预测蛋白质序列的远同源性关系的神经网络结构及方法。
技术介绍
蛋白质远同源性检测是生物信息学领域中的一个热点问题。蛋白质的远同源性指的是蛋白质之间序列相似度较低,但结构和功能相似度较高。通过蛋白质远同源性检测,能够提高蛋白质结构预测的准确度。在这个问题上,最早是序列匹配的方法;然后是基于判别式方法,基于传统机器学习的方法致力于人工提取特征的方式和核方法的改进。其中,基于序列匹配的方法是最早也最广泛应用的方法。但在序列相似度较低的情况下,该方法不能解决蛋白质远同源性检测问题。而在判别式方法中,使用传统机器学习模型的方法的性能,很大程度上依赖于其人工构建特征的质量。由于对蛋白质知识的局限,人工构建的特征往往忽略了一些信息,大多提取的蛋白质信息量不够,影响预测性能。例如,目前已知的特征构建方法中,只引入了蛋白质子序列间相对位置关系,而忽略了其在整条序列上的绝对位置。而且,虽然一些基于比对的核方法取得了优良的效果,但是它存在耗时较长的问题。另外,其他基于深度学习的方法是由一个LSTM(Long-ShortTermMemory,一种递归神经网络)层和一个输出层组成。它只利用了LSTM在最后一个时间步上产生的输出作为蛋白质的表示向量,输送到输出层分类。而蛋白质序列较长,只用最后一个输出无法很好的捕捉子序列间的长依赖关系。并且,这个蛋白质表示向量中蕴含的依赖关系信息无法寻找到对应的蛋白质子序列,从而难以分析。此外,它基于蛋白质序列谱来预测蛋白质远同源性,导致计算复杂度大大增加。
技术实现思路
本专利技术的主要目的在于提供一种预测蛋白质序列的远同源性关系的神经网络结构及方法,无需人工构建特征和生成序列谱,节省时间,并提高预测的准确性。为了达到上述目的,本专利技术提出一种预测蛋白质序列的远同源性关系的神经网络结构,包括:依次连接的输入层、LSTM层、随时间分布的全连接层和输出层,其中:所述输入层,用于获取输入的原始的蛋白质序列,将原始的蛋白质序列转换为神经网络能够处理的输入矩阵;所述LSTM层,用于捕捉蛋白质序列中子序列间的依赖关系,在每个时间步上输出当前输入子序列的特征,所述当前输入子序列的特征包含其上下文依赖关系;所述随时间分布的全连接层,用于对所述LSTM层中的不同memorycell的输出以不同的权重,汇总依赖关系信息;所述输出层,用于根据所述随时间分布的全连接层在每个时间步上的输出连接而成的向量,预测蛋白质序列的远同源性关系。其中,所述LSTM层包括单向LSTM层和双向LSTM层。其中,所述单向LSTM层用于将蛋白质序列从左到右进行处理,在某个时间步上的输出,包含了当前输入子序列和在其左边的子序列间的依赖关系。其中,所述双向LSTM层由一个前向LSTM层和一个后向LSTM层组成,分别从蛋白质序列的前端和后端开始处理,其中,对于同一个输入蛋白质子序列,前向LSTM层的输出和后向LSTM层的输出被连接成一个向量,前向LSTM层用于捕捉该输入蛋白质子序列与在它左边的子序列之间的依赖关系,后向LSTM层用于捕捉该输入蛋白质子序列与在它右边的子序列之间的依赖关系。其中,所述输出层预测蛋白质序列的远同源性关系包括:产生一个预测输入蛋白质属于某个超家族的概率。本专利技术还提出一种预测蛋白质序列的远同源性关系的方法,包括以下步骤:通过输入层获取输入的原始的蛋白质序列,将原始的蛋白质序列转换为神经网络能够处理的输入矩阵;通过LSTM层捕捉蛋白质序列中子序列间的依赖关系,在每个时间步上输出可以看作当前输入子序列的特征,所述当前输入子序列的特征包含其上下文依赖关系;通过随时间分布的全连接层对所述LSTM层中的不同memorycell的输出以不同的权重,汇总依赖关系信息;通过输出层根据所述随时间分布的全连接层在每个时间步上的输出连接而成的向量,预测蛋白质序列的远同源性关系。其中,所述LSTM层为单向LSTM层;所述通过LSTM层捕捉蛋白质序列中子序列间的依赖关系,在每个时间步上输出当前输入子序列的特征的步骤包括:将蛋白质序列从左到右进行处理,在某个时间步上的输出,包含了当前输入子序列和在其左边的子序列间的依赖关系。其中,所述LSTM层为双向LSTM层,所述双向LSTM层由一个前向LSTM层和一个后向LSTM层组成;所述通过LSTM层捕捉蛋白质序列中子序列间的依赖关系,在每个时间步上输出当前输入子序列的特征的步骤包括:前向LSTM层和后向LSTM层分别从蛋白质序列的前端和后端开始处理,其中,对于同一个输入蛋白质子序列,前向LSTM层的输出和后向LSTM层的输出被连接成一个向量,通过前向LSTM层捕捉该输入蛋白质子序列与在它左边的子序列之间的依赖关系,通过后向LSTM层捕捉该输入蛋白质子序列与在它右边的子序列之间的依赖关系。本专利技术设计了一种预测蛋白质序列的远同源性关系的神经网络结构及方法,基于深度学习技术,提出一个四层神经网络结构来预测蛋白质序列的远同源性关系,该专利技术能自动从原始蛋白质序列中发掘其特征,并侦测蛋白质子序列间的依赖关系,汇总依赖信息,从而分类。因此,它无需人工构建特征和生成序列谱,节省了大量时间,并提高了预测的准确性。与传统用LSTM做单分类的方式不同,本专利技术利用了LSTM在每个时间步上的输出作为当前输入蛋白质子序列的特征,包含了其上下文依赖关系,然后,使用一个随时间分布的全连接网络,来给LSTM中同一个memoryblock中不同memorycell的输出以不同的权重,从而达到汇总子序列间依赖关系的目的。在LSTM层,本专利技术采用了两种结构,一种使用单向LSTM,一种使用双向LSTM,使用双向LSTM更适合该网络结构,由此取得了更好的性能,适用于对预测精度要求较高的场景。附图说明图1和图2分别是本专利技术预测蛋白质序列的远同源性关系的两种神经网络结构示意图。图3是本专利技术预测蛋白质序列的远同源性关系的方法的流程示意图。为了使本专利技术的技术方案更加清楚、明了,下面将结合附图作进一步详述。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。参照图1和图2,图1和图2是本专利技术预测蛋白质序列的远同源性关系的两种神经网络结构示意图。图1是使用单向LSTM作为LSTM层的网络结构图,图2是使用双向LSTM作为LSTM层的网络结构图。如图1和图2所示,本专利技术提出一种预测蛋白质序列的远同源性关系的神经网络结构,为一个四层神经网络,该神经网络结构包括:依次连接的输入层、LSTM层、随时间分布的全连接层和输出层,其中:所述输入层,用于获取输入的原始的蛋白质序列,将原始的蛋白质序列转换为神经网络能够处理的输入矩阵;所述LSTM层,用于捕捉蛋白质序列中子序列间的依赖关系,在每个时间步上输出当前输入子序列的特征,所述当前输入子序列的特征包含其上下文依赖关系;所述随时间分布的全连接层,用于对所述LSTM层中的不同memorycell的输出以不同的权重,汇总依赖关系信息;所述输出层,用于根据所述随时间分布的全连接层在每个时间步上的输出连接而成的向量,预测蛋白质序列的远同源性关系。其中,在LSTM层,可以使用单向LSTM层和双向LST本文档来自技高网
...
预测蛋白质序列的远同源性关系的神经网络结构及方法

【技术保护点】
一种预测蛋白质序列的远同源性关系的神经网络结构,其特征在于,包括:依次连接的输入层、LSTM层、随时间分布的全连接层和输出层,其中:所述输入层,用于获取输入的原始的蛋白质序列,将原始的蛋白质序列转换为神经网络能够处理的输入矩阵;所述LSTM层,用于捕捉蛋白质序列中子序列间的依赖关系,在每个时间步上输出当前输入子序列的特征,所述当前输入子序列的特征包含其上下文依赖关系;所述随时间分布的全连接层,用于对所述LSTM层中的不同memory cell的输出以不同的权重,汇总依赖关系信息;所述输出层,用于根据所述随时间分布的全连接层在每个时间步上输出连接而成的向量,预测蛋白质序列的远同源性关系。

【技术特征摘要】
1.一种预测蛋白质序列的远同源性关系的神经网络结构,其特征在于,包括:依次连接的输入层、LSTM层、随时间分布的全连接层和输出层,其中:所述输入层,用于获取输入的原始的蛋白质序列,将原始的蛋白质序列转换为神经网络能够处理的输入矩阵;所述LSTM层,用于捕捉蛋白质序列中子序列间的依赖关系,在每个时间步上输出当前输入子序列的特征,所述当前输入子序列的特征包含其上下文依赖关系;所述随时间分布的全连接层,用于对所述LSTM层中的不同memorycell的输出以不同的权重,汇总依赖关系信息;所述输出层,用于根据所述随时间分布的全连接层在每个时间步上输出连接而成的向量,预测蛋白质序列的远同源性关系。2.根据权利要求1所述的预测蛋白质序列的远同源性关系的神经网络结构,其特征在于,所述LSTM层包括单向LSTM层和双向LSTM层。3.根据权利要求2所述的预测蛋白质序列的远同源性关系的神经网络结构,其特征在于,所述单向LSTM层用于将蛋白质序列从左到右进行处理,在某个时间步上的输出,包含了当前输入子序列和在其左边的子序列间的依赖关系。4.根据权利要求2所述的预测蛋白质序列的远同源性关系的神经网络结构,其特征在于,所述双向LSTM层由一个前向LSTM层和一个后向LSTM层组成,分别从蛋白质序列的前端和后端开始处理,其中,对于同一个输入蛋白质子序列,前向LSTM层的输出和后向LSTM层的输出被连接成一个向量,前向LSTM层用于捕捉该输入蛋白质子序列与在它左边的子序列之间的依赖关系,后向LSTM层用于捕捉该输入蛋白质子序列与在它右边的子序列之间的依赖关系。5.根据权利要求1所述的预测蛋白质序列的远同源性关系的神经网络结构,其特征在于,所述输出层预测蛋白质序列的...

【专利技术属性】
技术研发人员:刘滨王晓龙
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1