一种基于表示学习和图神经网络的药物靶标亲和力预测方法技术

技术编号:34795254 阅读:20 留言:0更新日期:2022-09-03 20:00
本发明专利技术一种基于表示学习和图神经网络的药物靶标亲和力预测方法,涉及生物医学和自然语言技术交叉领域。本发明专利技术将输入的药物和蛋白质数据转换为两种不同的形式,即二维矩阵结构和三维图结构,从而可以利用不同结构信息,充分提取信息,更好地对结果进行预测;使用注意力层融合四种信息,通过分析每一部分的权重,了解不同部分的重要性,提升预测性能。本发明专利技术解决了当前药物靶标亲和力预测任务中大多数只关注输入数据的部分结构信息的问题,并且使用注意力机制进行融合,更好地解释每一部分数据信息的重要性,从而大大提升药物靶标亲和力预测的性能。预测的性能。预测的性能。

【技术实现步骤摘要】
一种基于表示学习和图神经网络的药物靶标亲和力预测方法


[0001]本专利技术涉及自然语言处理
,特别是涉及一种基于表示学习和图神经网络的药物靶标亲和力预测方法。

技术介绍

[0002]随着药物研发技术的发展,以基因组学、蛋白质组学和系统学为代表的多种手段已经广泛应用于新药的研发当中。但是目前新药研发仍然面临着周期漫长、耗资巨大,并且成功率低。
[0003]随着计算机技术的快速发展,利用计算机技术辅助药物研发成为一个很有前景的研究领域。将深度学习技术引入药物靶标亲和力预测,能够大大提高新药的研发效率。如果能够识别所研究药物与某些靶蛋白之间的关联,就可以避免从海量蛋白质数据中筛选候选靶标,从而缩短研发时间。

技术实现思路

[0004]本专利技术的目的是提供一种基于表示学习和图神经网络的药物靶标亲和力预测方法,药物靶标亲和力就是药物和靶标(蛋白质)之间的结合强度,解决了当前药物靶标亲和力预测中只关注输入数据的部分结构。例如有的方法只关注三维结构信息,有的只关注二维结构信息,不能充分提取数据信息的问题。并且本专利技术提高了预测的性能,更有利于药物研发的效率。
[0005]为此,本专利技术提供了以下技术方案:
[0006]一种基于表示学习和图神经网络的药物靶标亲和力预测方法,具体步骤如下:
[0007]S1、数据表示:分别将药物和蛋白质序列通过嵌入层表示成二维向量结构,同时将药物通过RDKit工具、蛋白质通过Pconsc4转换为三维空间图结构;
[0008]S2、数据特征信息提取:分别将药物和蛋白质的二维向量结构表示的数据通过基于卷积神经网络的第一特征提取模型提取第一特征信息和第二特征信息;所述第一特征提取模型包括:若干层卷积神经网络CNN和一层长短期记忆网络LSTM;
[0009]分别将药物和蛋白质的三维图结构表示的数据通过基于图神经网络的第二特征提取模型提取第三特征信息和第四特征信息;所述第二特征提取模型包括若干层图神经网络GCN;
[0010]S3、特征信息融合:将提取到第一特征信息、第二特征信息、第三特征信息和第四特征信息通过注意力层进行特征信息融合;
[0011]S4、药物靶标亲和力预测:特征信息融合之后,经过全连接层进行药物靶标亲和力值预测。
[0012]进一步地,所述第二特征提取模型中,每一层GCN后使用PairNorm防止过拟合。
[0013]进一步地,分别将药物和蛋白质序列通过嵌入层表示成二维向量结构,包括:
[0014]分别对药物和蛋白质序列使用整数编码,将整数作为类别来表示输入;
[0015]将编码的序列通过嵌入层表示为二维向量结构。
[0016]进一步地,分别将药物和蛋白质序列通过嵌入层表示成二维向量结构,包括:
[0017]分别对药物和蛋白质序列使用标签编码,每个标签都由相应的整数表示,将整数作为类别来表示输入;
[0018]将编码的序列通过嵌入层表示为二维向量结构。
[0019]进一步地,将编码的序列通过嵌入层表示为二维向量结构,包括:
[0020]设置一个固定长度来获得有效表示;当长度超过最大长度的序列时进行截断,较短的序列用零填充。
[0021]进一步地,将提取到第一特征信息、第二特征信息、第三特征信息和第四特征信息通过注意力层进行特征信息融合,包括:
[0022]通过Softmax标准化四个特征表示信息,以获得每个特征的权重;
[0023]通过学习四个特征的权重,融合四个特征表示,得到最终的嵌入表示。
[0024]本专利技术的优点和积极效果:本专利技术提出了多通道输入方法,将输入数据同时表示为二维向量结构和三维空间拓拓扑结构,同时对同一数据的两种不同表示形式进行特征信息提取,然后通过注意力层进行数据的特征融合,最后通过全连接层对亲和力进行预测。通过多通道输入的方法,能够充分利用数据的二维信息和三维信息,从而能够更好得对药物靶标亲和力进行预测。利用注意力层计算每一部分特征信息的权重,针对数据不同结构的重要性对数据进行融合,能够提高预测的性能。
附图说明
[0025]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本专利技术实施例中一种基于表示学习和图神经网络的药物靶标亲和力预测方法的流程示意图;
[0027]图2为本专利技术实施例中药物靶向亲和力预测模型的原理图。
具体实施方式
[0028]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0029]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于
清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0030]本专利技术提供了一种基于表示学习和图神经网络的药物靶标亲和力预测方法。首先对输入数据进行预处理,分别将药物和蛋白质的序列结构转换为二维向量结构和三维空间拓扑结构。然后分别对转换后的数据使用神经网络进行特征提取,并且将提取到的特征通过注意力层进行特征融合。最后将融合后的特征向量通过全连接层进行亲和力值的预测。
[0031]如图1所示,本专利技术提供的一种基于表示学习和图神经网络的药物靶标亲和力预测方法,具体包括以下步骤:
[0032]S1、数据预处理。
[0033]其中,数据包括药物数据和蛋白质数据;数据预处理包括:药物和蛋白质二维向量结构表示、药物的空间拓扑结构表示和蛋白质的拓扑结构表示。将同一数据表示为两种不同结构的目的是为了充分提取数据中的特征信息。
[0034]具体地:
[0035]S11、药物和蛋白质二维向量结构表示:
[0036]使用整数/标签编码,将整数作为类别来表示输入。每个标签都由相应的整数(

C

:1,



:2,

N

:3等)表示。例如药物SMILES序列字符串的表示:[C N=C=O]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于表示学习和图神经网络的药物靶标亲和力预测方法,其特征在于,所述方法包括:S1、数据表示:分别将药物和蛋白质序列通过嵌入层表示成二维向量结构,同时将药物通过RDKit工具、蛋白质通过Pconsc4转换为三维空间图结构;S2、数据特征信息提取:分别将药物和蛋白质的二维向量结构表示的数据通过基于卷积神经网络的第一特征提取模型提取第一特征信息和第二特征信息;所述第一特征提取模型包括:若干层卷积神经网络CNN和一层长短期记忆网络LSTM;分别将药物和蛋白质的三维图结构表示的数据通过基于图神经网络的第二特征提取模型提取第三特征信息和第四特征信息;所述第二特征提取模型包括若干层图神经网络GCN;S3、特征信息融合:将提取到第一特征信息、第二特征信息、第三特征信息和第四特征信息通过注意力层进行特征信息融合;S4、药物靶标亲和力预测:特征信息融合之后,经过全连接层进行药物靶标亲和力值预测。2.根据权利要求1所述的一种基于表示学习和图神经网络的药物靶标亲和力预测方法,其特征在于,所述第二特征提取模型中,每一层GCN后使用PairNorm防止过拟合。3.根据权利要求1所述的一种基于表示学习和图神经网络的药物靶标亲和力...

【专利技术属性】
技术研发人员:张益嘉邓杰进鲁明羽
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1