当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于综合学习技术的药物靶标相互作用预测方法技术

技术编号:38387668 阅读:7 留言:0更新日期:2023-08-05 17:42
本发明专利技术属于新药研发领域,涉及一种基于综合学习技术的药物靶标相互作用预测方法,该方法包括训练阶段和使用阶段两部分,训练阶段包括初始初始多视角数据构建模块,相互作用预测模块和多视角自适应综合决策模块。初始多视角数据构建模块使用图编码器和图转换器,分别对每个视角数据建模,获得初始数据构建模型。本发明专利技术结合图注意力神经网络和消息传递网络的相互作用预测模块构建出深度特征并产生初步预测结果,通过多视角自适应综合决策模块,进一步提升了预测结果的准确度。相比传统药物10

【技术实现步骤摘要】
一种基于综合学习技术的药物靶标相互作用预测方法


[0001]本专利技术属于智能医疗计算机辅助新药研发领域,具体涉及一种基于综合学习技术的药物靶标相互作用预测方法。
技术背景
[0002]药物

靶标相互作用(Drug

Target Interaction,DTI)是指药物与靶标的结合产生积极或消极的变化,导致其行为或功能的改变。
[0003]近年来,药物发现、药物重定位和再利用、药物副作用预测已成为药物

靶标相互作用预测的主要应用方向。药物发现是对与特定靶标相互作用的新药的探索。发现一种新药不仅成本高昂,而且效率低下。它涉及多个阶段,如确定与药物结合的特定靶标,确定与靶标蛋白结合的化学物质的先导化合物,进行先导优化以提高效率和特异性,等等。另外,药物在推向市场之前还要进行各种临床试验,这些步骤的成本约为1.8亿美元。最后,新开发的药物需要10年左右才能进入大众市场。由上可知,传统的药物开发是非常耗时的。药物重定位是指重新利用现有的或被放弃的药物,并确定其新的治疗功能,亦可用于寻找针对某一种病症的特效药等方面。药物重定位和再利用的优点在于可以节省研发成本和时间,有助于缩小药物开发过程中的药物搜索空间,并且可以缩短将药物投入临床使用的周期。药物副作用是药物在治疗病症时可能产生的不良反应,其已成为药物研发领域的一个特别值得重视的问题。
[0004]在临床阶段早期预测药物副作用将有助于改善费力和昂贵的药物试验过程,也将为患者提供安全有效的治疗方法。所有这些应用都突出了药物

靶标相互作用在药物开发和研究过程中的作用。因此,用于预测药物靶相互作用的智能预测方法可以极大地帮助药物开发。

技术实现思路

[0005]本专利技术的目的是提供一种基于综合学习技术的药物靶标相互作用预测方法,该方法包括训练阶段和使用阶段两部分,训练阶段包括初始视角数据构建模块、相互作用预测模块和多视角自适应综合决策模块。
[0006]训练阶段:初始视角数据构建模块使用基于药物序列信息和靶标蛋白质序列信息组成的结合亲和力数据生成了序列信息视角数据,以及基于药物

靶标关系图数据生成了结构信息视角数据,由此获得初始视角数据构建模块;相互作用预测模块包含混合神经网络和高阶图注意力卷积网络,对初始的两个视角数据进行特征提取和训练,以获得具有更好预测能力的多视角特征,并利用特征进行预测产生结果,得到相互作用预测模块;产生的预测结果用于多视角自适应综合决策模块,获得具有更好预测性能的药物靶标相互作用预测的模型。
[0007]使用阶段:获取待测药物和靶标序列,利用分子生物学原理和统计学原理构建出序列的初始多视角特征;再利用训练出来的混合神经网络和高阶图注意力卷积网络提取出
2个视角的深度特征并预测结果;接着使用多视角自适应综合决策模块对产生的预测结果分别进行决策判断,得到最终的预测结果。
[0008]所述的基于综合学习技术的药物靶标相互作用预测方法使用深度学习和图神经网络技术,并融合了药物和靶标的序列特征,以及药物和靶标的结构特征优化表示。深度学习有效地提取到了药物和靶标的序列特征,而图神经网络也捕捉到了药物和靶标之间的相互作用信息。将深度学习技术和图神经网络有效结合可以充分提取药物和靶标的序列与结构的有效信息,提高方法的预测性能。
[0009]药物和靶标之间的相互作用可以用药物活性与靶标蛋白的结合亲和力来衡量,结合亲和力是指药物分子与靶标蛋白之间的相互吸引力,它反映了药物的效力和选择性。本专利技术采用简化分子线性输入规范(Simplified molecular input line entry system,SMILES)表示药物信息,SMILES是一种用ASCII字符串明确描述分子结构的规范,具有唯一标识一种化学物质的特性。同时,使用氨基酸序列表示靶标蛋白,药物靶标之间的连接标签为结合亲和力值。本专利技术通过阈值处理将连接标签转换为连接概率(1或0)。对于药物靶标关系图数据,针对不同数据集中包含的X种药物和Y种蛋白质,它们之间的连接标签通常是0或1,亦或是结合亲和力值。当连接标签为结合亲和力值时,同样通过阈值处理将连接标签转换为连接概率(1或0)。
[0010]该部分具体步骤如下:
[0011]第一步:根据数据集中药物和靶标之间的连接标签值,该连接标签值依据结合亲和力,通过阈值处理将连接标签转换为连接概率(1或0),进而将数据集处理成初始结合亲和力数据,添加特征标签,得到序列信息视角数据X1,其包含药物序列和靶标蛋白序列。
[0012]第二步:根据数据集中药物和靶标之间的相互作用关系,将药物和靶标作为图中的节点,相互作用表示为边,如药物和靶标之间具有相互作用,则用边将它们相连。由此将数据集处理成初始药物

靶标关系图数据,添加特征标签,得到结构信息视角数据X2。
[0013]第三步:利用第一步和第二步获取的数据,合并处理得得到初始多视角数据集D={X1,X2,y},其中X1序列信息视角数据,X2为结构信息视角数据,y为特征标签。
[0014]在基于药物和靶标蛋白质序列数据的混合深度网络相互作用预测子模块中,主要结构包括编码器和预测单元,结构如图2所示。编码器分为面向药物编码的消息传递神经网络和面向靶标编码的卷积神经网络。使用消息传递神经网络对药物进行编码,网络中的节点为原子,而边为化学键。设置节点的初始特征为{原子类型,原子电荷数,原子手性,原子轨道混成类型,芳香性,原子质量},除了原子质量用实数表示,其他特征都使用独热码进行编码。边的初始特征为{化学键类型,共轭性,是否成环,立体性},边的初始特征同样也用独热码进行编码。独热码是目前较为流行的编码技术,其原理是将一条由n种元素组成的长度为m的文字序列构建为一个n*m的矩阵,其中把每种元素转化成n维的标准正交基向量填充至m长度中的对应位置。利用药物序列,经过消息传递计算后获得药物编码特征E
d
。对于靶标,使用卷积神经网络(Convolutional Neural Network,CNN)作为编码器对靶标蛋白质序列进行编码。CNN是一种包含一个或多个卷积层和池化层的体系结构。池化层对前一层的输出进行向下采样,并泛化滤波器学习到的特征。在卷积层和池化层之上,还有一个或多个全连接(Fully Connected,FC)层。CNN模型最强大的特性是它们能够在滤波器的帮助下捕获局部依赖关系。因此,CNN中滤波器的数量和大小直接影响模型从输入中学习的特征类型。
本专利技术所用的CNN具体架构如图3所示。其具有3层卷积层,其中第二层滤波器的数量是第一层的两倍,第三层是第一层的三倍,本文分别设置滤波器的数量为32、64和96。卷积层之后是最大池化层,它从最后一层的滤波器产生的向量中选择最显著的特征进行池化,最后产生靶标蛋白质的编码特征E
p

[0015]预测单元是三个全连接层,接收编码器产生的药物编码结果E<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于综合学习技术的药物靶标相互作用预测方法,其特征在于,步骤如下:第一步:根据数据集中药物和靶标之间的连接标签值,该连接标签值依据结合亲和力,通过阈值处理将连接标签转换为连接概率(1或0),进而将数据集处理成初始结合亲和力数据,添加特征标签,得到序列信息视角数据X1,其包含药物序列和靶标蛋白序列;第二步:根据数据集中药物和靶标之间的相互作用关系,将药物和靶标作为图中的节点,相互作用表示为边,如药物和靶标之间具有相互作用,则用边将它们相连;由此将数据集处理成初始药物

靶标关系图数据,添加特征标签,得到结构信息视角数据X2;第三步:利用第一步和第二步获取的数据,合并处理得得到初始多视角数据集D={X1,X2,y},其中X1序列信息视角数据,X2为结构信息视角数据,y为特征标签;第四步:利用X1,y,使用药物序列,经过消息传递神经网络编码得到药物序列编码特征第五步:利用X1,y,使用靶点蛋白序列,经过卷积神经网络得到靶标序列编码特征第六步:利用和经过混合神经网络的预测单元,得到序列信息视角的预测结果y1;第七步:利用X2,y使用图注意力网络,获取具有注意力系数的邻域特征第八步:利用使用高阶图注意力编码器进行编码,得到聚合特征本发明使用高阶图注意力编码器来处理这些融合邻域信息的节点特征,高阶图注意力编码器定义为式中P为邻域阶数的集合,P={1,2,3,
···
,d},当d=1时就相当于图卷积网络;σ(
·
)表示激活函数,为对称归一化的邻接矩阵,其中D是图的对角矩阵,A表示邻接矩阵,I是单位矩阵,V是图中的节点数量,表示邻接矩阵的d次幂;l则是HOAGC的层数,W是l层的权重矩阵,‖表示拼接;第九步:利用经过预测单元得到结构信息视角的预测结果y2;第十步:使用多视角自适应综合决策模块对序列信息视角的预测结果y1和结构信息视角的预测结果y2的预测结果进行融合并自适应综合决策,得到最终的预测结果y。2.如权利要求1所述的基于综合学习技术的药物靶标相互作用预测方法,其特征在于:所述第四步中的对药物序列进行编码的消息传递神经网络架构,网络中的节点为原子,而边为化学键;设置节点的初始特征为{原子类型,原子电荷数,原子手性,原子轨道混成类型,芳香性,原子质量},除了原子质量用实数表示,其他特征都使用独热码进行编码;边的初始特征为{化学键类型,共轭性,是否成环,立体性},边的初始特征同样也用独热码进行编码;独热码是目前较为流行的编码技术,其原理是将一条由n种元素组成的长度为m的文字序列构建为一个n*m的矩阵,其中把每种元素转化成n维的标准正交基向量填充至m长度中的对应位置。3.如权利要求1或2所述的基于综合学习技术的药物靶标相互作用预测方法,其特征在于:所述第五步中对靶标序列进行编码的卷积神经网络架...

【专利技术属性】
技术研发人员:邓赵红陈越
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1