一种虚拟药物筛选方法、装置、计算设备及存储介质制造方法及图纸

技术编号:25047708 阅读:26 留言:0更新日期:2020-07-29 05:36
公开了一种虚拟药物筛选方法、装置、计算设备、存储介质。所述方法包括:对配体化合物和靶标蛋白质进行分子对接;以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录相应的预定结构信息并映射为结构信息矩阵组;利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到化合物‑蛋白质复合物的表示矩阵;对所述表示矩阵进行卷积、偏置、池化,得到结构向量;将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量,以此进行药物筛选。

【技术实现步骤摘要】
一种虚拟药物筛选方法、装置、计算设备及存储介质
本专利技术涉及药物筛选,具体的说,涉及一种虚拟药物筛选方法、装置、计算设备及存储介质。
技术介绍
传统药物筛选是一项耗费大量时间、试剂、人力和设备的任务,不仅需要设计合成可能成药的化合物,还需要进行相应的生物化学或细胞实验验证其生物活性,但成功率不高。为了克服传统药物筛选的缺陷,计算机辅助药物设计走进了人们的视野。一方面计算机技术不断进步,软硬件设施都得到了极大改善,另一方面现代药物研发过程中积累了大量的生物学数据和化学数据,这为计算机辅助药物设计的快速发展提供了良好条件。其中,基于配体化合物和靶标蛋白质的三维结构进行分子对接是进行计算机虚拟药物筛选的常用方法之一。分子对接是指利用计算机模拟两个分子结合生成稳定复合物的方法。在药物设计中,这两个分子通常是配体化合物小分子和靶标蛋白质大分子,当它们结合时会使得相应的生化过程受到抑制或者增强,从而产生治疗效果。正如同只有当钥匙正确的插入锁孔才能打开锁一样,只有当配体化合物和靶标蛋白质采取合适的构象结合,才能发挥药效。进行分子对接,可以不断调整配体化合物和靶标蛋白质的结合构象,从而预测最优的结合模式以及相应的结合强度,对于优化药物结构以及阐明生化过程具有重要意义。分子对接过程的关键之一是评分函数,即对配体化合物和靶标蛋白质的结合构象进行评分,作为结合自由能的近似,用于指导构象采样——通过最小化评分函数(即最大化结合能的绝对值)来选择最佳的结合构象。常用的评分函数主要分为三类:其一是基于力场的评分函数,它涵盖了范德华力、静电力、氢键力等相互作用,根据第一性原理从头模拟计算分子的结合能;其二是基于先验知识的评分函数,它利用现有数据库中已知的结构数据及其结合能来产生一些简化的系数项来逼近复杂的物理作用,例如建立所有原子类型成对的结合能系数并求和作为结合能的近似,虽然极大地减少了计算量但是增加了过拟合的风险;其三是基于经验的评分函数,它整合了基于力场的和基于先验知识的评分函数,既包括了一些力场的物理参数,同时也设定诸如疏水性作用、去溶剂化作用等参数,这些参数可以通过现有已知数据来进行回归拟合。OlegTrott等人开发了用于分子对接和虚拟筛选的程序AutoDockVina。AutoDockVina通过预先定义的评分函数并通过复杂的梯度下降方式来调整结合构象以最小化评分函数。此外,利用多线程技术,AutoDockVina可以在多核CPU机器上并行,比其之前的版本AutoDock4在计算速度上快了两个数量级,同时显著地提高了预测结合构象的准确性。DavidRyanKoes等人在AutoDockVina的基础之上加以改进,设计了新的评分函数并优化以支持高通量筛选,开发了smina程序。但是这些分子对接程序仍然需要耗费大量时间进行计算,而在一些虚拟筛选的数据集上区分活性化合物和非活性化合物的能力有限。另一方面,化合物的物理性质和化学性质与其生物活性、药物动力学性质有密切联系。ChristopherALipinski提出了“5规则”用于粗略估计化合物的口服利用度,用于初步筛选化合物。这些规则所含有的数字都是5的倍数,即氢键供体数不超过5、相对分子质量不超过500、正辛醇-水分配系数小于5、氢键供体数不超过10,不满足这些条件的化合物更倾向于具有较差的吸收性。DanielF.Veber等人的实验研究表明,当化合物具有不超过10个可旋转化学键,并且极性表面积不大于140平方埃,其通常具有较好的口服生物利用度。
技术实现思路
本专利技术披露了一种虚拟药物筛选方法,包括:利用分子对接程序对配体化合物和靶标蛋白质进行分子对接;以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录化合物邻近原子和蛋白质邻近原子的预定结构信息;将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组;利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵;对所述表示矩阵进行卷积操作,并经第一偏置项偏置后,进行最大池化操作,得到结构向量;将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量;基于所述2维向量进行药物筛选。在一些实施方式中,所述的虚拟药物筛选方法包括:所述化合物邻近原子和蛋白质邻近原子的预定结构信息包括所述化合物邻近原子和蛋白质邻近原子的原子类型、偏电荷数、与参考原子的距离以及蛋白质邻近原子归属的氨基酸残基类型;将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组包括:将化合物邻近原子和蛋白质邻近原子的原子类型、偏电荷数、与参考原子的距离以及蛋白质邻近原子归属的氨基酸残基类型分别映射为原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵;利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵包括:利用神经网络分别对原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵进行嵌入操作,将嵌入后的四个矩阵在水平方向上拼接得到配体化合物-靶标蛋白质复合物的表示矩阵;将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作包括:将所述结构向量与所述理化性质向量进行拼接,拼接后的向量与一权值矩阵相乘后得到中间向量,加上与所述中间向量具有相同维度的所述第二偏置项,再与另一权值矩阵相乘进行所述全连接操作。在一些实施方式中,将化合物邻近原子和蛋白质邻近原子的原子类型、偏电荷数、与参考原子的距离以及蛋白质邻近原子归属的氨基酸残基类型分别映射为原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵包括:将原子类型和氨基酸残基类型映射为整数编号,偏电荷数按照下界为-1,上界为1,区间宽度为0.05的划分方式映射到相应的区间编号,与参考原子的距离按照下界为0,上界为5.1埃,区间宽度为0.3埃的划分方式映射到相应的区间编号;由原子类型和氨基酸残基类型的整数编号以及偏电荷数和与参考原子的距离的区间编号分别得到所述原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵。在一些实施方式中,所述卷积操作利用卷积核数为400的权值矩阵进行。在一些实施方式中,所述神经网络利用python神经网络软件库TensorFlow构建,所述神经网络设置四个平行的嵌入层,嵌入向量长度均设为200,分别用于对所述原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵进行嵌入操作。在一些实施方式中,所述2维向量表示所述化合物对所述靶标蛋白质呈非活性和活性的原始分数,基于所述2维向量进行药物筛选包括:对所述原始分数进行softmax操作,得到输出的分数,根据输出的分数高低进行药物筛选。在一些实施方式中,所述方法还包括:对神经网络进行训练,在训练神经网络时,采用交本文档来自技高网
...

【技术保护点】
1.一种虚拟药物筛选方法,其特征在于,包括:/n利用分子对接程序对配体化合物和靶标蛋白质进行分子对接;/n以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录化合物邻近原子和蛋白质邻近原子的预定结构信息;/n将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组;/n利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵;/n对所述表示矩阵进行卷积操作,并经第一偏置项偏置后,进行最大池化操作,得到结构向量;/n将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量;/n基于所述2维向量进行药物筛选。/n

【技术特征摘要】
1.一种虚拟药物筛选方法,其特征在于,包括:
利用分子对接程序对配体化合物和靶标蛋白质进行分子对接;
以对接后的化合物分子所含的每一个原子为参考原子,确定每一参考原子的化合物邻近原子和蛋白质邻近原子,记录化合物邻近原子和蛋白质邻近原子的预定结构信息;
将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组;
利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵;
对所述表示矩阵进行卷积操作,并经第一偏置项偏置后,进行最大池化操作,得到结构向量;
将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作,得到用于表示所述化合物对所述靶标蛋白质呈非活性和活性的2维向量;
基于所述2维向量进行药物筛选。


2.如权利要求1所述的虚拟药物筛选方法,其特征在于,包括:
所述化合物邻近原子和蛋白质邻近原子的预定结构信息包括所述化合物邻近原子和蛋白质邻近原子的原子类型、偏电荷数、与参考原子的距离以及蛋白质邻近原子归属的氨基酸残基类型;
将化合物邻近原子和蛋白质邻近原子的预定结构信息映射为结构信息矩阵组包括:将化合物邻近原子和蛋白质邻近原子的原子类型、偏电荷数、与参考原子的距离以及蛋白质邻近原子归属的氨基酸残基类型分别映射为原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵;
利用神经网络对结构信息矩阵组进行嵌入操作,由嵌入后的结构信息矩阵组得到配体化合物-靶标蛋白质复合物的表示矩阵包括:利用神经网络分别对原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵进行嵌入操作,将嵌入后的四个矩阵在水平方向上拼接得到配体化合物-靶标蛋白质复合物的表示矩阵;
将所述结构向量与表示所述化合物的物理化学性质和分子指纹的理化性质向量拼接,并经神经网络加权和以第二偏置项偏置后进行全连接操作包括:将所述结构向量与所述理化性质向量进行拼接,拼接后的向量与一权值矩阵相乘后得到中间向量,加上与所述中间向量具有相同维度的所述第二偏置项,再与另一权值矩阵相乘进行所述全连接操作;
优选的,将化合物邻近原子和蛋白质邻近原子的原子类型、偏电荷数、与参考原子的距离以及蛋白质邻近原子归属的氨基酸残基类型分别映射为原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵包括:
将原子类型和氨基酸残基类型映射为整数编号,偏电荷数按照下界为-1,上界为1,区间宽度为0.05的划分方式映射到相应的区间编号,与参考原子的距离按照下界为0,上界为5.1埃,区间宽度为0.3埃的划分方式映射到相应的区间编号;由原子类型和氨基酸残基类型的整数编号以及偏电荷数和与参考原子的距离的区间编号分别得到所述原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵;
优选的,所述神经网络利用python神经网络软件库TensorFlow构建,所述神经网络设置四个平行的嵌入层,嵌入向量长度均设为200,分别用于对所述原子类型矩阵、偏电荷数矩阵、距离矩阵和氨基酸残基类型矩阵进行嵌入操作;
优选的,所述卷积操作利用卷积核数为400的权值矩阵进行。


3.如权利要求1所述的虚拟药物筛选方法,其特征在于,所述2维向量表示所述化合物对所述靶标蛋白质呈非活性和活性的原始分数,基于所述2维向量进行药物筛选包括:对所述原始分数进行softmax操作,得到输出的分数,根据输出的分数高低进行药物筛选。


4.如权利要求1所述的虚拟药物筛选方法,其特征在于,所述方法还包括:对神经网络进行训练,在训练神经网络时,采用交叉熵损失函数,学习速率设为0.075,最大迭代次数为5,优化方式为Adadelta。


5.如权利要求1所示的虚拟药物筛选方法,其特征在于,每一参考原子的所述化合物邻近原子和蛋白...

【专利技术属性】
技术研发人员:黄韬杨晨
申请(专利权)人:深圳智药信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1