药物筛选中基于深度哈希的配体分子指纹生成方法技术

技术编号:15501009 阅读:818 留言:0更新日期:2017-06-03 22:34
本发明专利技术公开了一种药物筛选中基于深度哈希的配体分子指纹生成方法,首先生成分子结构式图像文件,然后定义配体分子对的配对标记,训练DPSH深度哈希学习模型,最后预测新配体分子的分子指纹。本发明专利技术将配体分子结构式转换成图像文件,利用深度哈希算法,优化目标损失函数,自动生成分子指纹。本发明专利技术将实现第一个“端到端”的分子指纹生成框架,无需手工提取特征,解决了分子指纹生成方法需要开发者对领域知识有较深了解的难题。本发明专利技术从全新的角度提供分子指纹生成的通用框架,为现有分子指纹生成方法的重要补充,将会推动分子指纹在药物筛选中更广泛的应用。

Method for generating ligand molecular fingerprints based on depth hashing in drug screening

The invention discloses a drug ligand molecular fingerprint generation method based on Hash depth screening, first generation molecular structure of the image file, and then define the paired labeled ligand molecules on the training, the depth of DPSH hash learning model, finally forecast the new molecular fingerprint ligands. The invention converts the ligand molecular structure formula into an image file, and uses the depth hashing algorithm to optimize the target loss function, and automatically generates the molecular fingerprint. The invention realizes the first \end to end\ molecular fingerprint generation framework, and does not need to manually extract features, and solves the problem that the molecular fingerprint generation method needs developers to have a deeper understanding of the domain knowledge. The present invention provides a general framework for the generation of molecular fingerprints from a completely new angle, and is an important supplement to the existing molecular fingerprint generation methods, and will further promote the application of molecular fingerprints in drug screening.

【技术实现步骤摘要】
药物筛选中基于深度哈希的配体分子指纹生成方法
本专利技术涉及一种药物筛选中基于深度哈希的配体分子指纹生成设计方法,属于计算机辅助药物设计的

技术介绍
分子指纹(MolecularFingerprint)将化学分子表示成“位串”(bitstring),用于刻画化学分子的结构或功能相似性,由于其使用的简便性以及在子结构和相似性搜索中的高效性,在药物发现和虚拟筛选中得到了广泛应用。目前,已经提出了很多的分子指纹生成方法,不同的方法反映了分子不同方面的信息。分子指纹生成方法主要包括:基于关键子结构的分子指纹生成方法、基于路径的分子指纹生成方法、环形指纹生成方法、药效团指纹生成方法和混合指纹生成方法等。基于关键子结构的分子指纹生成方法根据是否存在给定列表中的子结构将化学分子表示成位串,如MACCS、PubChem等。基于路径的分子指纹生成方法根据分子的拓扑结构,顺着分子化学键的不同路径产生子结构,并哈希产生分子位串,其长度可变,可用于快速子结构搜索,如Daylight指纹和OpenEye树形指纹。环形指纹生成方法利用分子的拓扑结构,考虑每个原子的周边原子和键的信息生成位串,已为广泛应用于分子的整体结构相似性搜索,如Molprint2D、ECFP、FCFP等。药效团指纹生成方法,它与基于关键子结构的指纹相似,但它除了考虑与药效相关的关键子结构,还考虑了这些子结构间的距离因素。混合指纹生成方法同时结合上述多种分子指纹信息,如UNITY2G同时考虑了关键子结构和子结构连接路径信息。除了上述分子指纹生成方法,最近还有不少全新的方法涌现。例如,LINGO为基于文本的分子指纹工具,PLIF分子指纹生成方法主要考虑蛋白质-配体相互作用信息,包括氢键、离子键等,SIFt分子指纹生成方法主要考虑分子结构间的相互作用信息。现有的分子指纹生成方法依赖于开发者的手工特征提取,这对开发者提出了很高的要求,开发者需要对领域知识有很深的了解。同时发现分子结构式的可视化显示是了解分子性质最直观的方式,可以将其结构图转化成图像格式,使用成熟的图像处理技术来生成分子指纹。深度哈希将特征自动生成和哈希编码学习通过深度学习框架结合到一起,凭借其强大的特征学习能力和标记监督信息,迅速超越了基于手工设计特征的传统哈希方法。
技术实现思路
本专利技术的目的在于解决传统分子指纹技术需要开发者对领域知识有较深了解,技术门槛较高的难题。本专利技术将分子结构式转换成图像文件,采用DPSH深度哈希算法自动学习分子指纹。本专利技术从全新的角度设计第一个“端到端”的分子指纹生成框架,开发者无需手工设计特征,模型将自动生成分子指纹。为达到上述目的,本专利技术的技术方案为一种药物筛选中基于深度哈希的配体分子指纹生成设计方法,包括如下步骤:步骤1:生成分子结构式图像文件;步骤2:定义配体分子对的配对标记;步骤3:训练DPSH深度哈希学习模型;步骤4:预测新配体分子的分子指纹。进一步,步骤1通过现有分子软件读取配体分子SMILES,并调用软件中的构图函数,生成固定尺寸为300*300像素的配体分子结构式图像文件,用于表示配体分子的结构特征。如果两配体分子与共同的药物靶标作用,则两分子之间的配对标记为1;若两分子分别与不同的药物靶标作用,则两分子之间的配对标记为0,DPSH深度哈希分子指纹生成模型的目的在于:配对标记为1的两个配体分子,通过模型生成的分子指纹尽可能相似;配对标记为0的两分子,其分子指纹之间差距较大。步骤3将步骤1得到的配体分子结构式图像进行预处理,转换成像素大小为224*224的图像形式,并结合步骤2生成的配对标记,一同输入DPSH深度哈希学习模型,提取配体分子结构深层次的特征,进行配体分子指纹自动编码,更新网络参数。步骤4中当要预测新的配体分子的哈希指纹时,只需将配体分子的结构式图像输入DPSH深度哈希学习模型处理,就能在输出端得到指定长度的指纹向量。本专利技术的有益效果:1、本专利技术提出的方法将实现第一个“端到端”、自动的分子指纹生成框架,开发者无需手工设计特征,解决了“开发者需要对领域知识有较深的了解”的难题。2、本专利技术从一个全新的角度来生成分子指纹,将捕获不同的分子信息,可作为现有分子指纹生成方法的重要补充,也将推动分子指纹在药物发现和虚拟筛选中更广泛的应用。附图说明图1为本专利技术基于深度哈希的分子指纹生成系统的架构图。图2为本专利技术基于深度哈希的分子指纹生成方法流程图。具体实施方式下面结合附图和实例对本专利技术做进一步的说明。本专利技术提出的方法只需要输入分子结构式文件,它将被转换成图像文件,利用DPSH深度哈希算法,通过优化目标损失函数来自动生成最优的分子指纹。本专利技术提出的方法将实现第一个“端到端”的分子指纹生成框架,开发者无需手工设计特征,解决了“开发者需要对领域知识有较深的了解”的难题。本专利技术从一个全新的角度来提供分子指纹生成的通用框架,可以作为现有的分子指纹生成方法重要的补充,也将推动分子指纹在药物发现和虚拟筛选中更广泛的应用。本专利技术主要包含两部分内容:分子的图像文件生成和分子指纹自动生成。分子的图像文件生成:结构式是用元素符号和短线表示化合物(或单质)分子中原子的排列和结合方式的式子,是一简单描述分子式的方法。本专利技术通过现有的软件,例如RDkit,将分子结构式转换成图像格式的文件。分子指纹自动生成:上面得到的图像作为DPSH深度哈希模型的输入,通过优化目标损失函数来生成最优的分子指纹。方法流程:步骤1:将配体化学分子式(SMILES格式)输入RDkit工具,转换为300*300像素的图像;步骤2:定义配体分子对的配对标记(pairwiselabel)。如果两个配体分子与同一个药物靶标作用,则这两个配体分子的配对标记为1,否则为0;步骤3:训练DPSH深度哈希学习模型。将配体分子对的两个配体分子的图像文件(由步骤1产生)和配对标记作为DPSH深度哈希模型的输入,训练DPSH深度哈希学习模型,使得相似的配体分子的哈希码(配体标记为1)尽量相似,不同的配体分子的哈希码(配体标记为0)尽量不同;步骤4:应用训练好的DPSH深度哈希模型,预测新的配体分子的分子指纹。本专利技术的具体实施步骤,如图2所示,包括:1、配体分子图像文件生成已知与疾病相关、具有特定药效功能的药物靶标和与之作用的配体分子(SMILES格式)。SMILES(Simplifiedmolecularinputlineentryspecification),简化分子线性输入规范,是一种用字符串明确描述分子结构的规范。SMILES用一串字符来描述一个三维化学结构,SMILES字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。调用RDkit中的Draw.MolToFile函数,可根据配体分子SMILES产生结构式图像,大小为300*300像素。2、基于DPSH深度学习模型的配体分子指纹自动生成2.1、定义属性如果两配体分子与共同的药物靶标作用,则两配体分子之间的配对标记为1;若两配体分子分别与不同的药物靶标作用,则两配体分子之间的配对标记为0。指纹生成模型的目的在于:配对标记为1的两个配体分子,生成的分子指纹尽可能相似;配对标记为0的两配体分子,其分子指纹之间差距较大。2.2、建模与训练在这个步骤本文档来自技高网
...
药物筛选中基于深度哈希的配体分子指纹生成方法

【技术保护点】
一种药物筛选中基于深度哈希的配体分子指纹生成设计方法,其特征在于,所述方法包括如下步骤:步骤1:生成分子结构式图像文件;步骤2:定义配体分子对的配对标记;步骤3:训练DPSH深度哈希学习模型;步骤4:预测新配体分子的分子指纹。

【技术特征摘要】
1.一种药物筛选中基于深度哈希的配体分子指纹生成设计方法,其特征在于,所述方法包括如下步骤:步骤1:生成分子结构式图像文件;步骤2:定义配体分子对的配对标记;步骤3:训练DPSH深度哈希学习模型;步骤4:预测新配体分子的分子指纹。2.根据权利要求1所述的一种药物筛选中基于深度哈希的配体分子指纹生成设计方法,其特征在于,步骤1通过现有分子软件读取配体分子SMILES,并调用软件中的构图函数,生成固定尺寸为300*300像素的配体分子结构式图像文件,用于表示配体分子的结构特征。3.根据权利要求1所述的一种药物筛选中基于深度哈希的配体分子指纹生成设计方法,其特征在于,如果两配体分子与共同的药物靶标作用,则两分子之间的配对标记为1;若两分子分别与不同的药物靶标作用,则两分子之间的配对标记为0,...

【专利技术属性】
技术研发人员:吴建盛尹新宇胡海峰
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1