System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于靶特异性小分子和多属性约束的条件分子生成方法技术_技高网

一种基于靶特异性小分子和多属性约束的条件分子生成方法技术

技术编号:40497780 阅读:16 留言:0更新日期:2024-02-26 19:25
本发明专利技术涉及一种基于靶特异性小分子和多属性约束的条件分子生成方法,包括:对单个靶点和配体小分子库的相互作用情况进行预训练,捕获靶点蛋白和配体之间的潜在交互特征;设置多属性约束条件作为条件变分自编码器的输入,并根据损失函数的梯度更新模型参数,在达到预定训练轮数后完成训练,保存模型参数;得到对应的条件向量输入到条件分子生成模型中,得到新分子的SMILES序列。本发明专利技术引入多属性约束特征等多种属性约束,通过条件变分自编码器将初始分子嵌入向量和约束条件向量作为输入,获得新分子的嵌入向量,再通过翻译模块得到新分子,所获得的新分子尽可能在靶特异性、结构和性质上满足药物研发人员的期望。

【技术实现步骤摘要】

本专利技术涉及计算机领域,尤其涉及一种基于靶特异性小分子和多属性约束的条件分子生成方法


技术介绍

1、分子生成作为从头药物设计的重要组成部分,它涉及从分子层面开始构建新的化合物,以寻找更有效、更特异的药物分子。近年来,随着人工智能技术在医药领域的广泛应用和实践,计算机辅助的分子生成取得了初步成功,这得益于以下因素:1)探索药物空间的广阔性,以覆盖传统药物研发无法触及的化学领域,为发现新型的、具有理想活性和选择性的药物提供了更多机会;2)提高药物研发效率,传统药物研发需要大量的试错过程,而分子生成通过计算机模拟和预测在化学空间中筛选候选药物,从而有效地降低试验成本和时间;3)解决特定靶点治疗难题,传统药物研发主要依赖于对已知药物的改进,然而有些靶点难以找到已有的药物进行有效治疗,而分子生成可以设计出全新的化合物,为药物研发带来更多的可能性;4)丰富的药物数据,如针对drd2(多巴胺2型受体)、jnk3(c-jun氨基末端激酶-3)和gsk3β(糖原合成酶激酶-3β)靶点的活性化合物数据。

2、目前,分子生成的方法主要分为基于结构和基于配体的分子生成方法这两大类。其中,基于结构的分子生成方法可进一步分为基于原子的方法和基于片段的方法,他们仅依赖于靶蛋白的结构特征,从原子或片段出发生成具有互补特征的小分子,以便更好的结合;这些方法通过给定三维蛋白质结合位点以自动回归采样方案顺序的采样原子,或者通过3d图神经网络获得结合位点和放置原子的上下文信息,直到没有空间容纳新的原子即可完成分子生成,此外,也有相关研究只依赖于靶点的氨基酸序列,并通过端到端的深度学习模型生成新分子。基于配体的分子生成方法利用现有的靶特异性小分子知识,通过迁移学习、强化学习等方法生成一组结构相似、性质优化的特异性分子;目前大多数基于深度学习的分子生成研究都是基于配体的,从化学语言(smiles式)和分子图的角度出发,学习已知配体集合中的几何结构和潜在的语义特征信息,生成具有特定性质的新分子,这些方法大多利用深度生成模型,如生成对抗网络、变分自动编码器、扩散模型等,利用与给定靶点的一组存在相互作用的配体信息来进一步生成满足性质约束条件且与靶点蛋白结合能力更好的分子。

3、上述技术方案虽然为分子生成的研究奠定了基础,但是却存在以下缺点:1、基于结构的分子生成方法大多仅仅依赖于靶点蛋白结构特征,没有考虑配体小分子的特征以及它们之间的交互特征,生成的新分子缺乏化学领域知识的指导;2、基于配体的分子生成方法一般从配体小分子的smiles式或者分子图出发,对分子的二维结构尤其是关键子结构的研究不足,而这些子结构对分子性质和活性至关重要;3、从已知配体出发的方法利用现有的特异性小分子知识,即对这些只与特定靶点有相互作用关系的配体小分子的知识,这限制了他们针对新靶点和已知配体数据有限的蛋白的效用。


技术实现思路

1、本专利技术的目的在于克服现有技术的缺点,提供了一种基于靶特异性小分子和多属性约束的条件分子生成方法,解决了现有技术存在的不足。

2、本专利技术的目的通过以下技术方案来实现:一种基于靶特异性小分子和多属性约束的条件分子生成方法,所述条件分子生成方法包括:

3、靶特异性分子感知预训练:对单个靶点和配体小分子库的相互作用情况进行预训练,捕获靶点蛋白和配体之间的潜在交互特征,为后续的条件分子生成提供属性约束条件;

4、训练条件分子生成模型:设置多属性约束条件作为条件变分自编码器的输入,并根据损失函数的梯度更新模型参数,在达到预定训练轮数后完成训练,保存模型参数;

5、条件分子生成:获取药物分子的靶点蛋白的初始嵌入向量,得到对应的条件向量输入到条件分子生成模型中,解码器输出新分子的嵌入向量,并按照原编码的规则逆向解码得到新分子的smiles序列。

6、所述靶特异性分子感知预训练具体包括:

7、选定靶点蛋白,将其氨基酸序列编码得到初始嵌入向量xp,从配体小分子库中迭代选取配体分子,将其smiles式编码得到初始嵌入向量xd;

8、将xp和xd进行拼接,并送入n层堆叠的lstm中学习其特征表示,得到靶点蛋白p和配体分子d的交互特征表示hn,再将其送入多层感知机mlp,选取二元交叉熵函数作为损失函数,预测相互作用情况y为真实相互作用情况的二值标签,为相互作用情况的预测值;

9、从配体小分子库迭代选取小分子与给定靶点蛋白参与模型训练,从而完成预训练模块。

10、所述多属性约束条件包括:靶特异性分子特征fm、maccs分子指纹特征fp和性质约束特征fs。

11、所述靶特异性分子特征fm包括:将靶点蛋白和配体分子的初始嵌入向量输入lstm中,得到交互特征fm=lstm([xp,xd])。

12、所述maccs分子指纹特征fp包括:基于分子结构和功能团片段生成的二进制指纹,表示为fp,其共包含166个不同的分子特征,每个特征对应一个特定的化学子结构,如果分子中存在某个特征,该特征对应的二进制位上的值为1,否则为0。

13、所述性质约束特征fs包括:评估分子药物类药性的指标qed、衡量候选分子是否容易合成的指标sa和衡量一个分子在两个不相溶溶剂中的分配情况的指标logp;

14、性质约束特征作为约束条件以逻辑表达式作为输入,将逻辑表达式中的每个性质条件的状态映射到特征向量的相应位置,对性质约束条件进行编码,为构造条件变分自编码器的条件做准备,使用0表示不满足预期的条件,使用1表示满足预期的条件,然后将这些0和1按照逻辑表达式的顺序放入特征向量中,其中每个位置对应一个性质条件的满足状态;

15、性质约束特征向量包括输入分子的性质和期望分子的性质,将两者性质特征向量连接起来得到一个6维特征向量,表示为fs。

16、所述训练条件分子生成模型具体包括:

17、将靶特异性分子特征fm、maccs分子指纹特征fp和性质约束特征fs三个特征向量连接起来作为条件变分自编码器的条件c=[fm,fp,fs];

18、以配体分子的初始嵌入向量xd和条件c作为编码器的输入,并将其映射到潜在空间中的均值μ和方差σ2参数,并通过公式μ,logσ2=e([xd,c])来简化计算和保持数值稳定性,并从高斯分布n(μ,σ2)采样得到随机的潜在向量z,再对其进行线性变换;

19、将随机的潜在向量z和条件c映射回配体分子的编码空间,生成新分子的嵌入向量xr=d([z,c]);

20、设置模型的总体损失函数为ltotal=lr+lkl,根据总体损失进行反向传播,选择优化算法,设置学习率和其他超参数,根据损失函数的梯度更新模型参数,达到预定训练轮数完成训练,保存模型参数,其中,lr为重构损失,lkl为散度损失。

21、所述条件分子生成方法还包括准备步骤,所述准备步骤包括:

22、给定单个靶点蛋白和一个配体小分子库,靶点蛋白以氨基酸序列表示,配体小分子库收集针本文档来自技高网...

【技术保护点】

1.一种基于靶特异性小分子和多属性约束的条件分子生成方法,其特征在于:所述条件分子生成方法包括:

2.根据权利要求1所述的一种基于靶特异性小分子和多属性约束的条件分子生成方法,其特征在于:所述靶特异性分子感知预训练具体包括:

3.根据权利要求2所述的一种基于靶特异性小分子和多属性约束的条件分子生成方法,其特征在于:所述多属性约束条件包括:靶特异性分子特征fm、MACCS分子指纹特征fp和性质约束特征fs。

4.根据权利要求3所述的一种基于靶特异性小分子和多属性约束的条件分子生成方法,其特征在于:所述靶特异性分子特征fm包括:将靶点蛋白和配体分子的初始嵌入向量输入LSTM中,得到交互特征fm=LSTM([xp,xd])。

5.根据权利要求3所述的一种基于靶特异性小分子和多属性约束的条件分子生成方法,其特征在于:所述MACCS分子指纹特征fp包括:基于分子结构和功能团片段生成的二进制指纹,表示为fp,其共包含166个不同的分子特征,每个特征对应一个特定的化学子结构,如果分子中存在某个特征,该特征对应的二进制位上的值为1,否则为0。>

6.根据权利要求3所述的一种基于靶特异性小分子和多属性约束的条件分子生成方法,其特征在于:所述性质约束特征fs包括:评估分子药物类药性的指标QED、衡量候选分子是否容易合成的指标SA和衡量一个分子在两个不相溶溶剂中的分配情况的指标LogP;

7.根据权利要求3所述的一种基于靶特异性小分子和多属性约束的条件分子生成方法,其特征在于:所述训练条件分子生成模型具体包括:

8.根据权利要求1-7中任意一项所述的一种基于靶特异性小分子和多属性约束的条件分子生成方法,其特征在于:所述条件分子生成方法还包括准备步骤,所述准备步骤包括:

...

【技术特征摘要】

1.一种基于靶特异性小分子和多属性约束的条件分子生成方法,其特征在于:所述条件分子生成方法包括:

2.根据权利要求1所述的一种基于靶特异性小分子和多属性约束的条件分子生成方法,其特征在于:所述靶特异性分子感知预训练具体包括:

3.根据权利要求2所述的一种基于靶特异性小分子和多属性约束的条件分子生成方法,其特征在于:所述多属性约束条件包括:靶特异性分子特征fm、maccs分子指纹特征fp和性质约束特征fs。

4.根据权利要求3所述的一种基于靶特异性小分子和多属性约束的条件分子生成方法,其特征在于:所述靶特异性分子特征fm包括:将靶点蛋白和配体分子的初始嵌入向量输入lstm中,得到交互特征fm=lstm([xp,xd])。

5.根据权利要求3所述的一种基于靶特异性小分子和多属性约束的条件分子生成方法,其特征在于:所述mac...

【专利技术属性】
技术研发人员:甘元帅刘勇国朱嘉静张云李巧勤
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1