System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多模态对比学习的分子性质预测方法技术_技高网

一种基于多模态对比学习的分子性质预测方法技术

技术编号:40602813 阅读:2 留言:0更新日期:2024-03-12 22:08
本发明专利技术属于分子性质预测技术领域,涉及一种基于多模态对比学习的分子性质预测方法。该方法基于分子的不同表示方法,融合空间联合度和分子的化学相似性的对比学习方法,联合自监督对比学习和有监督对比学习,建立分子性质预测模型。本发明专利技术为基于多模态对比学习的分子性质预测,引入了空间联合度和化学相似性,控制在对比学习过程中各模态的联合度,对模态之间的关系进行了细化,并考虑化学相似性对分子性质预测造成的影响。对所选的分类和回归问题的数据集进行了测试,性能优越,为辅助药物研发提供了切实有效的方法,具有较强的应用价值。

【技术实现步骤摘要】

本专利技术属于分子性质预测,涉及一种基于多模态对比学习的分子性质预测方法,有助于药物研发和化合物定性等工作。


技术介绍

1、药物研发的过程非常复杂,需要大量的人力和资金投入,并且实验时间长达几个月至三、四年。因此,药物研发虽然收益很高,但是风险也同样巨大。尽管目前生物技术的迅速进展在一定程度上帮助了这一过程,但药物开发仍旧存在许多困难,周期长、投入大、耗费资源多等问题依然存在。在药物发现过程中使用人工智能方法,特别是分子性质预测方法,可以有效地减轻对耗时费力的实验的过度依赖。例如,严重的毒性可能会导致临床试验失败或批准的药物退出市场,这会为生产药物的厂家带来难以估量的损失。为了避免出现这种情况,在药物研发的过程中对要生产的药物进行毒性的预测,从而排除带有毒性的分子。因此,分子性质预测工作成为了医疗保健和药物发现等研究中的重要一环。准确预测分子的性质,可以提高药物研发的效率,减少试错成本,缩短研发周期;有助于快速筛选出具有潜在药效的化合物,为新药物的研发和设计提供有力的支持。

2、计算机辅助方法能够通过分子结构和化学组成等信息预测分子性质。随着人工智能技术的快速发展,越来越多的研究者开始使用计算方法进行分子性质预测。其中采用对比学习预训练方法建立分子性质预测模型目前取得了较好的性能。但现有的对比学习方法通常建立在多模态和多通道的框架上,未对模态之间的联合度关系进行研究;此外,这些方法更多着眼于分子相似性,而忽略了化学相似性的影响。

3、本专利技术提出了一种基于对比学习的分子性质预测方法。该方法基于分子的不同表示方法,采用融合空间联合度和分子化学相似性的对比学习方法,联合自监督和有监督对比学习,建立分子性质预测模型。


技术实现思路

1、本专利技术提供一种基于多模态对比学习的分子性质预测方法,建立一种融合空间联合度和分子的化学相似性的对比学习方法,以训练高性能的分子性质预测模型。

2、本专利技术使用字符串、二维分子图和三维空间信息三种分子表示构造多模态框架。分子的字符串表示使用smiles(simplified molecular input line entry system,简化分子输入线记录规范)表示,强调分子的主干信息。

3、分子的二维分子图包含原子集和化学键集及二者的化学特征,能够描述分子的拓扑结构。

4、分子的三维空间表示方法以坐标集表示分子,每个分子表示为c={c1,c2,…,cn},其中ci=(xi,yi,zi),为原子i的三维空间位置。

5、本专利技术使用对比学习预训练技术增强模型性能。

6、本专利技术在多模态对比学习预训练过程中考虑了模态之间的关系,通过控制模态间的空间联合度来调整各模态样本空间分布的相近程度,从而使模型在联合空间上达到最优效果。

7、此外,现有对比学习方法在预训练阶段只比较分子表示的相似性,基于分子自身的结构表示进行对比学习,默认结构相似的分子在化学性质上也相近。但实际上,存在结构相似的分子在化学性质的表现上是截然不同的。在化合物分子研究领域存在一种“活性悬崖”的说法,是指化合物中微小结构变化导致生物活性或药物活性的显著变化。为了避免出现只考虑分子相似性导致活性悬崖等问题影响模型性能的情况,本专利技术在对比学习的损失函数中加入了分子的化学相似性度量,采用有监督对比学习方法,使用数据集自身标签进行监督对比,对每个数据集进行特异性的化学相似性比较。

8、为了实现上述目标,本专利技术采用的技术方案如下:

9、一种基于多模态对比学习的分子性质预测方法,步骤如下:

10、步骤一、将数据集中分子的smiles表示转换得到对应的二维分子图和三维空间表示;

11、数据集中的分子通常是以smiles形式表示的,使用rdkit库将smiles字符串分别转化为其对应分子的二维分子图和三维空间表示,并将三种表示分别输入transformer-cnn模型、attentive fp模型和dimenet++模型,得到三个模型输出的分子的隐藏表示。

12、步骤二、利用三种表示进行对比学习;

13、令分子i在模态mi的表示为分子j在模态mj的表示为与的相似性定义如公式(1)所示:

14、

15、其中表示分子i在模态mi下的隐藏表示;表示与的余弦相似性,即分子i在模态mi下的隐藏表示与分子j在模态mj下的隐藏表示的余弦相似性,exp为指数函数,τ为温标系数。

16、(2.1)计算同一分子跨模态的相似性公式(2)如下:

17、

18、公式中m为模态数,在本专利技术中为3。

19、(2.2)计算不同分子同一模态下的相似性公式(3)如下:

20、

21、公式中n为mini-batch的大小。

22、(2.3)计算不同分子跨模态的相似性公式(4)如下:

23、

24、(2.4)计算化学相似性相近的分子的全模态相似性首先计算分子i和j的类标相似性simlab(i,j)作为其化学相似性。对于分类任务相似性simlab(i,j)cls定义公式(5)如下:

25、

26、公式(5)的示意图见图1。

27、对于回归任务,先对整个回归数据集的标签进行归一化,求其标签距离dist(i,j)=abs(labi-labj),abs()为绝对值函数,labi、labj分别为分子i和j经过归一化后的标签;然后求分子的回归标签之间的相似性simlab(i,j)reg,公式(6)如下:

28、

29、公式(6)的示意图见图2。

30、求化学相似性相近的分子的全模态相似性公式(7)如下:

31、

32、其中对于分类任务,p(i)为与i分子类标相同的分子集;对于回归任务,p(i)为与i分子回归标签相近的分子集,p(i)={j|simlab(i,j)>0}。

33、(2.5)计算的对比损失公式(8)如下:

34、

35、其中λ为模态之间的空间联合度。公式(2)~公式(4)在公式(8)中的示意图见图3。

36、(2.6)计算mini-batch的总对比损失l,公式(9)如下:

37、

38、步骤三、将预训练模型迁移到下游训练任务上,作为下游任务的初始化参数,进行对应数据集的分子性质预测,过程见图4。

39、本专利技术为多模态对比学习的分子性质预测,引入了空间联合度和化学相似性,控制在对比学习中各模态的联合度,对模态之间的关系进行了细化,并考虑化学相似性对分子性质预测造成的影响。对所选的分类和回归问题的数据集进行了测试,性能优越,为辅助药物研发提供了切实有效的方法,具有较强的应用价值。

本文档来自技高网...

【技术保护点】

1.一种基于多模态对比学习的分子性质预测方法,其特征在于,步骤如下:

【技术特征摘要】

1.一种基于多模态对比学习的分子性...

【专利技术属性】
技术研发人员:王天翔林晓惠东坤杰
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1