System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多维度分子信息的分子大模型、构建方法及应用技术_技高网

一种基于多维度分子信息的分子大模型、构建方法及应用技术

技术编号:40348764 阅读:7 留言:0更新日期:2024-02-09 14:33
本发明专利技术提出一种基于多维度分子信息的分子大模型、构建方法及应用,包括构建无监督预训练数据集,对无监督预训练数据集进行预处理和分子构象生成处理,得到由分子图构成的分子预训练数据集;对分子预训练数据集中的分子图进行结构编码,获得初始化的原子特征,将初始化的原子特征输入Transformer中;在Transformer的自注意力层中融入最短路径结构编码、边信息编码和三维距离对编码,在训练过程中三维距离对编码与Transformer的自注意力层交互,迭代更新Transformer自注意力层的节点对特征;定义二维空间和三维空间联合分子图自监督学习任务,训练后得到基于多维度分子信息的分子大模型。本发明专利技术能够加快药物筛选速度,为药物研发提供帮助。

【技术实现步骤摘要】

本专利技术属于人工智能领域,具体公开了一种基于多维度分子信息的分子大模型构建方法。


技术介绍

1、传统药物研发是一个复杂而耗时的过程,涉及多个环节,如潜在目标鉴定、化合物优化、生物活性评价等,需要耗费大量人力、物力和财力。而大模型可以利用海量生物医学数据进行挖掘和分析,快速筛选出有潜力的药物分子,从而提高药物研发的速度,降低人力物力以及投入成本,为智能医药行业的创新发展提供强有力的支持。对于现有数据集而言,例如zinc,其仅包含二维分子信息,限制了模型学习立体空间信息的能力。除此之外,也有一些公开数据集中包含三维空间信息,例如pcqm4mv2或qm9,但是其数据规模的限制无法满足当下分子大模型的需求,因此需要构建一个同时包含二维平面和三维立体信息的大规模分子数据集。大模型的成功应用离不开transformer的支持,而现有的transformer无法充分表征图中的结构信息,从而使得在大规模图数据上进行大模型学习十分困难。2021年,ying等人提出了graphormer,通过在transformer中引入图结构编码信息,从而提高对结构信息的建模能力,但是这种方式缺乏对三维信息的学习,从而限制了模型的适用范围。为此,luo在graphormer的基础上,引入了三维信息的学习,通过引入三维位置编码,然而,上述方法仅在注意力矩阵中增添额外信息,并不能提高三维坐标的建模能力,从而限制了模型的适用范围。

2、现有的预训练模型中,如smiles字符串,由于本身序列条件的限制,不能很好的捕获结构信息。对于对比式的预训练任务,不恰当的数据增强会导致得到错误的正样本,这种学习方法会导致模型学习存在偏差。另一种方法是通过生成式的预训练任务对模型进行训练,通过遮掩一定比例的原子和边,并让模型测被遮掩部分的属性,但是这种生成式的预训练任务可能会存在过于简单的问题,例如对于化学领域而言,自然界之中仅包含118种元素,且存在严重的数据不平衡问题,从这个角度进行分子表征学习可能无法充分利用化学先验知识,影响性能表现。从三维角度而言,gem提出将化合物的空间结构信息引入到预训练编码过程之中,但是仅使用边-键角图作为额外空间信息,缺乏对三维坐标的完整利用;transformer-m首先提出使用二维信息和三维信息进行表征学习,但是受到三维平衡构象数目的限制,无法广泛推广到大规模数据集上。

3、综上所述,目前现有方法或多或少存在一定局限性:(1)对于生物医药领域,需要分子大模型来预测分子的生物活性和副作用等性质来加速药物筛选,或生成具有特定性质和结构的分子为药物设计和发现提供候选分子;(2)目前现有模型大都依赖于小规模数据集,并受到现有三维平衡构象数目的限制,缺乏可用于分子大模型训练的大规模图数据集;(3)现有模型对分子信息的表征能力有限,无法充分学习立体空间信息,需要提供具有高表达能力的模型。


技术实现思路

1、本专利技术为解决现有生物医药领域中缺乏可用于分子大模型训练的大规模图数据集且现有模型对分子信息的表征能力有限,无法充分学习立体空间信息的问题提出了一种基于多维度分子信息的分子大模型、构建方法及应用

2、本专利技术提供了一种基于多维度分子信息的分子大模型构建方法,包括如下步骤:

3、构建无监督预训练数据集,对所述无监督预训练数据集进行预处理和分子构象生成处理,得到由分子图构成的分子预训练数据集;

4、对所述分子预训练数据集中的分子图进行结构编码,获得初始化的原子特征,将所述初始化的原子特征输入transformer中;

5、在所述transformer的自注意力层中融入最短路径结构编码、边信息编码和三维距离对编码,在训练过程中所述三维距离对编码与所述transformer自注意力层交互,迭代更新所述transformer自注意力层的节点对特征;

6、定义二维空间和三维空间联合分子图自监督学习任务,训练后得到基于多维度分子信息的分子大模型。

7、根据本申请一些实施例的一种基于多维度分子信息的分子大模型构建方法,所述预处理包括去除氢原子、移除电荷、移除小片段、移除手性和标准化互变异构体,保留分子的主干结构表示,所述主干结构表示包括分子在原始数据库中的id编号和一维的分子smiles表示。

8、根据本申请一些实施例的一种基于多维度分子信息的分子大模型构建方法,所述分子构象生成处理包括通过rdkit工具包,基于如下步骤进行分子构象生成处理:

9、基于距离几何生成初步的分子构象;

10、基于etkdg方法修正分子构象;

11、基于mmff力场优化分子构象。

12、根据本申请一些实施例的一种基于多维度分子信息的分子大模型构建方法,所述transformer包括多个transformer块,每个transformer块均由自注意力层和前馈神经网络层组成,所述自注意力层和前馈神经网络层均进行标准的归一化操作。

13、根据本申请一些实施例的一种基于多维度分子信息的分子大模型构建方法,所述分子图如公式(1)所示:

14、g={xatom,a,e,r}        (1)

15、其中,为原子节点特征矩阵,n表示原子数量,d表示原子特征维度,xatom包含原子的固有属性,a表示分子图的邻接矩阵,涵盖了分子图的1阶拓扑信息,e表示分子图上边的集合,表示分子在三维空间上的几何空间坐标。

16、根据本申请一些实施例的一种基于多维度分子信息的分子大模型构建方法,所述初始化的原子特征包括原子节点特征矩阵、节点度编码、随机游走位置编码和三维距离编码,所述初始化的原子特征如公式(2)所示:

17、x0=[xatom|xdegree|xrw|x3d]       (2)

18、其中,xdegree表示节点度编码,xrw表示随机游走位置编码,x3d表示三维距离编码;

19、所述节点度编码xdegree如公式(3)所示:

20、xdegree=fα(d)   (3)

21、其中,d代表分子图的度矩阵,fα是对度信息的映射函数,

22、所述随机游走位置编码xrw如公式(4)所示:

23、

24、其中,表示节点i的随机游走位置编码,m表示随机游走位置编码的维度,rw为随机游走操作结果矩阵,如公式(5)所示:

25、rw=ad-1       (5)

26、其中,d-1表示度的逆矩阵,

27、所述三维距离编码如公式(6)所示:

28、

29、其中,表示节点i的三维距离编码,u(i)表示节点i的邻居节点集合,|u(i)|表示节点i的邻居数目之和,||ri-rj||表示节点i与节点j的距离信息,ri表示节点i的坐标信息,rj表示节点j的坐标信息。

30、根据本申请一些实施例的一种基于多维度分子信息的分子大模型构建方法,所述在所述tra本文档来自技高网...

【技术保护点】

1.一种基于多维度分子信息的分子大模型构建方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于多维度分子信息的分子大模型构建方法,其特征在于,所述预处理包括去除氢原子、移除电荷、移除小片段、移除手性和标准化互变异构体,保留分子的主干结构表示,所述主干结构表示包括分子在原始数据库中的ID编号和一维的分子SMILES表示。

3.根据权利要求1所述的一种基于多维度分子信息的分子大模型构建方法,其特征在于,所述分子构象生成处理包括通过RDkit工具包,基于如下步骤进行分子构象生成处理:

4.根据权利要求1所述的一种基于多维度分子信息的分子大模型构建方法,其特征在于,所述Transformer包括多个Transformer块,每个Transformer块均由自注意力层和前馈神经网络层组成,所述自注意力层和前馈神经网络层均进行标准的归一化操作。

5.根据权利要求1所述的一种基于多维度分子信息的分子大模型构建方法,其特征在于,所述分子图如公式(1)所示:

6.根据权利要求5所述的一种基于多维度分子信息的分子大模型构建方法,其特征在于,所述初始化的原子特征包括原子节点特征矩阵、节点度编码、随机游走位置编码和三维距离编码,所述初始化的原子特征如公式(2)所示:

7.根据权利要求6所述的一种基于多维度分子信息的分子大模型构建方法,其特征在于,所述在所述Transformer的自注意力层中融入最短路径结构编码、边信息编码和三维距离对编码中,通过偏置项的方式将所述最短路径结构编码、边信息编码和三维距离对编码融入到自注意力层中,如公式(7)所示:

8.根据权利要求7所述的一种基于多维度分子信息的分子大模型构建方法,其特征在于,所述定义二维空间和三维空间联合分子图自监督学习任务包括二维空间遮掩节点属性预测任务和三维空间坐标去噪任务;

9.一种基于多维度分子信息的分子大模型,其特征在于,采用权利要求1-8任一项所述的基于多维度分子信息的分子大模型构建方法得到。

10.一种如权利要求9所述的模型在生物医药领域中的应用,其特征在于,将待进行下游任务的数据集,输入到所述基于多维度分子信息的分子大模型中进行微调,得到对应下游任务的输出结果,所述待进行下游任务的数据集包括分子性质预测任务数据集、三维坐标生成任务数据集和药物筛选数据集。

...

【技术特征摘要】

1.一种基于多维度分子信息的分子大模型构建方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于多维度分子信息的分子大模型构建方法,其特征在于,所述预处理包括去除氢原子、移除电荷、移除小片段、移除手性和标准化互变异构体,保留分子的主干结构表示,所述主干结构表示包括分子在原始数据库中的id编号和一维的分子smiles表示。

3.根据权利要求1所述的一种基于多维度分子信息的分子大模型构建方法,其特征在于,所述分子构象生成处理包括通过rdkit工具包,基于如下步骤进行分子构象生成处理:

4.根据权利要求1所述的一种基于多维度分子信息的分子大模型构建方法,其特征在于,所述transformer包括多个transformer块,每个transformer块均由自注意力层和前馈神经网络层组成,所述自注意力层和前馈神经网络层均进行标准的归一化操作。

5.根据权利要求1所述的一种基于多维度分子信息的分子大模型构建方法,其特征在于,所述分子图如公式(1)所示:

6.根据权利要求5所述的一种基于多维度分子信息的分子大模型构建方法,其特征在于,所述初始化的原子特...

【专利技术属性】
技术研发人员:申彦明马煜婷
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1