一种基于人工神经网络的分子属性预测方法技术

技术编号:20567674 阅读:16 留言:0更新日期:2019-03-14 09:57
本发明专利技术提供了一种基于人工神经网络的分子属性预测方法,包括:S1)对分子数据进行预处理:通过图的数据结构表征的方法,得到原子空间表征与原子构成表征;S2)建立模型:将原子空间表征与原子构成表征通过多层卷积神经网络,得到分子各级的表征,并将分子各级的表征进行组合,得到模型;S3)根据模型预测分子属性。与现有技术相比,本发明专利技术利用多层级卷积神经网络,能够利用已有数据的信息以及分子的多层级结构,从中学出分子属性和空间构成的关系,并用来预测未知分子的相关属性,因此具有较好的速度与精度。

【技术实现步骤摘要】
一种基于人工神经网络的分子属性预测方法
本专利技术属于材料学
,尤其涉及一种基于人工神经网络的分子属性预测方法。
技术介绍
从药物研发,到材料开发,都离不开分子发现。为了寻找到具有特定属性的分子来满足应用上的需求,通用的方法是遍历一个未知的可能分子的集合(称之为化学空间),在遍历过程中,研究人员通过各种方法来预测分子的属性,如果发现某分子符合要求,则记录下来做进一步研究。举例而言,对分子能量属性的预测能够帮助研究人员找到稳定的分子。但是,化学空间往往非常庞大,一个被广泛应用的化学空间有一千六百多亿个分子。因此,一种快速的分子属性测定方法能够极大加速寻求特定分子的进程。但是传统物理上常用的密度泛函分析方法(DensityFunctionTheory,下面简称为DFT),在时间效率上并不理想,无法对大量数据进行处理。围绕该问题,研究者们提出了很多方法,但其中大部分仍然是基于DFT开发的。与此同时,该研究领域已经积累了许多相关的数据,但是大部分方法都无法利用这些已有的数据。
技术实现思路
有鉴于此,本专利技术要解决的技术问题在于提供一种基于人工神经网络的分子属性预测方法,该分子属性预测方法可充分利用已有的数据,且具有较好的速度与精度。本专利技术提供了一种基于人工神经网络的分子属性预测方法,包括:S1)对分子数据进行预处理:通过图的数据结构表征的方法,得到原子空间表征与原子构成表征;S2)建立模型:将原子空间表征与原子构成表征通过多层卷积神经网络,得到分子各级的表征,并将分子各级的表征进行组合,得到模型;S3)根据模型预测分子属性。优选的,所述步骤S1)具体为:分子数据包括分子的原子构成与原子的三维空间坐标;将原子的三维空间坐标转换为原子之间的距离矩阵,然后通过径向基函数扩展为距离张量,得到原子空间表征;将分子的原子构成进行嵌入表示,得到原子构成表征。优选的,距离矩阵通过径向基函数扩展为距离张量,具体按照以下模型进行:其中,x为距离矩阵中的每对距离;∩表示对元素的拼接;μi为中心点;||x-μi||表示x到第i个中心点的欧几里得距离;h为高斯核,K为最短距离到最长距离选取中心点的数量;通过径向基函数得到张量D∈RN×N×K,N为距离矩阵中每对距离的数量。优选的,将分子的原子构成进行嵌入表示,具体按照以下步骤进行:用向量表示分子中的节点和边,将原子看做分子中的节点,其表示为向量a0∈RD,进而得到整个分子的节点表示矩阵A0∈RN×D,经嵌入表示得到边表征矩阵为E∈RN×D×D。优选的,将原子空间表征与原子构成表征通过多层卷积神经网络,得到分子各级的表征具体为:其中,为卷积层第I+1层的边表征,为卷积层第I+1层的原子表征;he与hv为更新函数;dij为第i个原子与第j个原子之间的距离张量,eij为第i个原子与第j个原子之间的边表征。优选的,其特征在于,其中,η为超参数,为元素乘法,为元素加法,Wue为权重矩阵;σ为tanh激活函数,Wuv为权重矩阵,Mfa、Mfd与Mfe为全连接层。优选的,所述步骤S2)中将分子各级的表征进行组合,具体为:其中,为第i个原子第k层的表征,∩表示对表征的拼接。优选的,所述模型为:其中,为预测值,σ′为softplus激活函数,为应用在原子构成表征上的权重矩阵;为应用在原子构成表征上的全连接层;为应用在边表征上的权重矩阵;为应用在边表征上的全连接层。优选的,得到模型后,还包括:用已有的分子属性数据训练模型中的参数。优选的,所述步骤S2)中多层卷积神经网络中卷积层的个数为4~5。本专利技术提供了一种基于人工神经网络的分子属性预测方法,包括:S1)对分子数据进行预处理:通过图的数据结构表征的方法,得到原子空间表征与原子构成表征;S2)建立模型:将原子空间表征与原子构成表征通过多层卷积神经网络,得到分子各级的表征,并将分子各级的表征进行组合,得到模型;S3)根据模型预测分子属性。与现有技术相比,本专利技术利用多层级卷积神经网络,能够利用已有数据的信息以及分子的多层级结构,从中学出分子属性和空间构成的关系,并用来预测未知分子的相关属性,因此具有较好的速度与精度。在预测的速度上有了很大的提高:对于一个中等大小的分子,在同样的计算资源下,本专利技术仅需2.4×10-2秒,而传统基于密度泛函分析方法的模型需要3.6×103秒。相比之下本专利技术的效率高了大约1.5×105倍。在预测的精度方面,本专利技术在多项属性的预测上都达到了目前最高的精度。附图说明图1为本专利技术提供的分子属性预测方法的流程示意图。具体实施方式下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供了一种基于人工神经网络的分子属性预测方法,包括:S1)对分子数据进行预处理:通过图的数据结构表征的方法,得到原子空间表征与原子构成表征;S2)建立模型:将原子空间表征与原子构成表征通过多层卷积神经网络,得到分子各级的表征,并将分子各级的表征进行组合,得到模型;S3)根据模型预测分子属性。参见图1,图1为本专利技术提供的分子属性预测方法的流程示意图。分子数据包括分子的原子构成和每个原子的三维空间坐标;所述分子数据为本领域技术人员熟知的分子数据即可,并无特殊的限制,其可优选为由密度泛函分析方法计算得到的分子数据;对分子数据进行预处理,优选包括分子空间信息的处理和分子结构中节点和边的嵌入表征,前者在原始分子数据中表现为分子中每个原子的三维空间坐标,后者在原始分子数据中表现为分子的原子构成,本专利技术通过图的数据结构表征的方法,得到原子空间表征与原子构成表征。其中,所述原子空间表征优选按照以下步骤进行:将原子的三维空间坐标转换为距离矩阵,然后通过径向基函数扩展为距离张量,得到原子空间表征。将原子的三维空间坐标转换为原子之间的距离矩阵,可消除坐标系选择对分子观测的影响,因此使本专利技术提供的模型具有旋转和平移不变性,不会被不同视角下的同个分子迷惑;然后用径向基函数将该距离矩阵拓展为一个距离张量。径向基函数是一种被广泛使用的核方法,给定一个集合中K个中心点{μ1,...μk},对于单个数据点x(即距离矩阵中的每对距离),按照以下模型进行处理:其中,x为距离矩阵中的每对距离;∩表示对元素的拼接;μi为中心点;||x-μi||表示x到第i个中心点的欧几里得距离;h为径向基,本专利技术中优选为高斯核,即使用高斯核的好处在于可以避免训练初期较长的平台期;K为最短距离到最长距离选取中心点的数量,本专利技术中优选为在最短距离到最长距离中平均选K个点,这样,所有的距离都能被覆盖在其中。通过径向基函数得到张量D∈RN×N×K,dij表示第i个原子与第j个原子之间的距离张量,N为距离矩阵中每对距离的数量。预处理中另一部分的操作为嵌入操作,将分子的原子构成进行嵌入表示,得到原子构成表征,可分为原子表征与边表征。在嵌入表示时,用向量表示分子中的节点和边,将原子看做分子中的节点,其表示为向量a0∈RD,进而得到整个分子的节点表示矩阵即原子表征A0∈RN×D。在嵌入表示时,分子中同类原子优选共享一个嵌入值本文档来自技高网...

【技术保护点】
1.一种基于人工神经网络的分子属性预测方法,其特征在于,包括:S1)对分子数据进行预处理:通过图的数据结构表征的方法,得到原子空间表征与原子构成表征;S2)建立模型:将原子空间表征与原子构成表征通过多层卷积神经网络,得到分子各级的表征,并将分子各级的表征进行组合,得到模型;S3)根据模型预测分子属性。

【技术特征摘要】
1.一种基于人工神经网络的分子属性预测方法,其特征在于,包括:S1)对分子数据进行预处理:通过图的数据结构表征的方法,得到原子空间表征与原子构成表征;S2)建立模型:将原子空间表征与原子构成表征通过多层卷积神经网络,得到分子各级的表征,并将分子各级的表征进行组合,得到模型;S3)根据模型预测分子属性。2.根据权利要求1所述的分子属性预测方法,其特征在于,所述步骤S1)具体为:分子数据包括分子的原子构成与原子的三维空间坐标;将原子的三维空间坐标转换为原子之间的距离矩阵,然后通过径向基函数扩展为距离张量,得到原子空间表征;将分子的原子构成进行嵌入表示,得到原子构成表征。3.根据权利要求2所述的分子属性预测方法,其特征在于,距离矩阵通过径向基函数扩展为距离张量,具体按照以下模型进行:其中,x为距离矩阵中的每对距离;∩表示对元素的拼接;μi为中心点;||x-μi||表示x到第i个中心点的欧几里得距离;h为高斯核,K为最短距离到最长距离选取中心点的数量;通过径向基函数得到张量D∈RN×N×K,N为距离矩阵中每对距离的数量。4.根据权利要求3所述的分子属性预测方法,其特征在于,将分子的原子构成进行嵌入表示,具体按照以下步骤进行:用向量表示分子中的节点和边,将原子看做分子中的节点,其表示为向量a0∈RD,进而得到整个分子的节点表示矩阵A0∈RN×D,...

【专利技术属性】
技术研发人员:刘淇陈恩红陆承镪王超黄振亚
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1