获取分子表示数据的方法及分子属性获取方法技术

技术编号:33957214 阅读:43 留言:0更新日期:2022-06-29 23:48
本公开提供一种基于分子结构信息获取分子表示数据的方法,包括:对于组成分子的各个原子,获取单个原子外层的各个电子轨道结构数据,并生成基于波函数表示的各个电子轨道结构数据,将波函数表示的各个电子轨道结构数据作为原子结构数据;在组成分子的单个原子的体素空间内,将基于波函数表示的各个电子轨道结构数据进行组合,形成基于波函数的原子卷积核;在组成分子的所有原子的整个体素空间内,对构成分子的各个原子,通过各个原子对应的基于波函数的原子卷积核进行卷积操作,分子的各个原子经对应的基于波函数的原子卷积核卷积操作后,生成基于体素的可视化分子表示数据。本公开还提供了一种分子属性获取方法。开还提供了一种分子属性获取方法。开还提供了一种分子属性获取方法。

【技术实现步骤摘要】
获取分子表示数据的方法及分子属性获取方法


[0001]本公开涉及量子物理
,尤其涉及一种获取分子表示数据的方法及分子属性获取方法。

技术介绍

[0002]可视媒体是承载视觉信息的媒体类型。传统的可视媒体包括图形、图像、视频等形式,随着虚拟现实技术的发展,三维模型也成为了常见的可视媒体类型。无论哪种可视媒体类型,均通过利用视觉这种人类最为倚赖的感知方式,极大限度地提高人们对事物的理解程度,并由此衍生出了多种热门应用,例如自动驾驶、数字孪生等。
[0003]目前,常见的可视媒体主要针对宏观事物,利用视觉感知信息,进行理解与分析。作为普遍存在人们身边周围的单元,针对分子的可视化研究也日趋火热。由于分子作为微观世界的成员,其体积太小,无法被人眼直接观察到,因此如何将微观的东西变成可视的东西,同时保留微观世界的一些特性,是将微观分子表示为可视模型并在此基础上对其进行理解与分析所需要解决的主要问题。
[0004]针对分子的表示,目前比较主流的方法包括字符串表示和图表示,特别是后者随着图神经网络的发展,取得了非常显著的成绩。但这些表示均建立在对分子的宏观抽象表示上,是以宏观视角对微观世界的简化,丢失了微观世界的特性,难以准确描述分子在微观世界中的物理形态。
[0005]有一些工作试图建立分子的三维模型,如RNA蛋白质预测或晶体分子预测。前者通常是包含数千原子的大分子,由于其原子数量足够多,对分子进行原子

level的建模就已经足够,无需探索更小尺度例如单个原子的微观物理结构。后者的性质则取决于晶体本身的规则网格结构而非单个分子结构。而针对非晶体小分子构建三维模型,往往缺乏对微观世界的准确表示,而且容易陷入训练过程中依赖大量计算资源的困境。
[0006]如果能够建立一种微观可视模型,帮助从视觉感知上去理解与分析非晶体小分子的结构信息,提高对非晶体小分子的理解程度,同时避免训练过程中的过大计算资源开销,可以有效提升诸多相关领域的进展,如新药物生成、新材料发现等等。这些领域目前面临着共同的瓶颈,即需要一个用于筛选的现有分子数据库。而在实验室中要构造一个用于特定目标的先导分子是一项困难的任务。通过事先预测备选分子的属性,可以降低对分子数据库的依赖,从而提高构造满足要求分子的效率。

技术实现思路

[0007]为了解决上述技术问题中的至少一个,本公开提供了一种基于分子结构信息获取分子表示数据的方法,及分子属性获取方法。
[0008]根据本公开的一个方面,提供一种基于分子结构信息获取分子表示数据的方法,包括:
[0009]对于组成分子的各个原子,获取单个原子外层的各个电子轨道结构数据,并生成
基于波函数表示的各个电子轨道结构数据,将所述波函数表示的各个电子轨道结构数据作为原子结构数据;
[0010]在组成分子的单个原子的体素空间内,将基于波函数表示的各个电子轨道结构数据进行组合,形成基于波函数的原子卷积核,所述基于波函数的原子卷积核反映原子的物理结构;
[0011]在组成分子的所有原子的整个体素空间内,对构成分子的各个原子,通过各个原子对应的所述基于波函数的原子卷积核进行卷积操作,分子的各个原子经对应的所述基于波函数的原子卷积核卷积操作后,生成基于体素的可视化分子表示数据;
[0012]其中,所述体素空间,指在三维空间建立坐标系,将分子的几何中心作为原点,通过PCA提取坐标系的三个轴方向,将分子旋转至各个轴,空间中原子对应的位置为一个单元,各个单元包含一个向量,向量长度与原子种类对应,且每个向量表示对应的原子种类的周围电子云在所述位置上的概率分布。
[0013]根据本公开至少一个实施方式的基于分子结构信息获取分子表示数据的方法,所述原子的外层电子轨道数量为两层时,基于波函数表示的各个电子轨道结构数据包括:
[0014][0015][0016]其中,各个表达式含义如下:
[0017]r,表示第i层电子轨道的电子p到原子核p0的距离,r的取值为||p,p0||,i取值为1或2;
[0018]Z,表示原子的核电荷数;
[0019]a0,取值为一个常数。
[0020]根据本公开至少一个实施方式的基于分子结构信息获取分子表示数据的方法,所述原子的外层电子轨道数量为两层时,所述基于波函数的原子卷积核表示为:
[0021][0022]其中,各个表达式含义如下:
[0023](x,y,z),表示各个原子在体素空间坐标;
[0024]Ψ
i
,波函数形式表示的各个电子轨道,i取值为1或2;
[0025]l,表示电子层数,l取值为1或2;
[0026]r,表示第i层电子轨道的电子p到原子核p0的距离。
[0027]根据本公开至少一个实施方式的基于分子结构信息获取分子表示数据的方法,所述各个原子的基于波函数的原子卷积核进行卷积操作,包括:
[0028][0029]其中,各个表达式的含义如下:
[0030]P,表示分子中的原子;
[0031]δ
x
,δ
y
,δ
z
:分别原子p三个坐标轴方向的偏移量。
[0032]根据本公开的又一个方面,提供一种分子属性获取方法,包括:
[0033]将待预测属性的分子通过上述所述方法生成基于体素的可视化分子表示数据;
[0034]将所述基于体素的可视化分子表示数据输入分子属性预测网络,进行分子属性预测,所述分子属性预测网络经预先训练获得;
[0035]分子属性预测网络输出所述待预测属性的分子的属性。
[0036]根据本公开至少一个实施方式的分子属性获取方法,所述分子属性预测网络的组成包括:
[0037]所述分子属性预测网络基于神经网络组成,包括多个卷积操作层和多个池化操作层;
[0038]所述分子属性预测网络包括平均通道池化层,所述平均通道池化层使得各个体素在所有通道的平均值作为体素的值;
[0039]其中,所述通道反应原子在空间的分布情况,所述通道不同时,反应不同原子在空间的分布情况。
[0040]根据本公开至少一个实施方式的分子属性获取方法,所述分子属性预测网络的训练过程包括:
[0041]初始化属性预测网络的参数;
[0042]将数据集划分为训练集、验证集合测试集;
[0043]将训练集中包括基于体素的可视化分子表示数据及分子属性作为输入,输入至分子属性预测网络进行训练;
[0044]分别通过验证集、测试集的数据进行验证和测试;
[0045]通过平均绝对误差评价分子属性预测网络的训练效果,反复训练、验证,直至达到预期训练指标。
[0046]根据本公开至少一个实施方式的分子属性获取方法,所述基于体素的可视化分子表示数据经过归一化处理,以保证基于体素的可视化分子表示数据的各个原子在输入所述分子属性预测网络时具有统一的尺寸规格。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分子结构信息获取分子表示数据的方法,其特征在于,包括:对于组成分子的各个原子,获取单个原子外层的各个电子轨道结构数据,并生成基于波函数表示的各个电子轨道结构数据,将所述波函数表示的各个电子轨道结构数据作为原子结构数据;在组成分子的单个原子的体素空间内,将基于波函数表示的各个电子轨道结构数据进行组合,形成基于波函数的原子卷积核,所述基于波函数的原子卷积核反映原子的物理结构;以及在组成分子的所有原子的整个体素空间内,对构成分子的各个原子,通过各个原子对应的所述基于波函数的原子卷积核进行卷积操作,分子的各个原子经对应的所述基于波函数的原子卷积核卷积操作后,生成基于体素的可视化分子表示数据;其中,所述体素空间,指在三维空间建立坐标系,将分子的几何中心作为原点,通过PCA提取坐标系的三个轴方向,将分子旋转至各个轴,空间中原子对应的位置为一个单元,各个单元包含一个向量,向量长度与原子种类对应,且每个向量表示对应的原子种类的周围电子云在所述位置上的概率分布。2.根据权利要求1所述的基于分子结构信息获取分子表示数据的方法,其特征在于,所述原子的外层电子轨道数量为两层时,基于波函数表示的各个电子轨道结构数据包括:述原子的外层电子轨道数量为两层时,基于波函数表示的各个电子轨道结构数据包括:其中,各个表达式含义如下:r,表示第i层电子轨道的电子p到原子核p0的距离,r的取值为||p,p0||,i取值为1或2;Z,表示原子的核电荷数;a0,取值为一个常数。3.根据权利要求2所述的基于分子结构信息获取分子表示数据的方法,其特征在于,所述原子的外层电子轨道数量为两层时,所述基于波函数的原子卷积核表示为:其中,各个表达式含义如下:(x,y,z),表示各个原子在体素空间坐标;Ψ
i
,波函数形式表示的各个电子轨道,i取值为1或2;l,表示电子层数,l取值为1或2;r,表示第i层电子轨道的电子到原子核p0的距离。4.根据权利要求1所述的基于分子结构信息获取分子表示数据的方法,其特征在于,所述各个原子的基于波函数的原子卷积核进行卷积操...

【专利技术属性】
技术研发人员:佟强沈嘉豪刘晓彤刘秀磊
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1