识别分子属性的方法、训练识别模型的方法和装置制造方法及图纸

技术编号:31501963 阅读:15 留言:0更新日期:2021-12-22 23:21
本申请提供了一种识别分子属性的方法、训练识别模型的方法和装置,涉及人工智能的药物领域;该方法包括:获取分子的分子表达式;基于该分子表达式,获取该分子的距离矩阵;其中,该距离矩阵用于表征该分子中的原子的三维结构坐标之间的距离;基于该距离矩阵构建该分子的分子拓扑图;以该分子拓扑图为输入,利用识别模型识别该分子的属性。该方法能够在控制分子属性的识别成本的基础上,提升分子属性的识别准确度。准确度。准确度。

【技术实现步骤摘要】
识别分子属性的方法、训练识别模型的方法和装置


[0001]本申请实施例涉及人工智能的药物领域,并且更具体地,涉及识别分子属性的方法、训练识别模型的方法和装置。

技术介绍

[0002]截止目前,在分子属性识别领域,使用的算法主要包括传统机器学习算法和深度学习算法两种。具体地,在传统的机器学习算法方案中,通常使用随机森林(Random Forests)、支持向量机(Support Vector Machines)等方法,这些方法一般以人工构造的分子描述符(Molecular Descriptors)或分子指纹(Molecular Fingerprints)作为数据输入,建立分子属性识别模型。在深度学习方案中,将分子的共价键的属性作为数据输入,并使用图神经网络对分子进行编码学习,构建分子属性识别模型。
[0003]但是,在传统的机器学习算法方案中,分子属性识别准确率的提升很大程度依赖于分子描述符和分子指纹的构造,而分子描述符和分子指纹的构造一般需要相关的化学领域专家来完成,人为构造的分子描述符和分子指纹表达能力有限,增加了分子属性的识别成本。在深度学习方案中,以图神经网络模型为主,在模型中引入了分子的共价键的属性,基于原子间的共价键来构建分子的分子拓扑图,进而基于构建的分子拓扑图构建分子属性识别模型,但是基于原子间的共价键来构建分子的分子拓扑图无法捕获非共价键相连但空间相距较近原子间的相互作用,导致分子属性的识别准确度过低。
[0004]因此,本领域亟需一种能够在控制分子属性的识别成本的基础上,提升分子属性的识别准确度。

技术实现思路

[0005]本申请提供了一种识别分子属性的方法、训练识别模型的方法和装置,能够在控制分子属性的识别成本的基础上,提升分子属性的识别准确度。
[0006]一方面,本申请提供了一种识别分子属性的方法,包括:
[0007]获取分子的分子表达式;
[0008]基于该分子表达式,获取该分子的距离矩阵;其中,该距离矩阵用于表征该分子中的原子的三维结构坐标之间的距离;
[0009]基于该距离矩阵构建该分子的分子拓扑图;
[0010]以该分子拓扑图为输入,利用识别模型识别该分子的属性。
[0011]另一方面,本申请提供了一种训练识别模型的方法,包括:
[0012]获取已标注有属性的分子的分子表达式;
[0013]基于该分子表达式,获取该分子的距离矩阵;其中,该距离矩阵用于表征该分子中的原子的三维结构坐标之间的距离;
[0014]基于该距离矩阵构建该分子的分子拓扑图;
[0015]以该分子拓扑图以及该分子的属性为输入,训练识别模型。
[0016]另一方面,本申请提供了一种用于识别分子属性的装置,包括:
[0017]获取单元,用于:
[0018]获取分子的分子表达式;
[0019]基于该分子表达式,获取该分子的距离矩阵;其中,该距离矩阵用于表征该分子中的原子的三维结构坐标之间的距离;
[0020]构建单元,用于基于该距离矩阵构建该分子的分子拓扑图;
[0021]识别单元,用于以该分子拓扑图为输入,利用识别模型识别该分子的属性。
[0022]另一方面,本申请提供了一种用于训练识别模型的装置,包括:
[0023]获取单元,用于:
[0024]获取已标注有属性的分子的分子表达式;
[0025]基于该分子表达式,获取该分子的距离矩阵;其中,该距离矩阵用于表征该分子中的原子的三维结构坐标之间的距离;
[0026]构建单元,用于基于该距离矩阵构建该分子的分子拓扑图;
[0027]训练单元,用于以该分子拓扑图以及该分子的属性为输入,训练识别模型。
[0028]本申请实施例中,将该分子的距离矩阵构造为用于表征该分子中的原子的三维结构坐标之间的距离,基于此,通过该距离矩阵来构建该分子的分子拓扑图时,不仅避免了仅通过捕获原子间的共价键构建分子拓扑图,还有可能使得构建的分子拓扑图捕获到非共价键相连但空间相距较近原子间的相互作用,进而,能够提升分子属性的识别准确度。例如,可以有效的预测分子的ADMET性质,帮助药物研发人员筛选与设计分子。
[0029]此外,以该分子拓扑图为输入,利用识别模型识别该分子的属性,相当于,通过学习该分子拓扑图来识别该分子的属性,避免了人为构造的分子描述符和分子指纹,进而,能够控制分子属性的识别成本。
[0030]简言之,通过引入的分子中原子的三维结构坐标之间的距离构建分子拓扑图,并使用识别模型对分子拓扑图进行编码学习,进而利用识别模型识别分子的属性,能够在控制分子属性的识别成本的基础上,提升分子属性的识别准确度。
附图说明
[0031]图1是本申请实施例提供的基于共价键构建分子拓扑图的示例。
[0032]图2是本申请实施例提供的基于键识别分子的属性的系统框架。
[0033]图3是本申请实施例提供的识别分子属性的方法的示意性流程图。
[0034]图4是本申请实施例提供的基于距离识别分子属性的识别效果和基于键识别的分子的识别效果的对比图。
[0035]图5是本申请实施例提供的分子的示例。
[0036]图6是对基于图5所示分子的距离矩阵构建的分子拓扑图进行学习而得到的该分子的相关性矩阵400的示例。
[0037]图7是本申请实施例提供的基于距离构建分子拓扑图的示例。
[0038]图8是本申请实施例提供的基于距离识别分子的属性的系统框架。
[0039]图9是本申请实施例提供的训练识别模型的方法的示意性流程图。
[0040]图10是本申请实施例提供的用于识别分子属性的装置的示意性框图。
[0041]图11是本申请实施例提供的用于训练识别模型的装置的示意性框图。
[0042]图12是本申请实施例提供的电子设备的示意性框图。
具体实施方式
[0043]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0044]本申请提供的方案可涉及人工智能(Artificial Intelligence,AI)

[0045]其中,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0046]应理解,人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别分子属性的方法,其特征在于,包括:获取分子的分子表达式;基于所述分子表达式,获取所述分子的距离矩阵;其中,所述距离矩阵用于表征所述分子中的原子的三维结构坐标之间的距离;基于所述距离矩阵构建所述分子的分子拓扑图;以所述分子拓扑图为输入,利用识别模型识别所述分子的属性。2.根据权利要求1所述的方法,其特征在于,所述分子中原子个数为n,n为正整数;其中,所述基于所述分子表达式,获取所述分子的距离矩阵,包括:针对n个原子中的第i个原子,计算所述第i个原子与所述n个原子中除所述第i个原子之外的其他原子之间的距离,以得到所述n个原子中的每一个原子的对应的n

1个距离;基于所述n个原子中的每一个原子的对应的n

1个距离,得到所述分子的距离矩阵;其中,所述基于所述距离矩阵构建所述分子的分子拓扑图,包括:基于所述距离矩阵获取所述分子的接触矩阵;其中,所述接触矩阵中的任意一个数值用于表征n个原子中与所述任意一个数值对应的两个原子之间的距离是否满足预设条件;基于所述接触矩阵构建所述分子拓扑图。3.根据权利要求2所述的方法,其特征在于,所述基于所述n个原子中的每一个原子的对应的n

1个距离,得到所述分子的距离矩阵,包括:基于所述n个原子中的每一个原子的对应的n

1个距离,构建n*n矩阵;将所述n*n矩阵,确定为所述距离矩阵。4.根据权利要求2所述的方法,其特征在于,所述基于所述距离矩阵获取所述分子的接触矩阵,包括:针对所述距离矩阵中的任意一个数值,若所述任意一个数值小于或等于预设阈值,将所述任意一个数值修改为第一数值;若所述任意一个数值大于所述预设阈值,将所述任意一个数值修改为第二数值;其中,所述第一数值用于表征所述任意一个数值对应的两个原子之间距离满足预设条件,所述第二数值用于表征所述任意一个数值对应的两个原子之间的距离不满足预设条件。5.根据权利要求2所述的方法,其特征在于,所述基于所述接触矩阵构建所述分子拓扑图,包括:针对所述接触矩阵中任意一个数值,若所述任意一个数值用于表征两个原子之间的距离满足预设条件,则连接所述分子拓扑图中的所述两个原子;若所述任意一个数值表征两个原子之间的距离不满足预设条件,则不连接所述分子拓扑图中所述两个原子。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述分子表达式为简化分子线性输入规范SMILES表达式,所述分子的属性为吸收,分布代谢排泄毒性ADMET性质。7.一种训练识别模型的方法,其特征在于,包括:获取已标注有属性的分子的分子表达式;基于所述分子表达式,获取所述分子的距离矩阵;其中,所述距离矩阵用于表征所述分子中的原子的三维结构坐标之间的距离;基于所述距离矩阵构建所述分子的分子拓扑图;
以所述分子拓扑图以及所述分子的属性为输入,训练识别模型。8.根据权利要求7所述的方法,其特征在于,所述分子中原子个数为n,n为正整数;其中,所述基于所述分子表达式,获取所述分子的距...

【专利技术属性】
技术研发人员:叶阁焰刘伟黄俊洲
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1