【技术实现步骤摘要】
识别分子属性的方法、训练识别模型的方法和装置
[0001]本申请实施例涉及人工智能的药物领域,并且更具体地,涉及识别分子属性的方法、训练识别模型的方法和装置。
技术介绍
[0002]截止目前,在分子属性识别领域,使用的算法主要包括传统机器学习算法和深度学习算法两种。具体地,在传统的机器学习算法方案中,通常使用随机森林(Random Forests)、支持向量机(Support Vector Machines)等方法,这些方法一般以人工构造的分子描述符(Molecular Descriptors)或分子指纹(Molecular Fingerprints)作为数据输入,建立分子属性识别模型。在深度学习方案中,将分子的共价键的属性作为数据输入,并使用图神经网络对分子进行编码学习,构建分子属性识别模型。
[0003]但是,在传统的机器学习算法方案中,分子属性识别准确率的提升很大程度依赖于分子描述符和分子指纹的构造,而分子描述符和分子指纹的构造一般需要相关的化学领域专家来完成,人为构造的分子描述符和分子指纹表达能力有限,增加了分子属性的识别成本。在深度学习方案中,以图神经网络模型为主,在模型中引入了分子的共价键的属性,基于原子间的共价键来构建分子的分子拓扑图,进而基于构建的分子拓扑图构建分子属性识别模型,但是基于原子间的共价键来构建分子的分子拓扑图无法捕获非共价键相连但空间相距较近原子间的相互作用,导致分子属性的识别准确度过低。
[0004]因此,本领域亟需一种能够在控制分子属性的识别成本的基础上,提升分子属性 ...
【技术保护点】
【技术特征摘要】
1.一种识别分子属性的方法,其特征在于,包括:获取分子的分子表达式;基于所述分子表达式,获取所述分子的距离矩阵;其中,所述距离矩阵用于表征所述分子中的原子的三维结构坐标之间的距离;基于所述距离矩阵构建所述分子的分子拓扑图;以所述分子拓扑图为输入,利用识别模型识别所述分子的属性。2.根据权利要求1所述的方法,其特征在于,所述分子中原子个数为n,n为正整数;其中,所述基于所述分子表达式,获取所述分子的距离矩阵,包括:针对n个原子中的第i个原子,计算所述第i个原子与所述n个原子中除所述第i个原子之外的其他原子之间的距离,以得到所述n个原子中的每一个原子的对应的n
‑
1个距离;基于所述n个原子中的每一个原子的对应的n
‑
1个距离,得到所述分子的距离矩阵;其中,所述基于所述距离矩阵构建所述分子的分子拓扑图,包括:基于所述距离矩阵获取所述分子的接触矩阵;其中,所述接触矩阵中的任意一个数值用于表征n个原子中与所述任意一个数值对应的两个原子之间的距离是否满足预设条件;基于所述接触矩阵构建所述分子拓扑图。3.根据权利要求2所述的方法,其特征在于,所述基于所述n个原子中的每一个原子的对应的n
‑
1个距离,得到所述分子的距离矩阵,包括:基于所述n个原子中的每一个原子的对应的n
‑
1个距离,构建n*n矩阵;将所述n*n矩阵,确定为所述距离矩阵。4.根据权利要求2所述的方法,其特征在于,所述基于所述距离矩阵获取所述分子的接触矩阵,包括:针对所述距离矩阵中的任意一个数值,若所述任意一个数值小于或等于预设阈值,将所述任意一个数值修改为第一数值;若所述任意一个数值大于所述预设阈值,将所述任意一个数值修改为第二数值;其中,所述第一数值用于表征所述任意一个数值对应的两个原子之间距离满足预设条件,所述第二数值用于表征所述任意一个数值对应的两个原子之间的距离不满足预设条件。5.根据权利要求2所述的方法,其特征在于,所述基于所述接触矩阵构建所述分子拓扑图,包括:针对所述接触矩阵中任意一个数值,若所述任意一个数值用于表征两个原子之间的距离满足预设条件,则连接所述分子拓扑图中的所述两个原子;若所述任意一个数值表征两个原子之间的距离不满足预设条件,则不连接所述分子拓扑图中所述两个原子。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述分子表达式为简化分子线性输入规范SMILES表达式,所述分子的属性为吸收,分布代谢排泄毒性ADMET性质。7.一种训练识别模型的方法,其特征在于,包括:获取已标注有属性的分子的分子表达式;基于所述分子表达式,获取所述分子的距离矩阵;其中,所述距离矩阵用于表征所述分子中的原子的三维结构坐标之间的距离;基于所述距离矩阵构建所述分子的分子拓扑图;
以所述分子拓扑图以及所述分子的属性为输入,训练识别模型。8.根据权利要求7所述的方法,其特征在于,所述分子中原子个数为n,n为正整数;其中,所述基于所述分子表达式,获取所述分子的距...
【专利技术属性】
技术研发人员:叶阁焰,刘伟,黄俊洲,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。