当前位置: 首页 > 专利查询>之江实验室专利>正文

一种模型训练的方法以及分子结构信息的推荐方法及装置制造方法及图纸

技术编号:38529887 阅读:10 留言:0更新日期:2023-08-19 17:04
本说明书公开了一种模型训练的方法以及分子结构信息的推荐方法及装置,通过获取到的数据集,构建出指定蛋白降解靶向嵌合体的三维分子图信息,该三维分子图信息充分的表征出指定蛋白降解靶向嵌合体的分子结构的各种特征,将该三维分子图信息输入到预测模型中后,预测模型会根据三维分子图信息,来预测与指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息,进而根据预测出的目标片段信息以及与指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对预测模型进行训练,使得后续在预测分子结构的过程中,可以通过该预测模型实现快速、准确的分子片段预测,从而提高了分子片段探索的效率以及准确性。段探索的效率以及准确性。段探索的效率以及准确性。

【技术实现步骤摘要】
一种模型训练的方法以及分子结构信息的推荐方法及装置


[0001]本说明书涉及人工智能领域以及生物工程领域,尤其涉及一种模型训练的方法以及分子结构信息的推荐方法及装置。

技术介绍

[0002]目前,通过构建具有双功能片段的蛋白降解靶向嵌合体,可以对患者体内致病性蛋白进行有效地清除,所以,具有药效功能的蛋白降解靶向嵌合体的研制正成为一种治疗各种疾病的新的探索方向。
[0003]而对于这种蛋白降解嵌合体的设计,目前所采用的药物设计,常采用定量构效关系建模筛选出具有药效的未知化学结构。但是这种方式探索出的新的片段结构往往不能和原始的蛋白降解靶向嵌合体构成有效地药物蛋白,并且,这种探索方式的效率往往较低。

技术实现思路

[0004]本说明书提供一种模型训练的方法以及分子结构信息的推荐方法及装置,以部分的解决现有技术存在的上述问题。
[0005]本说明书采用下述技术方案:
[0006]本说明书提供了一种模型训练的方法,包括:
[0007]获取蛋白降解靶向嵌合体的数据集;
[0008]根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息;
[0009]将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息;
[0010]根据预测出的所述目标片段信息与所述指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对所述预测模型进行训练。
[0011]可选地,根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息,具体包括:
[0012]从所述数据集中选取出指定蛋白降解靶向嵌合体的数据;
[0013]根据所述指定蛋白降解靶向嵌合体的数据,确定所述指定蛋白降解靶向嵌合体的表征数据,所述表征数据包括:用于表征所述指定蛋白降解靶向嵌合体内原子类型的数据、所述指定蛋白降解靶向嵌合体内各原子在指定坐标系下的坐标、所述指定蛋白降解靶向嵌合体内各原子的原子质量向量、所述指定蛋白降解靶向嵌合体内各原子的核电荷数向量、所述指定蛋白降解靶向嵌合体的分子质量、所述指定蛋白降解靶向嵌合体内的原子数目、所述指定蛋白降解靶向嵌合体的价电子数目、所述指定蛋白降解靶向嵌合体的logP值、所述指定蛋白降解靶向嵌合体的PK值、所述指定蛋白降解靶向嵌合体的分子结构特性数据、所述指定蛋白降解靶向嵌合体的药学特征数据、用于表征所述指定蛋白降解靶向嵌合体的
分子结构特征的矩阵数据、所述指定蛋白降解靶向嵌合体中选定的锚点原子的坐标、所述指定蛋白降解靶向嵌合体中选定的锚点原子之间的距离;
[0014]根据所述指定蛋白降解靶向嵌合体的表征数据,构建所述指定蛋白降解靶向嵌合体的三维分子图信息。
[0015]可选地,所述预测模型包括编码器以及解码器;
[0016]将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息,具体包括:
[0017]将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型的编码器中,以使所述编码器确定针对所述指定蛋白降解靶向嵌合体内原子间距的嵌入向量,并根据所述嵌入向量,确定所述指定蛋白降解靶向嵌合体的三维分子图特征;
[0018]将所述三维分子图特征输入到所述解码器中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息。
[0019]可选地,根据所述嵌入向量,确定所述指定蛋白降解靶向嵌合体的三维分子图特征,具体包括:
[0020]通过所述编码器,确定针对所述指定蛋白降解靶向嵌合体的注意力权重;
[0021]通过所述编码器,根据所述注意力权重以及所述嵌入向量,确定针对所述指定蛋白降解靶向嵌合体的不变量特征以及等变量特征;
[0022]通过所述编码器,根据所述不变量特征以及所述等变量特征,确定所述指定蛋白降解靶向嵌合体的三维分子图特征。
[0023]可选地,将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息,具体包括:
[0024]将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使所述预测模型根据所述三维分子图信息,预测与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的多个分子片段的片段信息,作为各候选片段信息;
[0025]将所述各候选片段信息输入到预设的强化学习模型中,以通过所述强化学习模型,从所述各候选片段信息中选取出目标片段信息。
[0026]可选地,将所述各候选片段信息输入到预设的强化学习模型中,以通过所述强化学习模型,从所述各候选片段信息中选取出目标片段信息,具体包括:
[0027]针对每个候选片段信息,将该候选片段信息输入到所述强化学习模型中,以使所述强化学习模型以分子结构的logP值以及分子结构的PK值为基础,确定该候选片段信息的评分;
[0028]根据每个候选片段信息的评分,从所述各候选候选片段信息中选取出目标片段信息。
[0029]本说明书提供了一种分子结构信息的推荐方法,包括:
[0030]获取原始蛋白降解靶向嵌合体的三维分子图信息;
[0031]将所述原始蛋白降解靶向嵌合体的三维分子图信息输入到预先训练的预测模型,以使所述预测模型根据所述原始蛋白降解靶向嵌合体的三维分子图信息,预测与所述原始
蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,所述预测模型是通过上述模型训练的方法训练得到的;
[0032]根据预测出的所述分子片段的片段信息,向用户进行分子结构信息的信息推荐。
[0033]可选地,所述方法还包括:
[0034]将所述原始蛋白降解靶向嵌合体的三维分子图信息与预测出的片段信息对应进行存储。
[0035]本说明书提供了一种模型训练的装置,包括:
[0036]获取模块,用于获取蛋白降解靶向嵌合体的数据集;
[0037]构建模块,用于根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息;
[0038]预测模块,用于将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息;
[0039]训练模块,用于根据预测出的所述目标片段信息与所述指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对所述预测模型进行训练。
[0040]可选地,所述构建模块,用于从所述数据集中选取出指定蛋白降解靶向嵌合体的数据;根据所述指定蛋白降解靶向嵌合体的数据,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:获取蛋白降解靶向嵌合体的数据集;根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息;将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息;根据预测出的所述目标片段信息与所述指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对所述预测模型进行训练。2.如权利要求1所述的方法,其特征在于,根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息,具体包括:从所述数据集中选取出指定蛋白降解靶向嵌合体的数据;根据所述指定蛋白降解靶向嵌合体的数据,确定所述指定蛋白降解靶向嵌合体的表征数据,所述表征数据包括:用于表征所述指定蛋白降解靶向嵌合体内原子类型的数据、所述指定蛋白降解靶向嵌合体内各原子在指定坐标系下的坐标、所述指定蛋白降解靶向嵌合体内各原子的原子质量向量、所述指定蛋白降解靶向嵌合体内各原子的核电荷数向量、所述指定蛋白降解靶向嵌合体的分子质量、所述指定蛋白降解靶向嵌合体内的原子数目、所述指定蛋白降解靶向嵌合体的价电子数目、所述指定蛋白降解靶向嵌合体的logP值、所述指定蛋白降解靶向嵌合体的PK值、所述指定蛋白降解靶向嵌合体的分子结构特性数据、所述指定蛋白降解靶向嵌合体的药学特征数据、用于表征所述指定蛋白降解靶向嵌合体的分子结构特征的矩阵数据、所述指定蛋白降解靶向嵌合体中选定的锚点原子的坐标、所述指定蛋白降解靶向嵌合体中选定的锚点原子之间的距离;根据所述指定蛋白降解靶向嵌合体的表征数据,构建所述指定蛋白降解靶向嵌合体的三维分子图信息。3.如权利要求1所述的方法,其特征在于,所述预测模型包括编码器以及解码器;将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息,具体包括:将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型的编码器中,以使所述编码器确定针对所述指定蛋白降解靶向嵌合体内原子间距的嵌入向量,并根据所述嵌入向量,确定所述指定蛋白降解靶向嵌合体的三维分子图特征;将所述三维分子图特征输入到所述解码器中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息。4.如权利要求3所述的方法,其特征在于,根据所述嵌入向量,确定所述指定蛋白降解靶向嵌合体的三维分子图特征,具体包括:通过所述编码器,确定针对所述指定蛋白降解靶向嵌合体的注意力权重;通过所述编码器,根据所述注意力权重以及所述嵌入向量,确定针对所述指定蛋白降解靶向嵌合体的不变量特征以及等变量特征;通过所述编码器,根据所述不变量特征以及所述等变量特征,确定所述指定蛋白降解
靶向嵌合体的三维分子图特征。5.如权利要求1所述的方法,其特征在于,将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息,具体包括:将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使所述预测模型根据所述三维分子图信息,预测与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的多个分子片段的片段信息,作为各候选片段信息;将所述各候选片段信息输入到预设的强化学习模型中,以通过所述强化学习模型,从所述各候选片段信息中选取出目标片段信息。6.如权利要求5所述的方法,其特征在于,将所述各候选片段信息输入到预设的强化学习模型中,以通过所述强化学习模型,从所述各候选片段信息中选取出目标片段信息,具体包括:针对每个候选片段信息,将该候选片段信息输入到所述强化学习模型中,以使所述强化学习模型以分子结构的logP值以及分子结构的PK值为基础,确定该候选片段信息的评分;根据每个候选片段信息的评分,从所述各候选候选片段信息中选取出目标片段信息。7.一种分子结构信息的推荐方法,其特征在于,包括:获取原始蛋白降解靶向嵌合体的三维分子图信息;将所述原始蛋白降解靶向嵌合体的三维分子图信息输入到预先训练的预测模型,以使所述预测模型根据所述原始蛋白降解靶向嵌合体的三维分子图信息,预测与所述原始蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,所述预测模型是通过上述权利要求1~6任一项所述的方法训练得到的;根据预测出的所述分子片段的片段信息,向用户进行分子结构信息的信息推荐。8.如权利要求7所述的方法,其特征在于,所述方法还包括:将所述原始蛋白降解靶向嵌合体的三维分子...

【专利技术属性】
技术研发人员:安丰陈湘菊劳传祺戚耀陈红阳
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1