基于神经网络的PROTAC分子降解率的预测系统及其构建方法技术方案

技术编号：31738506 阅读：16 留言：0更新日期：2022-01-05 16:16

本发明专利技术公开了一种基于神经网络的PROTAC分子降解率的预测系统及其构建方法。所述神经网络包括：图卷积神经网络、加和池化层、全连接层、节点嵌入层、嵌入层和双向长短期记忆层；所述PROTAC分子包括靶蛋白配体、泛素连接酶配体和连接体；具体内容见正文。本发明专利技术的预测系统克服了由于PROTAC分子构效关系不明确产生的设计困难的问题。应用该预测系统可以获得经过人工智能神经网络筛选的具有预测的良好降解效果的分子，再去合成和进行细胞实验，有利于提高药物研发的成功率，缩短药物研发的周期和降低药物研发的成本。降低药物研发的成本。

全部详细技术资料下载

【技术实现步骤摘要】
基于神经网络的PROTAC分子降解率的预测系统及其构建方法

[0001]本专利技术属于基于人工智能的药物研发领域，具体涉及一种基于神经网络的PROTAC分子降解率的预测系统及其构建方法，还涉及一种电子设备和一种计算机可读存储介质。

技术介绍

[0002]目前，传统的小分子药物和单克隆抗体的靶标包含400多种与人类疾病相关的蛋白质。其中，这些蛋白质绝大部分都属于酶、转运蛋白、G蛋白偶联受体、离子通道和核受体。小分子药物通过占据这些蛋白质的活性中心来调节它们的生理功能。然而人类致病基因大概有3000多种，这就意味着目前的治疗方法只能处理约13％的蛋白质组，85％的与疾病相关的蛋白质缺乏有效的疗法。多种原因导致了这些蛋白质的不可成药性。蛋白水解靶向嵌合体(Proteolysis Targeting Chimeras，PROTAC)作为一种全新的技术应运而生。PROTAC是一种双功能异质分子，它包含三个部分：靶蛋白配体、中间的连接体和E3泛素连接酶配体。它能将靶蛋白和E3泛素连接酶结合在一起形成三元复合物，从而将泛素转移到靶蛋白暴露的赖氨酸上。被打上泛素标记的靶蛋白会被26S蛋白酶体识别并降解为氨基酸和多肽。相比于传统药物，PROTAC的一个最大优点就是可以将不可成药的蛋白作为它的靶标。PROTAC的靶蛋白配体不需要抑制蛋白质的催化活性中心或者结合在蛋白
‑
蛋白互作界面上，它只需要在靶蛋白的任一位点上有一定程度的结合即可。除此以外，PROTAC还拥有很多优于传统药物的特点：PROTAC对靶蛋白的清除有利于抑...

【技术保护点】

【技术特征摘要】
1.一种构建基于神经网络的PROTAC分子降解率的预测系统的方法，其特征在于，所述神经网络包括：图卷积神经网络、加和池化层、全连接层、节点嵌入层、嵌入层和双向长短期记忆层；所述PROTAC分子包括靶蛋白配体、泛素连接酶配体和连接体；所述方法包括以下步骤：(1)将所述靶蛋白配体、所述泛素连接酶配体、与所述靶蛋白配体对应的靶蛋白口袋以及与所述泛素连接酶配体对应的泛素连接酶口袋的节点编码分别作为第一输入进入节点嵌入层，并依次通过图卷积神经网络和加和池化层，分别得到所述靶蛋白配体、所述泛素连接酶配体、所述靶蛋白口袋和所述泛素连接酶口袋的第一输出；所述连接体的编码作为第一输入进入嵌入层，并依次通过双向长短期记忆层和全连接层，得到所述连接体的第一输出；(2)将步骤(1)中所有的第一输出合并后作为第二输入，并通过全连接层后作为第二输出，得到所述PROTAC分子的降解率；所述节点编码是指：将编码对象的化学结构用节点和边进行编码所获得的信息；所述靶蛋白口袋是指：靶蛋白中结合所述靶蛋白配体的区域周围的氨基酸残基形成的结构；所述泛素连接酶口袋是指：泛素连接酶中结合泛素连接酶配体的区域周围的氨基酸残基形成的结构；所述神经网络的激活函数为LeakyReLU函数。2.如权利要求1所述的方法，其特征在于，步骤(1)中，所述图卷积神经网络的层数为两层或两层以上；和/或，所述加和池化层、节点嵌入层、嵌入层、双向长短期记忆层和所述全连接层的层数为一层或两层；和/或，所述泛素连接酶配体为E3泛素连接酶配体；和/或，步骤(2)中，所述全连接层的层数为两层或两层以上；较佳地，所述方法还包括步骤(0)：获取已知PROTAC分子的靶蛋白配体、泛素连接酶配体、靶蛋白口袋、泛素连接酶口袋和连接体的节点编码；更佳地，所述的节点编码以可读取文本格式进行存储；例如，所述靶蛋白配体和泛素连接酶配体的节点编码通过sdf文件进行存储；所述靶蛋白口袋和所述泛素连接酶口袋的节点编码通过Mol2文件进行存储；和/或，所述连接体的节点编码通过SMILES文件进行存储。3.如权利要求1或2所述的方法，其特征在于，步骤(0)中，通过PROTAC
‑
DB数据库优选Protein Data Bank获取含有靶蛋白配体和泛素连接酶配体的蛋白晶体结构；或者，当Protein Data Bank中没有含有相应配体的靶蛋白或者泛素连接酶的蛋白晶体结构时，则根据具有相似骨架优选相似环状结构的配体的蛋白晶体结构，修改靶蛋白配体或泛素连接酶配体的结构，再进行能量最小化和模拟退火处理，将获得的结构作为含有相应配体的靶蛋白或泛素连接酶的蛋白晶体结构；和/或，所述靶蛋白口袋和泛素连接酶口袋通过软件优选通过PyMol软件提取；较佳地，所述节点编码原子用节点表示，原子之间的化学键用边表示；更佳地，步骤(0)中，获取已知PROTAC分子的靶蛋白口袋、泛素连接酶口袋的节点编码具体包括：将以Mol2文件存储的靶蛋白口袋和泛素连接酶口袋的化学信息进行可视化处理优选以图表示，获得所述靶蛋白口袋和泛素连接酶口袋的节点编码；和/或，步骤(0)中，获
取已知PROTAC分子的靶蛋白配体和泛素连接酶配体的节点编码具体包括：将优选以sdf文件存储的靶蛋白配体和泛素连接酶配体的化学信息进行可视化处理，获得所述靶蛋白配体和泛素连接酶配体的节点编码；进一步更佳地，所述靶蛋白口袋和泛素连接酶口袋的节点编码中，C、N、O、S原子分别用0、1、2、3表示，其他原子用4表示；所述靶蛋白配体和泛素连接酶配体的节点编码中，C、N、O、S、F、Cl、Br、I、P原子分别用0
‑
8表示，其他原子用9表示。4.如权利要求2或3所述的方法，其特征在于，以SMILES文件存储的所述连接体的节点编码通过以下方式获取：根据ZINC数据库的编码表对所述连接体的SMILES文件信息进行编码，获得所述连接体的节点编码；所述编码表是指：将已知的类药分子的SMILES中字符的出现频率进行统计和排序，将出现频率最高的39个字符用1
‑
39进行编码，其余字符用0进行编码；较佳地，字符的编码如下表所示：更佳地，所述方法中，循环轮数为600，批处理大小为1，学习率为0.0001，损失函数为交叉熵函数，优化器为Adam优化器。5.一种基于神经网络的PROTAC分子降解率的预测系统，其特征在于，所述PROTAC分子包括靶蛋白配体、泛素连接酶配体和连接体；所述预测系统包括分步处理模块和合并处理模块；所述分步处理模块用于将所述靶蛋白配体、所述泛素连接酶配体、与所述靶蛋白配体
对应的靶蛋白口袋以及与所述泛素连接酶配体对应的泛素连接酶口袋的节点编码分别...

【专利技术属性】
技术研发人员：白芳，高盛华，蒋华良，李风雷，胡乔宇，刘壮华，
申请(专利权)人：上海科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人