一种化合物-靶蛋白绑定关系预测方法及系统技术方案

技术编号：34774337 阅读：14 留言：0更新日期：2022-08-31 19:43

本发明专利技术涉及一种化合物

全部详细技术资料下载

【技术实现步骤摘要】
一种化合物
‑
靶蛋白绑定关系预测方法及系统

[0001]本专利技术涉及医药研发
，特别是涉及一种化合物
‑
靶蛋白绑定关系预测方法及系统。

技术介绍

[0002]目前，现有技术中，利用已有的主流深度学习模型(ANN，CNN，DNN、RNN、LSTM、Transformer以及GAN等)，抽取化合物
‑
靶蛋白绑定关系的特征，从而预测新的化合物
‑
靶蛋白绑定关系，对于新药发现/研发和中药作用机理的研究具有重要的现实意义。然而，尽管这些模型可以达到很高的正确率(>90％)，但是高企的假阳性率阻止了深度学习模型在该领域的进一步应用。如何降低化合物
‑
靶蛋白绑定关系预测的假阳性率，到目前为止仍是一个世界级的问题。

技术实现思路

[0003]本专利技术的目的是提供一种化合物
‑
靶蛋白绑定关系预测方法及系统，能够降低化合物
‑
靶蛋白绑定关系预测的假阳性率。
[0004]为实现上述目的，本专利技术提供了如下方案：
[0005]本专利技术提供了一种化合物
‑
靶蛋白绑定关系预测方法，所述方法包括：
[0006]获取多对靶蛋白
‑
化合物绑定数据，并将靶蛋白
‑
化合物绑定关系作为标签构建原始样本数据；每对靶蛋白
‑
化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息；/>[0007]对各所述靶蛋白序列进行蛋白质相似度计算，确定蛋白质相似度，并基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白
‑
化合物绑定数据；
[0008]构建深度学习网络模型，分别采用每组靶蛋白
‑
化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白
‑
化合物绑定关系预测模型；
[0009]根据待测数据与原始样本数据的蛋白质相似度，确定所述待测数据对应的靶蛋白
‑
化合物绑定关系预测模型；所述待测数据包括待测化合物和待测靶蛋白数据；
[0010]通过对应的靶蛋白
‑
化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。
[0011]可选地，所述“基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白
‑
化合物绑定数据”，具体包括：
[0012]选取任意一对靶蛋白
‑
化合物绑定数据作为目标绑定数据；遍历原始样本数据，将与所述目标绑定数据的蛋白质相似度大于设定阈值的靶蛋白
‑
化合物绑定数据划分为一组。
[0013]可选地，所述深度学习网络模型包括依次相连的递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块；所述递归神经网络模块包括3个长短时记忆网络层。
[0014]可选地，所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块；所述递归神经网络模块包括2个长短时记忆网络层。
[0015]可选地，所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、全连接模块和二分类输出模块；所述递归神经网络模块包括1个长短时记忆网络层。
[0016]可选地，在所述对各所述靶蛋白序列进行蛋白质相似度计算之前，还包括：
[0017]对所述原始样本数据进行字符串匹配，剔除缺损数据，并将化合物以及靶蛋白序列进行数字化编码。
[0018]可选地，使用PairwiseAligner工具包对各所述靶蛋白序列进行蛋白质相似度计算。
[0019]为实现上述目的，本专利技术还提供了一种化合物
‑
靶蛋白绑定关系预测系统，所述系统包括：
[0020]数据获取单元，用于获取多对靶蛋白
‑
化合物绑定数据，并将靶蛋白
‑
化合物绑定关系作为标签构建原始样本数据；每对靶蛋白
‑
化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息；
[0021]相似度计算和分类单元，用于对各所述靶蛋白序列进行蛋白质相似度计算，确定蛋白质相似度，并基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白
‑
化合物绑定数据；
[0022]模型确定单元，用于构建深度学习网络模型，分别采用每组靶蛋白
‑
化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白
‑
化合物绑定关系预测模型；
[0023]模型选取单元，用于根据待测数据与原始样本数据的蛋白质相似度，确定所述待测数据对应的靶蛋白
‑
化合物绑定关系预测模型；所述待测数据包括待测化合物和待测靶蛋白数据；
[0024]预测单元，用于通过对应的靶蛋白
‑
化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。
[0025]根据本专利技术提供的具体实施例，本专利技术公开了以下技术效果：
[0026]本专利技术提供了一种化合物
‑
靶蛋白绑定关系预测方法及系统，所述方法包括：获取多对靶蛋白
‑
化合物绑定数据，并将靶蛋白
‑
化合物绑定关系作为标签构建原始样本数据；对各所述靶蛋白序列进行蛋白质相似度计算，确定蛋白质相似度，并基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白
‑
化合物绑定数据；然后构建深度学习网络模型，分别采用每组靶蛋白
‑
化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白
‑
化合物绑定关系预测模型；根据待测数据与原始样本数据的蛋白质相似度，确定所述待测数据对应的靶蛋白
‑
化合物绑定关系预测模型；通过对应的靶蛋白
‑
化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。本专利技术预先基于待测数据的蛋白质相似度对待测数据进行分类，构建对应类别的靶蛋白
‑
化合物绑定关系预测模型，能够降低化合物
‑
靶蛋白绑定关系预测的假阳性率。
附图说明
[0027]为了更清楚地说明本专利技术实施例或现有技术中的技术方案，下面将对实施例中所
需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0028]图1为本专利技术化合物
‑
靶蛋白绑定关系预测方法的流程图；
[0029]图2为本专利技术化合物
‑
靶蛋白绑定关系预测系统的模块结构示意图；
[0030]图3为本专利技术具体实本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种化合物
‑
靶蛋白绑定关系预测方法，其特征在于，所述方法包括：获取多对靶蛋白
‑
化合物绑定数据，并将靶蛋白
‑
化合物绑定关系作为标签构建原始样本数据；每对靶蛋白
‑
化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息；对各所述靶蛋白序列进行蛋白质相似度计算，确定蛋白质相似度，并基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白
‑
化合物绑定数据；构建深度学习网络模型，分别采用每组靶蛋白
‑
化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白
‑
化合物绑定关系预测模型；根据待测数据与原始样本数据的蛋白质相似度，确定所述待测数据对应的靶蛋白
‑
化合物绑定关系预测模型；所述待测数据包括待测化合物和待测靶蛋白数据；通过对应的靶蛋白
‑
化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。2.根据权利要求1所述的化合物
‑
靶蛋白绑定关系预测方法，其特征在于，所述“基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白
‑
化合物绑定数据”，具体包括：选取任意一对靶蛋白
‑
化合物绑定数据作为目标绑定数据；遍历原始样本数据，将与所述目标绑定数据的蛋白质相似度大于设定阈值的靶蛋白
‑
化合物绑定数据划分为一组。3.根据权利要求1所述的化合物
‑
靶蛋白绑定关系预测方法，其特征在于，所述深度学习网络模型包括依次相连的递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块；所述递归神经网络模块包括3个长短时记忆网络层。4.根据权利要求1所述的化合物
‑
靶蛋白绑定关系预测方法，其特征在于，所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、卷积神经...

【专利技术属性】
技术研发人员：郑光，吕诚，陆小虎，石亚蓉，茹佳奇，赵君梅，李立，赵宁，
申请(专利权)人：兰州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人