当前位置: 首页 > 专利查询>南开大学专利>正文

药物-靶蛋白亲和力预测方法及系统技术方案

技术编号:31508387 阅读:90 留言:0更新日期:2021-12-22 23:43
本发明专利技术提供一种药物

【技术实现步骤摘要】
药物

靶蛋白亲和力预测方法及系统


[0001]本专利技术涉及基于人工智能的生物信息处理
,具体涉及一种基于任务自适应元学习神经网络的药物

靶蛋白亲和力预测方法及系统。

技术介绍

[0002]药物

靶蛋白亲和力又称药物

靶蛋白相互作用,反映药物分子和特定靶蛋白之间的结合强度,其预测结果在新药发现、药物重定位和药物副作用预测中具有重要作用。
[0003]传统的基于实验室的药物

靶蛋白亲和力预测方法成本高且效率低,不适应于处理大量的药物化学分子和靶蛋白分子。近年来,基于机器学习的方法加快了药物

靶蛋白亲和力预测进度,并在学术界和工业界都得到了越来越多的关注。
[0004]根据药物化学分子和靶蛋白分子在训练集和测试集中的出现情况,药物

靶蛋白亲和力预测可以划分为四种情况:(1)热启动:测试集中的药物化学分子和靶蛋白分子均出现在训练集中;(2)药物冷启动:测试集中的靶蛋白分子出现在训练集中,但药物化学分子未出现在训练集中;(3)靶蛋白冷启动:测试集中的药物化学分子出现在训练集中,但靶蛋白分子未出现在训练集中;(4)药物

靶蛋白冷启动:测试集中的药物化学分子和靶蛋白分子均未出现在训练集中。
[0005]现有的基于机器学习进行药物

靶蛋白亲和力预测的方法,大多数利用药物和靶蛋白两种信息预测药物

靶蛋白亲和力,其可以分为两类,一类是根据已知药物

靶蛋白相互作用关系构建药物

靶蛋白二部图;另一类是基于相似性原理,即同一种药物可能作用于相似的靶蛋白,相似的药物也可能作用于同一种靶蛋白。
[0006]除了利用药物和靶蛋白两种信息,也可结合药理学和表型信息预测药物

靶蛋白亲和力,包括药物副作用信息、药物

疾病关系、基因表达数据等。这些方法主要关注药物

靶蛋白亲和力预测方面的热启动问题,忽视了冷启动问题。少数关注药物

靶蛋白亲和力预测方面的冷启动问题,但这些方法在处理热启动问题和冷启动问题上并没有区别,甚至忽视了药物

靶蛋白冷启动问题。因此需要一种在预测未知药物

靶蛋白亲和力方面具有泛化性的模型。

技术实现思路

[0007]本专利技术的目的在于提供一种有效挖掘不同子任务之间的相关性、缓解不同子任务之间的任务不平等性、提高药物

靶蛋白亲和力预测准确性、有效解决药物

靶蛋白亲和力预测方面的冷启动问题的基于任务自适应元学习神经网络的药物

靶蛋白亲和力预测方法及系统。以解决上述
技术介绍
中存在的至少一项技术问题。
[0008]为了实现上述目的,本专利技术采取了如下技术方案:
[0009]一方面,本专利技术提供一种药物

靶蛋白亲和力预测方法,包括:
[0010]对待检测的药物

靶蛋白对中的药物化学分子和靶蛋白分子分别进行编码,得到药物输入表示和靶蛋白输入表示;
[0011]利用药物

靶蛋白亲和力预测模型对所述药物输入表示和靶蛋白输入表示进行处理,得到药物

靶蛋白亲和力预测值;其中,所述药物

靶蛋白亲和力预测模型利用训练集训练得到,所述训练集包括多个药物

靶蛋白对以及标注每个药物

靶蛋白对中的药物和靶蛋白亲和力的真实值的标签。
[0012]优选的,利用训练集训练得到所述药物

靶蛋白亲和力预测模型包括:
[0013]定义预测子任务;其中,预测子任务为预测以一个药物为核心结合不同的靶蛋白的药物

靶蛋白亲和力或预测以一个靶蛋白为核心结合不同药物的药物

靶蛋白亲和力;
[0014]获得对应的定义的子任务的药物

靶蛋白对中药物输入表示和靶蛋白输入表示,输入至任务自适应元学习神经网络进行训练,得到任务自适应元学习神经网络预训练模型;优化任务自适应元学习神经网络预训练模型,得到药物

靶蛋白亲和力预测模型。
[0015]优选的,根据药物化学分子表示字典对药物化学分子进行编码得到药物输入表示。
[0016]优选的,得到药物输入表示包括:将药物化学分子表示成简化分子线性输入规范,根据药物化学分子表示字典将其转换为数值序列,并将该序列长度固定。
[0017]优选的,所述药物化学分子表示字典是多个无重复ASCII码,每个所述ASCII码对应一个自然数。
[0018]优选的,根据靶蛋白分子表示字典对靶蛋白分子进行编码得到靶蛋白输入表示。
[0019]优选的,得到靶蛋白输入表示包括:将靶蛋白分子表示成蛋白序列,根据靶蛋白分子表示字典将其转换为数值序列,并将该序列长度固定。
[0020]优选的,靶蛋白分子表示字典是多个无重复字符,每个所述字符对应一个自然数。
[0021]优选的,所述任务自适应元学习神经网络包括药物嵌入层、靶蛋白嵌入层、药物编码模块、靶蛋白编码模块、特征融合层和预测模块。
[0022]优选的,所述药物编码网络和靶蛋白编码网络均包括三个一维卷积层,其中,第三个一维卷积层后均连接一个最大池化层;所述预测模块包括四个全连接层。
[0023]优选的,药物编码模块和靶蛋白编码模块中每一个一维卷积层的输出经过泄露修正线性单元激活;预测模块中前三个全连接层的输出经过泄露修正线性单元激活。
[0024]优选的,得到任务自适应元学习神经网络预训练模型包括:
[0025]随机采样预测子任务数据集,其中每个预测子任务数据集中均包括支撑集和查询集,支撑集和查询集中的每一个样本均包括药物

靶蛋白对以及与之对应的药物

靶蛋白亲和力真实值;
[0026]对于每个预测子任务,使用该预测子任务中的支撑集训练任务自适应元学习神经网络,得到特定于该预测子任务的任务自适应元学习神经网络;
[0027]使用随机采集的所有预测子任务中的查询集训练特定于该预测子任务的任务自适应元学习神经网络,得到适用于所有预测子任务的任务自适应元学习神经网络预训练模型。
[0028]优选的,对于每个预测子任务,利用药物输入表示,得到药物特征表示,利用靶蛋白输入表示,得到靶蛋白特征表示;将所述药物特征表示和与之对应的靶蛋白特征表示进行特征融合,得到药物

靶蛋白融合特征表示;根据所述药物

靶蛋白融合特征表示,得到该预测子任务中的药物

靶蛋白亲和力预测值;根据该预测子任务中药物

靶蛋白亲和力的真...

【技术保护点】

【技术特征摘要】
1.一种药物

靶蛋白亲和力预测方法,其特征在于,包括:对待检测的药物

靶蛋白对中的药物化学分子和靶蛋白分子分别进行编码,得到药物输入表示和靶蛋白输入表示;利用药物

靶蛋白亲和力预测模型对所述药物输入表示和靶蛋白输入表示进行处理,得到药物

靶蛋白亲和力预测值;其中,所述药物

靶蛋白亲和力预测模型利用训练集训练得到,所述训练集包括多个药物

靶蛋白对以及标注每个药物

靶蛋白对中的药物和靶蛋白亲和力的真实值的标签。2.根据权利要求1所述的药物

靶蛋白亲和力预测方法,其特征在于,利用训练集训练得到所述药物

靶蛋白亲和力预测模型包括:定义预测子任务;其中,预测子任务为预测以一个药物为核心结合不同的靶蛋白的药物

靶蛋白亲和力或预测以一个靶蛋白为核心结合不同药物的药物

靶蛋白亲和力;获得对应的定义的子任务的药物

靶蛋白对中药物输入表示和靶蛋白输入表示,输入至任务自适应元学习神经网络进行训练,得到任务自适应元学习神经网络预训练模型;优化任务自适应元学习神经网络预训练模型,得到药物

靶蛋白亲和力预测模型。3.根据权利要求2所述的药物

靶蛋白亲和力预测方法,其特征在于,根据药物化学分子表示字典对药物化学分子进行编码得到药物输入表示;其中,药物化学分子的表示为简化分子线性输入规范,药物化学分子表示字典是多个无重复ASCII码,每个所述ASCII码对应一个自然数;根据药物化学分子表示字典将简化分子线性输入规范转换为数值序列,并将该序列长度固定;根据靶蛋白分子表示字典对靶蛋白分子进行编码得到靶蛋白输入表示;其中,靶蛋白分子表示为蛋白序列,靶蛋白分子表示字典是多个无重复字符,每个所述字符对应一个自然数;根据靶蛋白分子表示字典将蛋白序列转换为数值序列,并将该序列长度固定。4.根据权利要求3所述的药物

靶蛋白亲和力预测方法,其特征在于,所述任务自适应元学习神经网络包括药物嵌入层、靶蛋白嵌入层、药物编码模块、靶蛋白编码模块、特征融合层和预测模块;其中,所述药物编码网络和靶蛋白编码网络均包括三个一维卷积层,第三个一维卷积层后均连接一个最大池化层;所述预测模块包括四个全连接层;药物编码模块和靶蛋白编码模块中每一个一维卷积层的输出经过泄露修正线性单元激活;预测模块中前三个全连接层的输出经过泄露修正线性单元激活。5.根据权利要求4所述的药物

靶蛋白亲和力预测方法,其特征在于,得到任务自适应元学习神经网络预训练模型包括:随机采样预测子任务数据集,其中每个预测子任务数据集中均包括支撑集和查询集,支撑集和查询集中的每一个样本均包...

【专利技术属性】
技术研发人员:汲化李梅徐思涵蔡祥睿
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1