基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法技术

技术编号:27411380 阅读:33 留言:0更新日期:2021-02-21 14:26
本发明专利技术提出了一种基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法,首先使用ChemoPy工具包进行药物化合物分子指纹特征计算,然后利用PSI

【技术实现步骤摘要】
基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法


[0001]本专利技术属于生物信息学药物疾病作用分析技术,具体为一种基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法。

技术介绍

[0002]药物协同作用是指药物组合作用时疗效超出各成分药单独作用时的疗效之和。随着人类对于癌症等重大疾病的致病因素及治疗途径的进一步认知,组合用药方法正以其副作用低、疗效持久的特点成为癌症治疗中的主流用药方式。药物组合的相互作用根据疗效可划分为加性作用、拮抗作用、协同作用。识别药物与药物之间的相互作用,特别是协同作用,对于最大限度地发挥药物治疗效果具有重要意义。
[0003]传统的临床分析等湿实验方法借助药理学相似性分析、临床副作用分析等数据进行协同药物组合的手动筛查。该方法具有成本高昂、实验周期长的重大缺陷,面对数以万计的新型小分子化合物显得力不从心。
[0004]迄今为止,国内外的研究者提出了各种协同药物组合的自动化预测方法,这些方法从原理上可以大致分为两类:基于系统生物学的方法和基于机器学习的方法。
[0005]基于系统生物学的协同药物组合预测方法主要是采用数学建模的方法结合系统生物学知识,对细胞内的网络状态和结构进行建模并预测协同药物组合。具体而言,可依据药物化合物的药理学相似性对药物进行打分,并结合药物的部分剂量-反应数据,进行组合作用曲线的拟合。根据拟合出的组合作用曲线,判断该药物组合方式是否具有协同作用。如目前常用的协同作用得分软件TIMMA-R,通常就是采用系统生物学方法,利用Loewe可加性对协同药物组合得分进行计算的。但是,基于系统生物学的协同作用预测方法需要事先通过实验方式了解大量关于细胞及药物作用关系的先验信息,而且先验信息的丰富程度极大地影响着该方法的预测精确度。因此基于系统生物学的协同作用预测方法的泛化性有待提高。
[0006]近年来,机器学习、深度学习技术的发展,给生物信息学领域带来了巨大的变革。基于矩阵分解、深度神经网络等方法的计算模型被应用于协同药物组合发现领域并取得了丰硕成果。芬兰的研究人员采用基于矩阵分解的机器学习方法,实现了针对癌症、疟疾、埃博拉等多个重大疾病的协同药物组合的高精度预测模型;基于矩阵分解的方法的预测性能同样严重依赖于先验数据集的丰富程度,而且易受到噪声干扰;若数据集中存在少量数据异常点,则基于矩阵分解的方法的预测性能将会显著降低。中国的研究人员采用基于深度神经网络的方法,结合门控循环单元及卷积单元进行协同作用预测,该方法实现了对于药物与疾病间作用关系的准确分析,但门控循环单元的引入带来了模型复杂度的显著提升,预测非常耗时。

技术实现思路

[0007]本专利技术的目的在于提出了一种基于分子指纹和多靶点蛋白的协同抗癌药物组合
识别方法。
[0008]实现本专利技术目的的技术方案为:一种基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法,具体步骤为:
[0009]步骤1:计算药物化合物的分子指纹特征;
[0010]步骤2:查询与癌细胞系相关的治疗靶点基因的治疗靶点蛋白序列,根据各治疗靶点蛋白序列获得蛋白序列的位置特异性得分矩阵和蛋白质二级结构得分,并将位置特异性得分矩阵和蛋白质二级结构得分串联得到癌细胞系的多靶点蛋白特征;
[0011]步骤3:将多靶点蛋白特征输入深度卷积神经网络进行训练,所述深度卷积神经网络包括第一阶段的卷积神经网络、第二阶段的深度神经网络以及Softmax分类层,所述第一阶段的卷积神经网络对多靶点蛋白特征进行卷积运算,卷积运算的输出和药物化合物的分子指纹特征进行串联后输入第二阶段的深度神经网络进行预测识别;
[0012]步骤4:对于未知作用关系的药物组合及癌细胞系,依据步骤1、2分别提取药物化合物的分子指纹特征和癌细胞系的多靶点蛋白特征;将药物化合物的分子指纹特征和癌细胞系的多靶点蛋白特征分别输入训练好的深度神经网络,获得药物组合对于给定癌细胞系的协同作用预测结果。
[0013]优选地,使用ChemoPy工具包结合药物化合物的SMILE分子表达式计算分子指纹特征。
[0014]优选地,所述卷积神经网络包括若干个串联的卷积网络块,每个卷积网络块由2个卷积层与1个池化层组成。
[0015]优选地,所述卷积网络块的个数为5个,每个卷积网络块的卷积输出通道数分别为16、32、64、128、128。
[0016]优选地,所述卷积层采用3
×
3的小卷积核进行卷积运算,所述池化层采用2
×
2的小池化核进行池化运算。
[0017]优选地,所述深度神经网络由分别含有4096、1024、256个节点的全连接层构成。
[0018]优选地,所述Softmax分类层采用多分类交叉熵损失函数,具体为:
[0019][0020]公式中,N表示样本总数;K表示总体类别数目;y
i,k
表示第i个样本是否属于第k类,属于为1,不属于为0;p
i,k
表示第i个样本属于第k类的概率值。
[0021]本专利技术与现有方法相比,其显著优点在于:
[0022](1)提高了协同抗癌药物组合的预测精度:本专利技术使用分子指纹特征及多治疗靶点蛋白特征作为药物及癌细胞系的量化表达,以多分类交叉熵损失函数为目标训练两阶段深度卷积神经网络,使得模型可以自动从癌细胞系及药物化合物的组成中学习到复杂的作用关系,提高了协同抗癌药物组合的预测精度;
[0023](2)加快了协同抗癌药物组合的识别速度:本专利技术采用的深度卷积神经网络虽然训练耗时,但是利用训练好的网络模型权重进行预测则非常方便快捷;若采用GPU进行计算加速,预测速度还会进一步增加,极大地提升了协同抗癌药物组合的识别效率。
附图说明
[0024]图1为深度卷积神经网络的网络结构示意图。
[0025]图2为本专利技术的具体实现流程示意图。
具体实施方式
[0026]为了更好的了解本专利技术的
技术实现思路
,下面结合附图对本专利技术作进一步的说明。
[0027]图2给出了基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法的具体实现流程示意图。结合图2给出本专利技术的具体过程:首先使用ChemoPy工具包进行药物化合物分子指纹特征计算,然后利用PSI-BLAST和PSI-PRED软件对癌细胞系的多治疗靶点蛋白进行特征抽取;在此基础上,将药物化合物分子指纹特征和癌细胞系的多治疗靶点蛋白特征输入两阶段深度卷积神经网络,以多分类交叉熵损失函数作为目标进行网络训练及预测。下面结合附图所示,更加具体地描述过程。
[0028]步骤1:药物特征提取,使用ChemoPy工具包结合药物化合物的SMILE分子表达式计算分子指纹特征,得到药物化合物的特征表达向量,维度为1
×
1024;
[0029]步骤2:癌细胞系特征提取,对于癌细胞系,在Cell Model Passports数据库中查询与之相关的治疗靶点基因,并在Uniprot数据库中查询各治本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法,其特征在于,具体步骤为:步骤1:计算药物化合物的分子指纹特征;步骤2:查询与癌细胞系相关的治疗靶点基因的治疗靶点蛋白序列,根据各治疗靶点蛋白序列获得蛋白序列的位置特异性得分矩阵和蛋白质二级结构得分,并将位置特异性得分矩阵和蛋白质二级结构得分串联得到癌细胞系的多靶点蛋白特征;步骤3:将多靶点蛋白特征输入深度卷积神经网络进行训练,所述深度卷积神经网络包括第一阶段的卷积神经网络、第二阶段的深度神经网络以及Softmax分类层,所述第一阶段的卷积神经网络对多靶点蛋白特征进行卷积运算,卷积运算的输出和药物化合物的分子指纹特征进行串联后输入第二阶段的深度神经网络进行预测识别;步骤4:对于未知作用关系的药物组合及癌细胞系,依据步骤1、2分别提取药物化合物的分子指纹特征和癌细胞系的多靶点蛋白特征;将药物化合物的分子指纹特征和癌细胞系的多靶点蛋白特征分别输入训练好的深度神经网络,获得药物组合对于给定癌细胞系的协同作用预测结果。2.根据权利要求1所述的基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法,其特征在于,使用ChemoPy工具包结合药物化合物的SMILE分子表达式计算分子指纹特征。3.根据权利要求1所述的基于分子指纹...

【专利技术属性】
技术研发人员:於东军庄驰
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1