当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于深度学习的协同抗肿瘤多药组合效果预测方法技术

技术编号:24358277 阅读:20 留言:0更新日期:2020-06-03 03:02
本发明专利技术提供一种基于深度学习算法和药物基因组学的协同抗肿瘤多药组合效果的预测方法,包括以下步骤:(1)大规模药物基因组学数据挖掘与预处理;(2)不同特征信息的有效整合及建模样本的构建;(3)基于大规模样本数据及深度学习算法构建协同抗肿瘤多药组合预测模型;(4)模型的参数优化与性能提升。本方法将人工智能深度学习算法与药物基因组学有效结合,克服了传统协同药物组合预测方法仅能用于两两药物之间协同作用预测的局限性,实现了能够通过基因水平针对不同肿瘤细胞筛选出特定的协同抗肿瘤多药组合,从而为解决肿瘤耐药性问题提供理论基础与技术支撑,进一步为临床肿瘤治疗提供更多有效的治疗方案。

A prediction method of synergistic antitumor multi drug combination effect based on deep learning

【技术实现步骤摘要】
一种基于深度学习的协同抗肿瘤多药组合效果预测方法
本专利技术涉及计算机辅助药物筛选领域,具体地说是涉及一种基于深度学习和药物基因组学的协同抗肿瘤多药组合效果预测方法,适用于根据肿瘤细胞基因表达数据、药物靶点信息对不同的肿瘤细胞筛选出特定的具有协同抗肿瘤作用的药物组合。
技术介绍
癌症是严重威胁人类生命健康的重大疾病,其死亡率仅次于心血管疾病而位居第二。肿瘤主要的治疗方法有手术治疗、放射治疗和药物治疗,目前药物治疗仍是肿瘤治疗的重要手段。由于肿瘤致病因素多样,其发展过程复杂,受到众多因素的调控,单一药物的治疗易使人体对特定药物产生耐药表型,最终导致药物治疗失败。因此,从机制的互补、作用的协同增效、不良反应的减轻等方面考虑,肿瘤的治疗已从最初的单一用药向联合用药方向转变。目前,临床上仅经美国FDA认证的癌症化疗药物已超过200种,这些药物之间的随机配对组合高达19,900种,依靠传统实验方法进行协同抗肿瘤药物组合的筛选无论在时间、效率及成本方面都具有很大的挑战性。随着信息技术的发展,国内外学者开始尝试建立基于化合物结构信息的机器学习计算模型,通过计算化合物结构之间的相似性来进行协同抗肿瘤药物组合的预测,但其往往面临以下问题:1)该方法仅适用于两两药物之间的协同作用预测,对三个甚至多个药物之间的协同作用无法预测;2)缺乏足够的建模数据,对新的协同药物组合的预测准确性较差;3)无法针对给定的肿瘤细胞筛选出特定的协同药物组合;4)传统的机器学习方法无法从大数据中自动学习特征信息,需要大量的人工特征挑选。因此,针对以上方法的局限性,本专利技术提供了一种基于深度学习和药物基因组学的协同抗肿瘤多药组合效果预测方法,能够针对不同肿瘤细胞筛选出特定的协同抗肿瘤多药组合。
技术实现思路
本专利技术克服现有技术存在的不足,公开了一种基于深度学习算法(DeepLearningAlgorithm,DL)和药物基因组学的协同抗肿瘤多药组合效果预测方法,本方法将药物基因组学与人工智能深度学习算法充分结合,克服了传统筛选协同抗肿瘤药物组合的局限性,构建了一种高效、快速、准确的能够基于基因水平对不同肿瘤细胞筛选协同抗肿瘤多药组合的深度神经网络计算模型。本专利技术的目的可以通过以下技术路线(图1)来实现:1.一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,包括如下步骤:步骤一:通过公共生物医学数据库挖掘大规模药物基因组学数据,其中包括不同肿瘤细胞的特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据;步骤二:将收集得到的不同肿瘤细胞特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据分别进行数据清洗及其标准化,将不同特征的大规模数据进行有效整合,构建建模样本;步骤三:基于构建样本的大规模数据,利用深度学习算法分别构建分类、回归预测模型;步骤四:基于网格搜索算法与交叉验证对模型的关键参数进行优化,提高模型的预测性能。2.所述步骤一包括如下步骤:1.1从ArrayExpress数据库中收集不同肿瘤细胞的特征基因表达数据;1.2从包括GenomicsofDrugSensitibityinCancer(GDSC)、PubChem、DrugBank、NaturallyoccuringPlantbasedAnticancerousCompound-Activity-TargetDataBase(NPACT)在内的数据库及文献中收集抗肿瘤化合物及其作用靶点信息;1.3从GDSC、NPACT数据库及文献中收集抗肿瘤化合物对不同肿瘤细胞的药物敏感性数据。3.所述步骤二包括如下步骤:2.1基于R语言及BioconductorR包,对收集得到的不同肿瘤细胞的基因表达数据进行预处理。其中,通过Impute包对基因表达的缺失值及无效值进行填充,通过Limma包对基因表达数据进行标准化;进行缺失值及无效值填充,以及数据标准化;2.2按照基因芯片的注释文件,将标准化的基因表达数据的探针ID与相应的genesymbol进行逐一匹配;2.3对处理后的基因表达数据进行特征基因挑选,通过选取cBioPortal中涉及肿瘤信号通路上的基因集作为肿瘤细胞最终的特征基因;2.4将收集得到的化合物及其靶点信息进行去重、匹配,构建化合物-靶点信息样本特征;2.5将处理后的不同肿瘤细胞特征基因表达数据、化合物及其靶点信息和药物敏感性数据,按照肿瘤细胞-化合物-敏感性数据样本特征进行数据整合,进一步通过Scikit-learn机器学习库中的StandardScaler函数对样本数据进行无量纲化处理,构建最终建模样本数据;2.6将药物敏感性数据进行对数转化,作为回归预测模型的样本标签;2.7对药物敏感性数据进行阈值划分,其中化合物对肿瘤细胞的IC50小于或等于10μM作为阳性样本,化合物对肿瘤细胞的IC50大于10μM作为阴性样本,将其作为分类预测模型的标签;4.所述步骤三包括如下步骤:3.1基于Keras深度学习框架分别搭建神经网络分类、回归预测模型,其结构包括输入层(Inputlayer)、隐藏层(Hiddenlayer)以及输出层(Outputlayer),其中隐藏层包括全连接层(Denselayer)和Dropout层(Dropoutlayer);3.2模型的输入为肿瘤细胞的特征基因表达数据及化合物靶点信息,其中每一个基因、靶点特征作为输入层的一个节点;3.3分类预测模型的输出为二分类结果,阳性代表具有协同抗肿瘤效果,阴性代表不具有协同抗肿瘤作用;3.4回归预测模型的输出为IC50值,用来衡量协同抗肿瘤作用的强弱;3.5模型的隐藏层中,其通过RectifiedLinearUnit(ReLU)激活函数来激活输入层的值进而传入全连接层,该激活函数的公式为:y=ReLU(Wx+b)其中,x为输入数据的值,y为数据激活后的值,W为权重矩阵,b为偏差;3.6分类模型的输出层中,其通过Sigmoid激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:z=sigmoid(W′y+b′)其中,y为隐藏层传出的激活后的值,z为模型输出结果,W'为转置权重矩阵,b'为转置偏差;3.7回归模型的输出层中,其通过linear激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:z=linear(W'y+b')其中,y为隐藏层传出的激活后的值,z为模型输出结果,W'为转置权重矩阵,b′为转置偏差;3.8模型的训练过程中,采用Keras中的model.compile模块对模型的学习过程进行配置,其参数分别设置为:分类模型优化器(optimizer)设为RootMeanSquareprop(RMSprop),损失函数(lossfunction)设为binary_crossentropy;回归模型优化器(optimizer)本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,包括如下步骤:/n步骤一:通过公共生物医学数据库挖掘大规模药物基因组学数据,其中包括不同肿瘤细胞的特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据;/n步骤二:将收集得到的不同肿瘤细胞的特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据分别进行数据清洗及其标准化,将不同特征的大规模数据进行有效整合,构建建模样本;/n步骤三:基于构建样本的大规模数据,利用深度学习算法分别构建分类、回归预测模型;/n步骤四:基于网格搜索算法与交叉验证对模型的关键参数进行优化,提高模型的预测性能。/n

【技术特征摘要】
1.一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,包括如下步骤:
步骤一:通过公共生物医学数据库挖掘大规模药物基因组学数据,其中包括不同肿瘤细胞的特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据;
步骤二:将收集得到的不同肿瘤细胞的特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据分别进行数据清洗及其标准化,将不同特征的大规模数据进行有效整合,构建建模样本;
步骤三:基于构建样本的大规模数据,利用深度学习算法分别构建分类、回归预测模型;
步骤四:基于网格搜索算法与交叉验证对模型的关键参数进行优化,提高模型的预测性能。


2.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,所述步骤一包括如下步骤:
1.1从ArrayExpress数据库中收集肿瘤细胞的特征基因表达数据;
1.2从包括GenomicsofDrugSensitibityinCancer(GDSC)、PubChem、DrugBank、NaturallyoccuringPlantbasedAnticancerousCompound-Activity-TargetDataBase(NPACT)在内的数据库及文献中收集抗肿瘤化合物及其作用靶点信息;
1.3从GDSC、NPACT数据库及文献中收集抗肿瘤化合物对不同肿瘤细胞的药物敏感性数据。


3.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,所述步骤二包括如下步骤:
2.1基于R语言及BioconductorR包,对收集得到的不同肿瘤细胞的基因表达数据进行预处理;其中,通过Impute包对基因表达的缺失值及无效值进行填充,通过Limma包对基因表达数据进行标准化;进行缺失值及无效值填充,以及数据标准化;
2.2按照基因芯片的注释文件,将标准化的基因表达数据的探针ID与相应的genesymbol进行逐一匹配;
2.3对处理后的基因表达数据进行特征基因挑选,通过选取cBioPortal中涉及肿瘤信号通路上的基因集作为肿瘤细胞最终的特征基因;
2.4将收集得到的化合物及其靶点信息进行去重、匹配,构建化合物-靶点信息样本特征;
2.5将处理后的不同肿瘤细胞特征基因表达数据、化合物及其靶点信息和药物敏感性数据按照肿瘤细胞-化合物-敏感性数据样本特征进行数据整合,进一步通过Scikit-learn机器学习库中的StandardScaler函数对样本数据进行无量纲化处理,构建最终建模样本数据;
2.6将药物敏感性数据进行对数转化,作为回归预测模型的样本标签;
2.7对药物敏感性数据进行阈值划分,其中化合物对肿瘤细胞的IC50小于或等于10μM作为阳性样本,化合物对肿瘤细胞的IC50大于10μM作为阴性样本,将其作为分类预测模型的标签。


4.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,所述步骤三包括如下步骤:
3.1基于Keras深度学习框架分别搭建神经网络分类、回归预测模型,其结构包括输入层(Inputlayer)、隐藏层(Hiddenlayer)以及输出层(Outputlayer),其中隐藏层包括全连接层(Denselayer)和Dropout层(Dropoutlayer);
3.2模型的输入为肿瘤细胞的特征基因表达数据及化合物靶点信息,其中每一个基因、靶点特征都作为输入层的一个节点;
3.3分类预测模型的输出为二分类结果,阳性代表具有协同抗肿瘤效果,阴性代表不具有协同抗肿瘤作用;
3.4回归预测模型的输出为IC50值,用来衡量协同抗肿瘤作用的强弱;
3.5模型的隐藏层中,其通过RectifiedLinearUnit(ReLU)激活函数来激活输入层的值进而传入全连接层,该激活函数的公式为:
y=ReLU(Wx+b);
其中,x为输入数据的值,y为数据激活后的值,...

【专利技术属性】
技术研发人员:冯春来陈恒巍季薇芮蒙杰
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1