一种筛选疾病药物靶标和靶标组合的方法及系统技术方案

技术编号:19141068 阅读:26 留言:0更新日期:2018-10-13 08:48
本发明专利技术公开一种筛选疾病药物靶标和药物靶标组合的方法及系统,该方法包括:根据蛋白质在疾病细胞系与正常组织间的差异表达数据构建自动编码器;根据所述自动编码器计算基因的敲除效应,构建敲除网络;根据所述敲除网络预测疾病相关蛋白质;所述相关蛋白质即为药物靶标;根据所述敲除网络预测疾病相关蛋白质的组合,所述相关蛋白质的组合即为药物靶标组合。通过本方法或系统可以同时预测疾病相关蛋白质和蛋白质的组合效应。

A method and system for screening disease drug targets and target combinations

The invention discloses a method and a system for screening the combination of disease drug targets and drug targets. The method comprises: constructing an automatic encoder according to the differential expression data of proteins between disease cell lines and normal tissues; calculating the knockout effect of genes according to the automatic encoder; and constructing a knockout network according to the knockout. The network predicts disease-related proteins; the related proteins are drug targets; and the combination of disease-related proteins is predicted according to the knockout network, which is the combination of drug targets. The combined effect of disease related proteins and proteins can be predicted simultaneously by this method or system.

【技术实现步骤摘要】
一种筛选疾病药物靶标和靶标组合的方法及系统
本专利技术涉及深度神经网络领域,特别是涉及一种筛选疾病药物靶标和靶标组合的方法及系统。
技术介绍
随着生物测量手段的进步,疾病药物相关的高通量数据不断积累,对一些疾病和疾病相关的基因/蛋白质的理解也不断深入。目前靶点药物治疗方法被认为在安全性和药品不良反应(ADR)中优于传统药物治疗方法,因此靶点药物逐渐成为疾病治疗和药物研发的主要方向。在此类药物研发工作中,最关键的步骤就是确定药物靶点,而确定药物靶点的关键在于优选疾病相关蛋白质。目前许多用于药物设计的生物信息学方法可以结合各种类型的数据信息,如蛋白质相互作用(protein-proteininteractions,PPI),基因组突变,基因/蛋白质表达和功能注释等中筛选疾病相关基因/蛋白质,而其中利用生物网络的一些方法具有较好的表现。一些方法利用蛋白质互作网络中包含有疾病相关的生物过程信息用于预测疾病相关基因/蛋白质;还有一些方法利用蛋白质互作网络结合其它组学数据,如基因/蛋白质表达谱和基因组突变信息等来推测新相关基因;另外一些方法可以通过网络拓扑结构进行筛选。这些方法生物网络方法一般会遵循“guiltbyassociation(GBA)”原则,即与已知疾病基因/蛋白质密切相关的基因/蛋白质或表型也更有可能与该疾病相关,这类的预测很可能会引入一些偏见结果。有些方法整合了多样本的数据构建网络,也会忽视网络中存在的组织和条件特异性。现有基于蛋白质相互作用网络预测疾病靶点的方法通常基于以下步骤:一:收集大量蛋白质相互作用数据,并整理为一个非冗余的,去除错误连接的集合;二:收集正常组织和疾病组织的基因表达谱,并计算两类组织间的差异表达值;三:计算与选定蛋白质有相互作用的所有蛋白质的差异表达值的和,并将此值作为优选候选基因的标准。神经网络有很强的非线性拟合能力,便于计算机实现,具有很强的鲁棒性、记忆能力、非线性映射能力以及强大的自学习能力,目前是深度学习的重要手段,有很大的应用前景。在此我们提出了一个基于自动编码器auto-encoder构建的深度神经网络模型来学习蛋白质相互作用在疾病组织中的特异性,并将训练后的网络用于筛选疾病相关蛋白质和蛋白质组合。
技术实现思路
本专利技术的目的是提供一种筛选疾病药物靶标和药物靶标组合的方法及系统,提出了一种基于自动编码器的深度学习方法,可以充分学习蛋白质相互作用在癌症多组学数据中的特异性,深度学习训练后的网络可以有效筛选癌症相关药物靶标和靶标组合。为实现上述目的,本专利技术提供了如下方案:一种筛选疾病药物靶标和药物靶标组合的方法,包括:根据蛋白质在疾病细胞系与正常组织间的差异表达数据构建自动编码器;根据所述自动编码器计算基因的敲除效应,构建敲除网络;根据所述敲除网络预测疾病相关蛋白质;所述相关蛋白质即为药物靶标;根据所述敲除网络预测疾病相关蛋白质的组合,所述相关蛋白质的组合即为药物靶标组合。可选的,所述根据所述自动编码器计算基因的敲除效应,构建敲除网络具体包括:根据自动编码器构建深度学习网络模型;给定一个差异表达谱,将所述差异表达谱输入所述深度学习网络模型,得到差异表达值,记为背景输出B;设定差异值阈值,选取所述差异表达谱中差异值大于所述差异值阈值的基因,记为高表达基因;将所有所述高表达基因按差异值从大到小排序,将差异值最大的所述高表达基因赋予所述差异表达谱中差异值最小的数值,依次将所有所述高表达基因赋予新的差异值;根据具有新的差异值的高表达基因和除去所有所述高表达基因后的差异表达谱中的剩余基因构成新差异表达谱;将所述新差异表达谱输入所述深度学习网络模型,得到第二输出K;设定比较阈值;计算所有所述高表达基因的第二输出K与所述高表达基因的背景输出B的差值,得到比较差值;将所有所述比较差值大于所述比较阈值的所述高表达基因记为敲除基因;根据所有所述敲除基因构建敲除网络。可选的,所述根据所述敲除基因构建敲除网络具体为:将所述敲除基因作为所述敲除网络的源点;被所述敲除基因影响的基因作为所述源点的边;所述比较差值作为所述边的权重。可选的,所述根据所述敲除网络预测疾病相关蛋白质具体包括:设定已知的药物靶点为标记基因、待测蛋白质、相关性阈值;根据所述敲除网络获得与所述待测蛋白质相连的靶点蛋白质和源点蛋白质;根据所述靶点蛋白质和所述标记基因,区分抑制效应的靶点蛋白质和激活效应的靶点蛋白质;计算所述抑制效应的靶点蛋白质与所述待测蛋白质相连的边的权重和,记为第一权重和;计算所述激活效应的靶点蛋白质与所述待测蛋白质相连的边的权重的绝对值的和,记为第一绝对值和;计算所述源点蛋白质的所有正值的边的权重的和,记为第二权重和,所有负值权重的绝对值的和,记为第二绝对值和;根据所述第一权重和、所述第一绝对值和、所述第二权重和、所述第二绝对值和计算所述待测蛋白质的相关性得分;选取所有所述待测蛋白质的相关性得分高于所述相关性阈值的待测蛋白质,即为疾病相关蛋白质。可选的,所述根据所述敲除网络预测疾病相关蛋白质的组合具体包括:收集已知具有致死和组合效应的蛋白质组合作为正样本,根据所述正样本随机生成10倍于正样本数量的负样本;选取所述敲除网络中的任一目标蛋白质,筛选所有与所述目标蛋白质直接相连的靶点蛋白质和源点蛋白质;判断所述敲除网络中的目标蛋白质及所述目标蛋白质的靶点蛋白质、源点蛋白质是存在于所述正样本中,还是存在于所述负样本中;若所述敲除网络中的目标蛋白质及所述目标蛋白质的靶点蛋白质、源点蛋白质存在于所述正样本中,则将所述目标蛋白质、所述目标蛋白质的靶点蛋白质和源点蛋白质的边的权重相加取绝对值,得到第一组合权重和绝对值;将所述正样本中的所有目标蛋白质的第一组合权重和的绝对值相加得到正组合权重和绝对值;若所述敲除网络中的目标蛋白质及所述目标蛋白质的靶点蛋白质、源点蛋白质存在于所述负样本中,则将所述目标蛋白质、所述目标蛋白质的靶点蛋白质和源点蛋白质的边的权重相加取绝对值,得到第二组合权重和绝对值;将所述负样本中的所有目标蛋白质的第二组合权重和绝对值相加得到负组合权重和绝对值;根据所述第一组合权重和的绝对值和所述第二组合权重和的绝对值将所述目标蛋白质赋予1,-1或0值,得到目标蛋白质赋值;选定第一待测蛋白质和第二待测蛋白质;设定第一检测阈值、第二检测阈值;计算所述第一待测蛋白质和所述第二待测蛋白质共同影响的蛋白质的比例,记为共同影响蛋白质比例;根据所述目标蛋白质赋值计算所述第一待测蛋白质和所述第二待测蛋白质共同影响的被评估过的蛋白质的比例,记为共同影响被评估蛋白质比例,所述被评估过的蛋白质为赋值为1或-1的蛋白质;判断所述共同影响蛋白质比例是否大于所述第一检测阈值,同时所述共同影响被评估蛋白质比例是否大于所述第二检测阈值;若是,则所述第一待测蛋白质和第二待测蛋白质组合则为疾病相关蛋白质的组合。一种筛选疾病药物靶标和药物靶标组合的系统,包括:自动编码模块,用于根据蛋白质在疾病细胞系与正常组织间的差异表达数据构建自动编码器;敲除网络构建模块,用于根据所述自动编码器计算基因的敲除效应,构建敲除网络;相关蛋白质预测模块,用于根据所述敲除网络预测疾病相关蛋白质;所述相关蛋白质即为药物靶标;蛋白质组合预测模块,用于根据所述敲除网络预测疾本文档来自技高网
...

【技术保护点】
1.一种筛选疾病药物靶标和药物靶标组合的方法,其特征在于,包括:根据蛋白质在疾病细胞系与正常组织间的差异表达数据构建自动编码器;根据所述自动编码器计算基因的敲除效应,构建敲除网络;根据所述敲除网络预测疾病相关蛋白质;所述相关蛋白质即为药物靶标;根据所述敲除网络预测疾病相关蛋白质的组合,所述相关蛋白质的组合即为药物靶标组合。

【技术特征摘要】
1.一种筛选疾病药物靶标和药物靶标组合的方法,其特征在于,包括:根据蛋白质在疾病细胞系与正常组织间的差异表达数据构建自动编码器;根据所述自动编码器计算基因的敲除效应,构建敲除网络;根据所述敲除网络预测疾病相关蛋白质;所述相关蛋白质即为药物靶标;根据所述敲除网络预测疾病相关蛋白质的组合,所述相关蛋白质的组合即为药物靶标组合。2.根据权利要求1所述的筛选疾病药物靶标和药物靶标组合的方法,其特征在于,所述根据所述自动编码器计算基因的敲除效应,构建敲除网络具体包括:根据自动编码器构建深度学习网络模型;给定一个差异表达谱,将所述差异表达谱输入所述深度学习网络模型,得到差异表达值,记为背景输出B;设定差异值阈值,选取所述差异表达谱中差异值大于所述差异值阈值的基因,记为高表达基因;将所有所述高表达基因按差异值从大到小排序,将差异值最大的所述高表达基因赋予所述差异表达谱中差异值最小的数值,依次将所有所述高表达基因赋予新的差异值;根据具有新的差异值的高表达基因和除去所有所述高表达基因后的差异表达谱中的剩余基因构成新差异表达谱;将所述新差异表达谱输入所述深度学习网络模型,得到第二输出K;设定比较阈值;计算所有所述高表达基因的第二输出K与所述高表达基因的背景输出B的差值,得到比较差值;将所有所述比较差值大于所述比较阈值的所述高表达基因记为敲除基因;根据所有所述敲除基因构建敲除网络。3.根据权利要求2所述的筛选疾病药物靶标和药物靶标组合的方法,其特征在于,所述根据所述敲除基因构建敲除网络具体为:将所述敲除基因作为所述敲除网络的源点;被所述敲除基因影响的基因作为所述源点的边;所述比较差值作为所述边的权重。4.根据权利要求1所述的筛选疾病药物靶标和药物靶标组合的方法,其特征在于,所述根据所述敲除网络预测疾病相关蛋白质具体包括:设定已知的药物靶点为标记基因、设定待测蛋白质、相关性阈值;根据所述敲除网络获得与所述待测蛋白质相连的靶点蛋白质和源点蛋白质;根据所述靶点蛋白质和所述标记基因,区分抑制效应的靶点蛋白质和激活效应的靶点蛋白质;计算所述抑制效应的靶点蛋白质与所述待测蛋白质相连的边的权重和,记为第一权重和;计算所述激活效应的靶点蛋白质与所述待测蛋白质相连的边的权重的绝对值的和,记为第一绝对值和;计算所述源点蛋白质的所有正值的边的权重的和,记为第二权重和,所有负值权重的绝对值的和,记为第二绝对值和;根据所述第一权重和、所述第一绝对值和、所述第二权重和、所述第二绝对值和计算所述待测蛋白质的相关性得分;选取所有所述待测蛋白质的相关性得分高于所述相关性阈值的待测蛋白质,即为疾病相关蛋白质。5.根据权利要求1所述的筛选疾病药物靶标和药物靶标组合的方法,其特征在于,所述根据所述敲除网络预测疾病相关蛋白质的组合具体包括:收集已知具有致死和组合效应的蛋白质组合作为正样本,根据所述正样本随机生成10倍于正样本数量的负样本;选取所述敲除网络中的任一目标蛋白质,筛选所有与所述目标蛋白质直接相连的靶点蛋白质和源点蛋白质;判断所述敲除网络中的目标蛋白质及所述目标蛋白质的靶点蛋白质、源点蛋白质是存在于所述正样本中,还是存在于所述负样本中;若所述敲除网络中的目标蛋白质及所述目标蛋白质的靶点蛋白质、源点蛋白质存在于所述正样本中,则将所述目标蛋白质、所述目标蛋白质的靶点蛋白质和源点蛋白质的边的权重相加取绝对值,得到第一组合权重和绝对值;将所述正样本中的所有目标蛋白质的第一组合权重和的绝对值相加得到正组合权重和绝对值;若所述敲除网络中的目标蛋白质及所述目标蛋白质的靶点蛋白质、源点蛋白质存在于所述负样本中,则将所述目标蛋白质、所述目标蛋白质的靶点蛋白质和源点蛋白质的边的权重相加取绝对值,得到第二组合权重和绝对值;将所述负样本中的所有目标蛋白质的第二组合权重和绝对值相加得到负组合权重和绝对值;根据所述第一组合权重和的绝对值和所述第二组合权重和的绝对值将所述目标蛋白质赋予1,-1或0值,得到目标蛋白质赋值;选定第一待测蛋白质和第二待测蛋白质;设定第一检测阈值、第二检测阈值;计算所述第一待测蛋白质和所述第二待测蛋白质共同影响的蛋白质的比例,记为共同影响蛋白质比例;根据所述目标蛋白质赋值计算所述第一待测蛋白质和所述第二待测蛋白质共同影响的被评估过的蛋白质的比例,记为共同影响被评估蛋白质比例,所述被评估过的蛋白质为赋值为1或-1的蛋白质;判断所述共同影响蛋白质比例是否大于所述第一检测阈值,同时所述共同影响被评估蛋白质比例是否大于所述第二检测阈值;若是,则所述第一待测蛋白质和第二待测蛋白质组合则为疾病相关蛋白质的组合。6.一种筛选疾病药物靶标和药物靶标组合的系统,其特征在于,包括:自动编码模块,用于根据蛋白质在疾病细胞系与正常组织间的差异表达数据构建自动编码器;敲除网络构建模块,用于根据所述自动编码器计算基因的敲除效应,构建敲除网络;相关蛋白质预测模块,用于根据所述敲除网络预测疾病相关蛋白质;所述相关蛋白质即为药物靶标;蛋白质组合预测模块,用于根据所述敲除网络预测疾病相关...

【专利技术属性】
技术研发人员:陈玲玲常继伟丁毓端高俊祥
申请(专利权)人:华中农业大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1