一种基于异构网络的GPCR药物和靶向通路的预测方法技术

技术编号:21632343 阅读:27 留言:0更新日期:2019-07-17 12:14
本发明专利技术公开了一种基于异构网络的G蛋白偶联受体(G‑Protein Coupled Receptor,GPCR)药物和靶向通路的预测方法及其生物学用途。该方法基于药物的化学子结构特征、基于药物的SMILES字符串信息特征、通路相关的蛋白质序列特征及通路相关疾病的表型特征的基础上,进而建立药物‑通路异构网络模型,并使用深度置信网络的方法预测药物‑通路相互作用关系。本发明专利技术提出的基于异构网络的GPCR药物和靶向通路的预测方法不仅预测精度高,鲁棒性好,而且可以成功预测出部分GPCR药物所作用的通路。该方法可用于药物‑通路相关性评估及临床患者用药参考等用途。

A Prediction Method of GPCR Drug and Targeting Pathway Based on Heterogeneous Network

【技术实现步骤摘要】
一种基于异构网络的GPCR药物和靶向通路的预测方法
本专利技术涉及生物信息学中药物和通路的联系,即一种基于异构网络模型的GPCR药物和靶向通路预测方法,该方法主要利用药物的化学子结构特征和药物的SMILES字符串信息特征,以及通路相关的疾病表型相似性和通路相关蛋白序列相似性,从而构建药物-通路异构网络模型,并使用深度置信网络的方法预测潜在的药物-通路关系。
技术介绍
识别药物和通路的相互作用关系(drug-pathwayinteractions——DPI)是药物发现和药物重定位的关键。由于GPCR药物具有明确的可用性,如果能将药物用到新的通路不仅可以降低药物开发成本,还可以减少药物的不良反应。尽管目前有各种生物检测技术可用来预测DPI,但这些技术仍存在局限性。此外,由于实验的时间和成本比较高,使得有必要开发适当的计算方法来精确地分析和预测DPI。近年来,有关DPI的研究受到了越来越多的关注。最典型的是H.Ma和H.Zhao提出了iFad和FacPad两个方法,主要通过R语言中的iFad和FacPad包的综合因子推断出DPI,这两个方法能明确的考虑药物-通路的稀疏性质。方法的不足之处在于同时改变影响因子的符号并不会造成对估算的基因表达值应有的影响,并且提供的数据是药物的敏感性数据和经过药物培养的细胞系中的基因表达数据(参考文献MaH,ZhaoH.iFad:anintegrativefactoranalysismodelfordrug-pathwayassociationinference[J].Bioinformatics,2012,28(14):1911-8.MaH,ZhaoH.FacPad:Bayesiansparsefactormodelingfortheinferenceofpathwaysresponsivetodrugtreatment[J].Bioinformatics,2014,28(20):2662-70.)。Hoehndorf等人利用多种药物基因组学数据库(包括DrugBank,CTD,PharmGKB),并整合了各种生物实体信息,结合富集分析来进行研究。尽管此方法可以通过人类疾病实体论的新型富集分析来识别疾病与通路,但是并没有直接预测DPI(参考文献HoehndorfR,SchofieldPN,GkoutosGV.PhenomeNET:awhole-phenomeapproachtodiseasegenediscovery[J].NucleicAcidsResearch,2011,39(18):e119.)。最近的一项工作研发了一种线性回归模型,其整合了基因组和基因表达数据,从而预测DPI。然而这种新颖的统计数据方法是需要知识引导的组合分析(参考文献GiovannettiG.Thelinearregressionmodelundertest,byW.andH.Sonnberger.PhysicaVerlag,Heidelberg[J].JournalofAppliedEconometrics,2010,4(2):209-211.)。随着许多实验设备和技术的发展,例如高通量实验和基因测序技术,存在越来越多的药物、通路相关数据可用于DPI的预测,进而提出了各种基于网络的方法来推断DPI。在DPI网络中,药物和通路由节点表示,与节点连接的线是已知的DPI,新的DPI可以由已知网络推断得到(参考文献EmigD,IvlievA,PustovalovaO,etal.DrugTargetPredictionandRepositioningUsinganIntegratedNetwork-BasedApproach[J].PLoSOne,2013,8(4):e60618.)。综上所述,采取基于异构网络的深度学习方法来预测药物-通路是目前研究的一个新方向。但算法的改进以及特征的选择一直是药物-通路相互关系预测研究的难点和关键问题。
技术实现思路
本专利技术的目的是针对GPCR药物和靶向通路而提供的一种基于异构网络的药物-通路预测方法,该方法不仅预测精度高,鲁棒性好,预测GPCR数据库中未上市的药物,有更多的可能性在未来成为GPCR新药物,并且这些预测出来的药物-通路新关系对可用于进一步的实验研究。该方法可用于药物-通路相关性评估及临床患者用药参考等。实现本专利技术目的的具体技术方案是:一种基于异构网络模型的GPCR药物和靶向通路预测方法,该预测方法包括以下具体步骤:步骤1:构建药物和通路特征矩阵构建药物特征矩阵A1:计算药物的化学子结构相似性药物的化学特性相似性是基于药物的化学子结构的相似性;首先,化学子结构从KEGG数据库中获得,然后运用公式(1)来计算两个药物之间的化学特性相似性,最终得到化学特性相似性矩阵Smol;公式(1)为两个药物di和dj之间的化学子结构相似性的计算方法,其化学子结构可以从KEGG数据库中得到,且用0或1表示化学指纹信息(“化学指纹信息”用来表示药物的化学“子结构”,本质上两者相同)的每一维载体,最终每个药物可以得到881维载体,Structure_mol(d)代表药物的化学子结构的指纹信息的有效位,这相当于两个药物指纹信息的Jaccardscore值。其中,药物的化学子结构的指纹信息的有效位,可以通过ChemicalDevelopmentKit(化学开发包)来获得两个药物的化学指纹的881维载体,这881维载体分别用0或1表示,1表示有化学子结构的某种化学元素,否则为0,最后通过计算两个药物的881维载体1的个数的并集除以1的个数的交集,即Jaccardscore值为并集除以交集的商。“相当于”是指药物的化学子结构的指纹信息可以通过Jaccard计算得到。“化学子结构的指纹信息的有效位”等于“指纹的Jaccardscore值”。其中,881维载体是指,药物的化学子结构通过ChemicalDevelopmentKit(化学开发包)来获得两个药物的化学指纹的881维载体,这881维载体即为一个药物*881维的矩阵,矩阵中的数字用0或者1表示,1表示有化学子结构的某种化学元素,否则为0。得到“881”维载体,需要通过ChemicalDevelopmentKit(化学开发包)来获得,它只是药物的化学子结构用矩阵的形式表达,通过化学包只能得到881维载体。A2:计算药物的SMILES字符串信息相似性药物的SMILES特征(简化分子线性输入规范字符串信息特征),它主要用来描述药物的字符串结构规范。首先,通过KEGG数据库中的药物找到PubChem数据库中药物的CID,这些药物的CID提供了其化学结构的SMILES字符串信息,然后,得到这些药物的SMILES字符串信息,并用TF-IDF方法度量其相似性。SMILES字符串相似度是SMILES字符串信息本身之间的相似性,其主要通过文本挖掘的TF-IDF算法计算得到。基于文本的TF-IDF方法可以通过公式(2)表示:公式(2)为基于文本挖掘的TF-IDF算法计算得到的SMILES字符串信息相似性方法。公式(2)中,w表示某个SMILES字符串信息,其中分母加1是为了防止分母为0。从上式中可以看出,TF-IDF算法倾向于过滤掉无用的SMILE本文档来自技高网
...

【技术保护点】
1.一种基于异构网络模型的GPCR药物和靶向通路预测方法,其特征在于,所述预测方法包括以下步骤:步骤1:构建药物和通路特征矩阵构建药物特征矩阵A1:计算药物的化学子结构相似性药物的化学特性相似性是基于药物的化学子结构的相似性;首先,化学子结构从KEGG数据库中获得,然后运用公式(1)来计算两个药物之间的化学特性相似性,得到化学特性相似性矩阵Smol;

【技术特征摘要】
1.一种基于异构网络模型的GPCR药物和靶向通路预测方法,其特征在于,所述预测方法包括以下步骤:步骤1:构建药物和通路特征矩阵构建药物特征矩阵A1:计算药物的化学子结构相似性药物的化学特性相似性是基于药物的化学子结构的相似性;首先,化学子结构从KEGG数据库中获得,然后运用公式(1)来计算两个药物之间的化学特性相似性,得到化学特性相似性矩阵Smol;公式(1)为两个药物di和dj之间的化学子结构相似性的计算方法,其化学子结构从KEGG数据库得到,且用0或1表示化学指纹信息的每一维载体,最终每个药物可以得到881维载体,Structure_mol(d)代表药物化学子结构指纹信息的有效位,相当于两个药物指纹的Jaccardscore值;A2:计算药物的SMILES字符串信息相似性药物的SMILES特征,它主要用来描述药物的字符串结构规范;首先,通过KEGG数据库中的药物找到PubChem数据库中药物的CID,这些药物的CID提供了其化学结构的SMILES字符串信息,然后,得到这些药物的SMILES字符串信息,并用TF-IDF方法度量其相似性;SMILES字符串相似度是SMILES字符串信息本身之间的相似性,其主要通过文本挖掘的TF-IDF算法计算得到;基于文本的TF-IDF方法可以通过公式(2)表示:公式(2)为基于文本挖掘的TF-IDF算法计算得到的SMILES字符串信息相似性方法;w表示某个SMILES字符串信息,其中分母加1是为了防止分母为0;TF-IDF算法倾向于过滤掉无用的SMILES字符串信息,保留重要的SMILES字符串信息;采用Stf表示药物的SMILES字符串信息特征,并以此作为新加入的药物特征矩阵;构建通路特征矩阵B1:计算通路相关疾病的表型相似性通路相关疾病的表型特性相似性为基于通路空间中药物可治疗的疾病或适应症的相似性;计算疾病的表型相似性,首先通过疾病ID可以得到对应MeSH数据库中的MeSHID,然后提取每种疾病涉及的MeSH实体属性,接着根据MeSH语义分析的方法来计算通路中相关疾病的表型特征相似性,最后结合通路-疾病关系矩阵,计算得到Smt作为通路的疾病表型的相似性矩阵;B2:计算通路相关蛋白序列相似性通路相关蛋白序列相似性为基于通路空间中通路相关的靶标蛋白序列的相似性;从Uniprot数据库中找到通路联系的蛋白质序列,并把这些序列进行序列比对,然后找出最相似的那一条序列用于表示这条通路;最后通过公式(3)计算出两条通路相关的蛋白序列的相似性,得到的结果为所有通路相互关联的蛋白质序列相似性的集合;蛋白质序列可以通过序列比对算法得到,序列比对的含义就是度量元素间相似性的尺度;并可以运用公式(3)来计算两条通路之间的蛋白序列相似性;公式(3)为两个蛋白序列R和T基于一个概率模型来计算靶标蛋白的序列相似性的计算方法;R[i],T[j](0≤i≤|R|,0≤j≤|T|)表示两个蛋白质序列,且都属于所有所述通路相关的蛋白质序列的字符集;对于字符集中的元素或空的字符,并用σ表示两个蛋白序列的相似性得分,F(i,j)表示蛋白序列R的前缀和序列T的前缀之间的最优相似性的比较得分,从而可以得到蛋白质序列的得分矩阵,最后结合通路-蛋白质序列关系矩阵,计算得到Sp作为通路中有关蛋白序列相似性的矩阵;步骤2:构建药物-通路预测模型C1:建模并预测通过计算得到药物的特征矩阵Sd,其是药物的化学子结构特征Smol与药物的SMILES字符串信息特征Stf的线性组合,用公式(4)计算得到:Sd=0.5*Smol+0.5*Stf公式(4)通路的特征矩阵Sy,其是基于疾病表型的通路特征Smt与基于蛋白质序列的通路特征Sp的线性组合,可以用公式(5)计算得到:Sy=0.5*Smt+0.5*Sp公式(5)以及药物-通路关系标签矩阵,将三种矩阵结合构建异构网络模型,并运用深度置信网络方法对药物-通路的异构网络模型进行药物-通路关系预测,从而分别得到各疾病类型模型所对应的AUC值,概率分布预测值和参数分布情况。2.如权利要求1所述的预测方法,其特征在于,步骤1中的B1中,MeSH语义分析的方法为:首先,通过各疾病类型的ID得到其对应于MeSH数据库中的MeSHID,然后提取每种疾病涉及的MeSH实体属性,接着根据MeSH实体属性进行分析,计算实体属性之间字符串匹配的字符之间的相似性,以此作为通路中相关疾病的表型特征相似性,最后,结合通路-疾病关系0-1矩阵,计算得到基于疾病表型的通路相似性矩阵。3.如权利要求1所述的预测方法,其特征在于,步骤1中的B2中,通过公式(3)计算出两条...

【专利技术属性】
技术研发人员:江振然蒋惠炎
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1