【技术实现步骤摘要】
一种基于异构网络的GPCR药物和靶向通路的预测方法
本专利技术涉及生物信息学中药物和通路的联系,即一种基于异构网络模型的GPCR药物和靶向通路预测方法,该方法主要利用药物的化学子结构特征和药物的SMILES字符串信息特征,以及通路相关的疾病表型相似性和通路相关蛋白序列相似性,从而构建药物-通路异构网络模型,并使用深度置信网络的方法预测潜在的药物-通路关系。
技术介绍
识别药物和通路的相互作用关系(drug-pathwayinteractions——DPI)是药物发现和药物重定位的关键。由于GPCR药物具有明确的可用性,如果能将药物用到新的通路不仅可以降低药物开发成本,还可以减少药物的不良反应。尽管目前有各种生物检测技术可用来预测DPI,但这些技术仍存在局限性。此外,由于实验的时间和成本比较高,使得有必要开发适当的计算方法来精确地分析和预测DPI。近年来,有关DPI的研究受到了越来越多的关注。最典型的是H.Ma和H.Zhao提出了iFad和FacPad两个方法,主要通过R语言中的iFad和FacPad包的综合因子推断出DPI,这两个方法能明确的考虑药物-通路的稀疏性质。方法的不足之处在于同时改变影响因子的符号并不会造成对估算的基因表达值应有的影响,并且提供的数据是药物的敏感性数据和经过药物培养的细胞系中的基因表达数据(参考文献MaH,ZhaoH.iFad:anintegrativefactoranalysismodelfordrug-pathwayassociationinference[J].Bioinformatics,2012,28(14):1911- ...
【技术保护点】
1.一种基于异构网络模型的GPCR药物和靶向通路预测方法,其特征在于,所述预测方法包括以下步骤:步骤1:构建药物和通路特征矩阵构建药物特征矩阵A1:计算药物的化学子结构相似性药物的化学特性相似性是基于药物的化学子结构的相似性;首先,化学子结构从KEGG数据库中获得,然后运用公式(1)来计算两个药物之间的化学特性相似性,得到化学特性相似性矩阵Smol;
【技术特征摘要】
1.一种基于异构网络模型的GPCR药物和靶向通路预测方法,其特征在于,所述预测方法包括以下步骤:步骤1:构建药物和通路特征矩阵构建药物特征矩阵A1:计算药物的化学子结构相似性药物的化学特性相似性是基于药物的化学子结构的相似性;首先,化学子结构从KEGG数据库中获得,然后运用公式(1)来计算两个药物之间的化学特性相似性,得到化学特性相似性矩阵Smol;公式(1)为两个药物di和dj之间的化学子结构相似性的计算方法,其化学子结构从KEGG数据库得到,且用0或1表示化学指纹信息的每一维载体,最终每个药物可以得到881维载体,Structure_mol(d)代表药物化学子结构指纹信息的有效位,相当于两个药物指纹的Jaccardscore值;A2:计算药物的SMILES字符串信息相似性药物的SMILES特征,它主要用来描述药物的字符串结构规范;首先,通过KEGG数据库中的药物找到PubChem数据库中药物的CID,这些药物的CID提供了其化学结构的SMILES字符串信息,然后,得到这些药物的SMILES字符串信息,并用TF-IDF方法度量其相似性;SMILES字符串相似度是SMILES字符串信息本身之间的相似性,其主要通过文本挖掘的TF-IDF算法计算得到;基于文本的TF-IDF方法可以通过公式(2)表示:公式(2)为基于文本挖掘的TF-IDF算法计算得到的SMILES字符串信息相似性方法;w表示某个SMILES字符串信息,其中分母加1是为了防止分母为0;TF-IDF算法倾向于过滤掉无用的SMILES字符串信息,保留重要的SMILES字符串信息;采用Stf表示药物的SMILES字符串信息特征,并以此作为新加入的药物特征矩阵;构建通路特征矩阵B1:计算通路相关疾病的表型相似性通路相关疾病的表型特性相似性为基于通路空间中药物可治疗的疾病或适应症的相似性;计算疾病的表型相似性,首先通过疾病ID可以得到对应MeSH数据库中的MeSHID,然后提取每种疾病涉及的MeSH实体属性,接着根据MeSH语义分析的方法来计算通路中相关疾病的表型特征相似性,最后结合通路-疾病关系矩阵,计算得到Smt作为通路的疾病表型的相似性矩阵;B2:计算通路相关蛋白序列相似性通路相关蛋白序列相似性为基于通路空间中通路相关的靶标蛋白序列的相似性;从Uniprot数据库中找到通路联系的蛋白质序列,并把这些序列进行序列比对,然后找出最相似的那一条序列用于表示这条通路;最后通过公式(3)计算出两条通路相关的蛋白序列的相似性,得到的结果为所有通路相互关联的蛋白质序列相似性的集合;蛋白质序列可以通过序列比对算法得到,序列比对的含义就是度量元素间相似性的尺度;并可以运用公式(3)来计算两条通路之间的蛋白序列相似性;公式(3)为两个蛋白序列R和T基于一个概率模型来计算靶标蛋白的序列相似性的计算方法;R[i],T[j](0≤i≤|R|,0≤j≤|T|)表示两个蛋白质序列,且都属于所有所述通路相关的蛋白质序列的字符集;对于字符集中的元素或空的字符,并用σ表示两个蛋白序列的相似性得分,F(i,j)表示蛋白序列R的前缀和序列T的前缀之间的最优相似性的比较得分,从而可以得到蛋白质序列的得分矩阵,最后结合通路-蛋白质序列关系矩阵,计算得到Sp作为通路中有关蛋白序列相似性的矩阵;步骤2:构建药物-通路预测模型C1:建模并预测通过计算得到药物的特征矩阵Sd,其是药物的化学子结构特征Smol与药物的SMILES字符串信息特征Stf的线性组合,用公式(4)计算得到:Sd=0.5*Smol+0.5*Stf公式(4)通路的特征矩阵Sy,其是基于疾病表型的通路特征Smt与基于蛋白质序列的通路特征Sp的线性组合,可以用公式(5)计算得到:Sy=0.5*Smt+0.5*Sp公式(5)以及药物-通路关系标签矩阵,将三种矩阵结合构建异构网络模型,并运用深度置信网络方法对药物-通路的异构网络模型进行药物-通路关系预测,从而分别得到各疾病类型模型所对应的AUC值,概率分布预测值和参数分布情况。2.如权利要求1所述的预测方法,其特征在于,步骤1中的B1中,MeSH语义分析的方法为:首先,通过各疾病类型的ID得到其对应于MeSH数据库中的MeSHID,然后提取每种疾病涉及的MeSH实体属性,接着根据MeSH实体属性进行分析,计算实体属性之间字符串匹配的字符之间的相似性,以此作为通路中相关疾病的表型特征相似性,最后,结合通路-疾病关系0-1矩阵,计算得到基于疾病表型的通路相似性矩阵。3.如权利要求1所述的预测方法,其特征在于,步骤1中的B2中,通过公式(3)计算出两条...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。