一种基于深度森林和PU学习的药物-靶标关系预测方法技术

技术编号:28054943 阅读:43 留言:0更新日期:2021-04-14 13:23
本发明专利技术提出了一种基于深度森林和PU学习的药物

【技术实现步骤摘要】
一种基于深度森林和PU学习的药物

靶标关系预测方法


[0001]本专利技术涉及系统生物学领域,更具体地,涉及一种基于深度森林和PU学习 的药物

靶标关系预测方法。

技术介绍

[0002]药物发现是一个复杂、昂贵、成功率低的过程。在过去的几十年里,尽管制 药公司在药物研发上增加了巨大的财政投资,但FDA批准的新药仍然停滞不前。 药物重定位旨在发现现有药物的原始医学用途以外的新治疗线索的过程,能够加 快药物研发进程,从而降低药物研发的成本。药物重定位的关键步骤之一是寻找 可能的药物靶点相互作用。药物

靶标通常与特定疾病有关,并可以通过调节靶 标的生理活性以有效地改善疾病症状,确定特定疾病有关的靶标分子是现代药物 发现的基础。尽管实验技术有了很大的进步,人们在分子、细胞等生物系统有了 很多的理解,但是生物湿实验方法用来确定这种关系仍然是昂贵和费时的。因此, 随着计算硬件和技术的发展,计算方法已经大量的被用来预测潜在的药物

靶标 关联关系。
[0003]目前,用于预本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度森林和PU学习的药物

靶标关系预测方法,其特征在于,包括以下步骤:S1、获取药物的结构信息、靶标的序列信息和已知的药物

靶标关系;S2、采用PU学习来筛选潜在的药物

靶标负相关关系;根据S1中所述构建药物

靶标正相关关系矩阵Y1,计算药物相似性矩阵Sim
d
,计算靶标相似性矩阵Sim
t
;在药物相似性矩阵Sim
d
和靶标相似性矩阵Sim
t
构成的特征向量上进行计算,得到药物

靶标得分矩阵,对分数进行排名;S3、采用深度森林方法来预测潜在的药物

靶标关系;1)对于药物和靶标都是已知的情况,基于药物相似性矩阵Sim
d
和靶标相似性矩阵Sim
t
,采用深度森林方法,得到药物

靶标得分矩阵;2)对于新的药物的情况,根据新的药物的结构信息,计算新的药物与已知药物的结构相似性,基于靶标相似性矩阵Sim
t
,采用深度森林方法,得到新的药物

靶标之间存在关系的概率值;3)对于新的靶标的情况,根据新的靶标的氨基酸序列信息,计算新的靶标与已知靶标的序列相似性,采用深度森林方法,得到新的靶标

药物之间存在关系的概率值。2.根据权利要求1所述的一种基于深度森林和PU学习的药物

靶标关系预测方法,其特征在于,在步骤S1中构建药物

靶标正相关关系矩阵Y1,药物

靶标矩阵每一行对应一个药物,每一列对应一个靶标;若已知药物d
i
和靶标t
j
存在关系,则Y1(i,j)等于1;否则,Y1(i,j)等于0;其中i=1,2,K,m;j=1,2,K,n;m和n分别为已知的药物和靶标的个数。3.根据权利要求1所述的一种基于深度森林和PU学习的药物

靶标关系预测方法,其特征在于,在步骤S1中的构建药物相似性矩阵的方法为:1)基于药物的结构信息,使用一种基于图的方法SIMCOMP,其中药物的结构信息被视为由原子作为顶点以及共价键作为边的2D结构图;2)根据药物的结构信息,计算药物drug
i
和药物drug
j
的结构相似性Sim
d
,计算公式如下:其中,d
i
和d
j
分别表示药物drug
i
和药物drug
j
的结构信息,最后,为第i行第j列的元素值;由所有的构成的药物相似性矩阵Sim
d
。4.根据权利要求1所述的一种基于深度森林和PU学习的药物

靶标关系预测方法,其特征在于,在步骤S1中构建靶标相似性矩阵的方法为:基于靶标的氨基酸序列信息,使用一种基于局部序列比对的算法史密斯

沃特曼算法;根据靶标的氨基酸序列信息,计算靶标protein
i
与靶标protein
j
的序列相似性Sim
t
,计算公式如下所示:其中,p
i
和p
j
分别表示靶标protein
i
与靶标protein
j
的序列信息;
最后,为第i行第j列的元素值;由所有的构成的靶标相似性矩阵Sim
t
。5.根据权利要求1所述的一种基于深度森林和PU学习的药物

靶标关系预测方法,其特征在于,在步骤S2中采用PU学习来筛选潜在的药物

靶标负相关关系的方法具体步骤为为:a)构建药物

靶标正相关关系矩阵Y1,药物

靶标矩阵每一行对应一个药物,每一列对应一个靶标;若已知药物d
i
和靶标t
j
存在关系,则Y1(i,j)等于1;否则,Y1(i,j)等于0;其中i=1,2,K,m;j=1,2,K,n;m和n分别为已知的药物和靶标的个数;b)定义{p
k
,k=1,2,K,|P|}为所有的已知药物

靶标正相关关系的特征向量集合,{u
z
,z=1,2,K,|U|}为所有的未知药物

靶标关系的特征向量集合,|P|和|U|分别为已知和未知药物

靶标关系的数量;其中若已知药物d
i
和靶标t
j
存在关系,则药物相似性矩阵与靶标相似性矩阵连结之后的特征向量为特征向量p
k
,维度为W,即n+m;若已知药物d
i
和靶标t
j
未知关系,则药物相似性矩阵与靶标相似性矩阵连结之后的特征向量为特征向量u
z
,维度为W,即n+m;其中药物相似性矩阵表示药物结构相似性矩阵Sim
d
的第i行,靶标相似性矩阵表示靶标相似性矩阵Sim
t
的第j列;c)根据所有的已知药物

靶标关系的特征向量集合{p
k
,k=1,2,K,|P|},计算正样本标准化向量p,计算公式如下:p=p+p
k
(k=1,2,...,|P|)对正样本向量p进行标准化,公式为:p=p/|P|其中|P|为已知的药物

靶标正相关关系的数量;d)根据正样本标准化向量p,计算所有的未知药物

靶标关系的特征向量与正样本标准化向量p的平均距离并标准化,计算公式如下:对平均距离进行标准化,公式为:dist
ave
=dist/|U|其中|U|为未知的药物

靶标关系的数量;W为药物相似性矩阵与靶标相似性矩阵连结之后的特征向量的维度;e)根据标准化平均距离dist
ave
,计算所有的未知药物

靶标关系的特征向量{u
z
,z=1,2,K,|U|}与正样本标准化向量p的欧式距离,计算公式如下:其中|U|为未知的药物

靶标关系的数量;W为药物相似性矩阵与靶标相似性矩阵连结之后的特征向量的维度;若某个未知药物

靶标关系的特征向量u
z
与标准化平均距离p的欧式距离dist
z
大于标准化平均距离dist
ave
,则将这个未知药物

【专利技术属性】
技术研发人员:彭利红田雄飞周立前王娟娟
申请(专利权)人:湖南工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1