一种基于双随机游走模型的miRNA-疾病关联预测方法技术

技术编号:21456338 阅读:17 留言:0更新日期:2019-06-26 05:33
本发明专利技术公开一种基于双随机游走模型的miRNA‑疾病关联预测方法,其特征在于,包括如下步骤:1)获取已知miRNA‑疾病关联数据集,构建关于miRNA‑疾病关联的邻接矩阵;2)分别构建miRNA和疾病的高斯相互作用属性核相似性矩阵;3)构建miRNA功能相似性矩阵以及疾病语义相似性矩阵;4)使用相似网络融合算法整合疾病和miRNA的相似性;5)依据双随机游走模型来预测miRNA‑疾病关联关系。这种方法成本低、耗时短,比现有的方法预测精度高。

【技术实现步骤摘要】
一种基于双随机游走模型的miRNA-疾病关联预测方法
本专利技术涉及生物信息学和人工智能交叉领域,具体是一种基于双随机游走模型的miRNA-疾病关联预测方法。
技术介绍
MicroRNAs(miRNAs)是一类很小的内源性非编码RNA,长度约为20-24个核苷酸,通过碱基配对与其靶向mRNA的3′端非编码区相结合,导致靶mRNA的降解或翻译机制,从而在转录水平上调控基因表达。越来越多的研究表明,miRNA在转录、免疫反应、细胞增值、细胞分化等生物过程中起着非常重要的作用。miRNA功能失调和miRNA突变可能会导致各种疾病的发生,因此,识别miRNA与疾病之间的相互作用关系至关重要,这将为人类理解疾病机制,疾病的预防和治疗提供帮助。目前,现有的miRNA-疾病关联关系预测方法主要分为三类:第一类:生物学实验方法测定miRNA与特定疾病的关系,这种方法耗时长,实验成本高;第二类:基于机器学习的预测方法,RLSMDA作为一个半监督的miRNA-疾病预测方法,其不需要负样本,RFMDA预测方法,是第一个用随机森林算法预测miRNA-疾病关联的方法;第三类:基于网络的预测方法,这类方法利用已知miRNA-疾病关联关系数据,基于相似的miRNA调控的疾病也相似这一假设,通过整合miRNA功能相似性和疾病语义相似性等数据,来预测miRNA-疾病关联关系,这类方法已成为miRNA-疾病关联关系预测的重要工具,例如KATZMDA和PBMDA方法,整合多种数据来预测miRNA-疾病关联。虽然上述方法预测miRNA-疾病的关联取得了良好的效果,为疾病的治疗、诊断以及预后提供了帮助,但仍存在很多不足的地方。例如,传统的生物学实验方法测定miRNA-疾病的关联,需要耗费大量的时间,浪费人力和财力。基于机器学习和网络的预测方法,预测准确率有待提高。因此迫切需要设计一种新的miRNA-疾病关联关系预测方法。
技术实现思路
本专利技术的目的是针对现有技术的不足,而提供一种基于双随机游走模型的miRNA-疾病关联预测方法。这种方法耗时短、成本低,预测miRNA-疾病关联关系精度高。实现本专利技术目的的技术方案是:一种基于双随机游走模型的miRNA-疾病关联预测方法,与现有技术不同处在于,包括如下步骤:1)获取miRNA-疾病关联数据集,构建关于miRNA-疾病关联的邻接矩阵:从HMDD数据库中获取经生物实验证实的miRNA-疾病关联数据,得到5430对不同的miRNA和疾病关联数据,其中涉及疾病种类383种,miRNA种类495种,定义D={d(1),d(2),d(3),...,d(nd)}来记nd种疾病的集合,M={m(1),m(2),m(3),...,m(nm)}来记nm种miRNA的集合,构建邻接矩阵MDnd×nm表示miRNA和疾病关联数据的关系,当疾病d(i)和miRNAm(j)被验证为关联时,邻接矩阵MDnd×nm中MD(i,j)的值设为1;反之,MD(i,j)的值设为0,表示未知的关联;2)分别构建miRNA和疾病的高斯相互作用属性核相似性矩阵:依据步骤1)建立的邻接矩阵MDnd×nm,首先,构建miRNA高斯相互作用属性核相似性矩阵KM:miRNAm(i)和m(j)的高斯相互作用属性核相似性计算如公式(1)和公式(2)所示:KM(m(i),m(j))=exp(-γm||MD(m(i))-MD(m(j))||2)(1),其中,MD(m(i))和MD(m(j))分别表示邻接矩阵MD的第i列向量和第j列向量,||·||是求向量的范数,参数γm定义为高斯相互作用属性核的带宽,由所有miRNA两两之间的高斯相互作用属性核相似性构建miRNA高斯相互作用属性核相似性矩阵KM;其次,构建疾病高斯相互作用属性核相似性矩阵KD:疾病d(i)和d(j)之间的高斯相互作用属性核相似性计算如公式(3)和公式(4)所示:KD(d(i),d(j))=exp(-γd||MD(d(i))-MD(d(j))||2)(3),其中,MD(d(i))和MD(d(j))分别表示邻接矩阵MD的第i行向量和第j行向量,||·||是求向量的范数,参数γd定义为高斯相互作用属性核的带宽,由所有疾病两两之间的高斯相互作用属性核相似性构建疾病高斯相互作用属性核相似性矩阵KD:3)构建miRNA功能相似性矩阵以及疾病语义相似性矩阵:首先,构建miRNA功能相似性矩阵MFS,先从网站:http://www.cuilab.cn/获取miRNA功能相似性分数,然后,构建具有495行和495列的miRNA功能相似性矩阵MFS,其中元素MFS(i,j)表示miRNAm(i)和miRNAm(j)之间的功能相似性分数,其次,采用疾病语义相似性模型1,构建疾病语义相似性矩阵DSS1,Mesh数据库提供了疾病的严格分类系统,每一种疾病都可以定义为有向无环图(DAG),DAG是由数据节点和连接边组成,给定一种疾病d,DAG=(d,T(d),(E(d)),其中T(d)表示祖先节点及其自身,E(d)表示d的连接边的集合,疾病t是T(d)中的一个节点,对疾病d的贡献值计算如公式(5):定义疾病d对自身的贡献值为1,而对其他疾病的贡献值则取决于语义贡献因子λ,因此,根据公式(6)计算疾病d的语义值:然后,通过公式(7)计算疾病a和疾病b之间的语义相似性:其中,Da(t)表示疾病t对疾病a的贡献值,Db(t)表示疾病t对疾病b的贡献值,由此可见,疾病a和疾病b之间的语义相似性依赖于两者之间的共同疾病的数量,数量越大,相似性越大,DSS1是基于疾病语义相似性模型1计算得到的一个383行和383列的疾病语义相似性矩阵,最后,采用疾病语义相似性模型2,构建疾病语义相似性矩阵DSS2,每种疾病可以描述为分层DAG,其中父节点代表更普遍的疾病,而子节点代表更具体的疾病,根据疾病语义相似性模型1,同一层DAG(d)中不同疾病对疾病d语义值的贡献处于同一水平,然而,这些疾病可能出现在其他DAG中,并且它们出现的DAG的数量可能不同,因此,区分这些疾病的贡献,其他DAG中出现的疾病的贡献应该更少发生在DAG较少的特定疾病中,疾病t对疾病d的语义值的贡献计算如公式(8):疾病d的语义值定义如公式(9):疾病a和疾病b之间的语义相似性计算如公式(10):DSS2是基于疾病语义相似性模型2计算得到的一个383行和383列的疾病语义相似性矩阵;4)使用相似网络融合算法整合疾病和miRNA的相似性:每一个疾病-疾病相似性矩阵可能会包含噪声数据,采用相似网络融合算法SNF,将疾病高斯相互作用属性核相似性矩阵KD、疾病语义相似性矩阵DSS1和疾病语义相似性矩阵DSS2,这三个已知的疾病-疾病相似矩阵融合在一起,从而得到一个更有用、更可靠的、信息更加丰富的疾病-疾病矩阵,SNF甚至可以从少量样本中获得有用信息,并且对噪声和数据异质性具有鲁棒性,它是一种基于非线性消息传递的方法,它迭代地更新每个网络并使其与其他网络越来越相似,每一个疾病-疾病相似矩阵可以表示为图G={D,E},其中D={d1,d2,…,dn}为疾病的集合,E是连接疾病-疾病的边的集合,每条边上都有相似权重,将相应的相似性矩阵记为W,W(i,j)表示为疾病di和疾病dj的本文档来自技高网
...

【技术保护点】
1.一种基于双随机游走模型的miRNA‑疾病关联预测方法,其特征在于,包括如下步骤:1)获取miRNA‑疾病关联数据集,构建关于miRNA‑疾病关联的邻接矩阵:从HMDD数据库中获取经生物实验证实的miRNA‑疾病关联数据,得到5430对不同的miRNA和疾病关联数据,其中涉及疾病种类383种,miRNA种类495种,定义D={d(1),d(2),d(3),...,d(nd)}来记nd种疾病的集合,M={m(1),m(2),m(3),...,m(nm)}来记nm种miRNA的集合,构建邻接矩阵MDnd×nm表示miRNA和疾病关联数据的关系,当疾病d(i)和miRNA m(j)被验证为关联时,邻接矩阵MDnd×nm中MD(i,j)的值设为1;反之,MD(i,j)的值设为0,表示未知的关联;2)分别构建miRNA和疾病的高斯相互作用属性核相似性矩阵:依据步骤1)建立的邻接矩阵MDnd×nm,首先,构建miRNA高斯相互作用属性核相似性矩阵KM:miRNA m(i)和m(j)的高斯相互作用属性核相似性计算如公式(1)和公式(2)所示:KM(m(i),m(j))=exp(‑γm||MD(m(i))‑MD(m(j))||...

【技术特征摘要】
1.一种基于双随机游走模型的miRNA-疾病关联预测方法,其特征在于,包括如下步骤:1)获取miRNA-疾病关联数据集,构建关于miRNA-疾病关联的邻接矩阵:从HMDD数据库中获取经生物实验证实的miRNA-疾病关联数据,得到5430对不同的miRNA和疾病关联数据,其中涉及疾病种类383种,miRNA种类495种,定义D={d(1),d(2),d(3),...,d(nd)}来记nd种疾病的集合,M={m(1),m(2),m(3),...,m(nm)}来记nm种miRNA的集合,构建邻接矩阵MDnd×nm表示miRNA和疾病关联数据的关系,当疾病d(i)和miRNAm(j)被验证为关联时,邻接矩阵MDnd×nm中MD(i,j)的值设为1;反之,MD(i,j)的值设为0,表示未知的关联;2)分别构建miRNA和疾病的高斯相互作用属性核相似性矩阵:依据步骤1)建立的邻接矩阵MDnd×nm,首先,构建miRNA高斯相互作用属性核相似性矩阵KM:miRNAm(i)和m(j)的高斯相互作用属性核相似性计算如公式(1)和公式(2)所示:KM(m(i),m(j))=exp(-γm||MD(m(i))-MD(m(j))||2)(1),其中,MD(m(i))和MD(m(j))分别表示邻接矩阵MD的第i列向量和第j列向量,||·||是求向量的范数,参数γm定义为高斯相互作用属性核的带宽,由所有miRNA两两之间的高斯相互作用属性核相似性构建miRNA高斯相互作用属性核相似性矩阵KM;其次,构建疾病高斯相互作用属性核相似性矩阵KD:疾病d(i)和d(j)之间的高斯相互作用属性核相似性计算如公式(3)和公式(4)所示:KD(d(i),d(j))=exp(-γd||MD(d(i))-MD(d(j))||2)(3),其中,MD(d(i))和MD(d(j))分别表示邻接矩阵MD的第i行向量和第j行向量,||·||是求向量的范数,参数γd定义为高斯相互作用属性核的带宽,由所有疾病两两之间的高斯相互作用属性核相似性构建疾病高斯相互作用属性核相似性矩阵KD;3)构建miRNA功能相似性矩阵以及疾病语义相似性矩阵:首先,构建miRNA功能相似性矩阵MFS,先从网站:http://www.cuilab.cn/获取miRNA功能相似性分数,然后,构建具有495行和495列的miRNA功能相似性矩阵MFS,其中元素MFS(i,j)表示miRNAm(i)和miRNAm(j)之间的功能相似性分数,其次,采用疾病语义相似性模型1,构建疾病语义相似性矩阵DSS1,Mesh数据库提供了疾病的严格分类系统,每一种疾病都可以定义为有向无环图(DAG),DAG是由数据节点和连接边组成,给定一种疾病d,DAG=(d,T(d),(E(d)),其中T(d)表示祖先节点及其自身,E(d)表示d的连接边的集合,疾病t是T(d)中的一个节点,对疾病d的贡献值计算如公式(5):定义疾病d对自身的贡献值为1,而对其他疾病的贡献值则取决于语义贡献因子λ,因此,根据公式(6)计算疾病d的语义值:然后,通过公式(7)计算疾病a和疾病b之间的语义相似性:其中,Da(t)表示疾病t对疾病a的贡献值,Db(t)表示疾病t对疾病b的贡献值,由此可见,疾病a和疾病b之间的语义相似性依赖于两者之间的共同疾病的数量,数量越大,相似...

【专利技术属性】
技术研发人员:樊永显朱庆祺张向文张龙
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1