基于网络表示学习的计算疾病相似度系统技术方案

技术编号:26893140 阅读:46 留言:0更新日期:2020-12-29 16:14
基于网络表示学习的计算疾病相似度系统,涉及疾病相似度计算领域,特别涉及一种基于网络表示学习的计算疾病相似度系统,包括:信息融合模块:用于处理提取HumanNet信息、计算两个Go_term之间的相似度,测量基因之间的相似度;网络嵌入模块:用于将每个基因转化为向量形式;疾病相似度计算模块:基于基因的向量表示和疾病相关基因数据DisGeNET将疾病相关基因融合,得到疾病的向量表示,利用疾病向量表示度量疾病的相似性;基因与疾病预测模块:实现基于基因的向量表示,结合MLP模型,对基因与疾病之间的关系进行预测的功能;本发明专利技术用于提升计算疾病相似度的准确性。

【技术实现步骤摘要】
基于网络表示学习的计算疾病相似度系统
本专利技术涉及疾病相似度的计算领域,特别涉及一种基于网络表示学习的计算疾病相似度系统。
技术介绍
近年来疾病相似度的研究在生物信息领域受到了大量的关注,随之出现了很多建立疾病之间相似的方法。建立疾病之间的关系有助于增进对疾病生物学的理解,并且,在复杂疾病发病原理的理解、诊断、潜在疾病治疗药物的预测等任务中都起到重要作用。而疾病相似度是对疾病之间关系的量化过程,因此计算疾病的相似度具有重大的生物学和药理学意义。生活中,各种信息网络可能包含大量的节点和边,这会导致直接在网络上进行计算是非常困难且缓慢的。因此,人们提出将图中的节点表示为可以反映图信息的低维的向量后再进行计算。这种将图中节点表示为向量的过程就称为网络表示学习,又叫做网络嵌入、图嵌入。网络学习表示的目的是根据网络中节点之间的相互联系,将网络中的每个节点用低维稠密的向量空间表示(其中向量空间的维度远小于节点的总个数),并且能够保持原有网络的结构与功能,能够支持后续的网络处理和分析任务,如节点分类、节点聚类、网络可视化和链路预测等。目前大本文档来自技高网...

【技术保护点】
1.基于网络表示学习的计算疾病相似度系统,其特征在于所述系统包括:/nDisGeNet数据集、GeneOntlogy数据集、HumanNet网络、信息融合模块、网络嵌入模块、疾病相似度计算模块;/n所述DisGeNet数据集用于存储基因和疾病之间的关系;/n所述GeneOntlogy数据集用于存储Go_term之间的关系以及Go_term和基因之间的关系;/n所述HumanNet网络用于存储基因之间的关系;/n所述信息融合模块,用于将基因相似度矩阵进行拉普拉斯平滑得到矩阵R,利用矩阵R计算两个Go_term注释的基因集之间相似度,利用Go_term注释的基因集之间相似度计算两个Go_term之...

【技术特征摘要】
1.基于网络表示学习的计算疾病相似度系统,其特征在于所述系统包括:
DisGeNet数据集、GeneOntlogy数据集、HumanNet网络、信息融合模块、网络嵌入模块、疾病相似度计算模块;
所述DisGeNet数据集用于存储基因和疾病之间的关系;
所述GeneOntlogy数据集用于存储Go_term之间的关系以及Go_term和基因之间的关系;
所述HumanNet网络用于存储基因之间的关系;
所述信息融合模块,用于将基因相似度矩阵进行拉普拉斯平滑得到矩阵R,利用矩阵R计算两个Go_term注释的基因集之间相似度,利用Go_term注释的基因集之间相似度计算两个Go_term之间的相似度,利用两个Go_term之间的相似度获得基因之间的相似度;
所述网络嵌入模块,基于基因之间的相似度将每个基因转化为向量形式;
所述疾病相似度计算模块,基于基因的向量表示和疾病相关基因数据集DisGeNET将疾病相关基因融合,得到疾病的向量表示,利用疾病向量表示度量疾病的相似性;
所述Go_term为基因本体的数据集;
所述Go_term注释的基因集是与Go_term相关基因集的集合。


2.根据权利要求1所述的基于网络表示学习的计算疾病相似度系统,其特征在于:还包括基因与疾病预测模块:
所述基因与疾病预测模块,实现基于基因的向量表示,结合MLP模型,对基因与疾病之间的关系进行预测的功能;
基于信息融合模块、网络嵌入模块的计算获得基因的向量表示,基因与疾病预测模块将基因的向量表示结合MLP模型,通过训练可选择与任一疾病匹配,输出基因与疾病的相关概率。


3.根据权利要求2所述的基于网络表示学习的计算疾病相似度系统,其特征在于:所述信息融合模块,用于将基因相似度矩阵进行拉普拉斯平滑得到矩阵R,利用矩阵R计算两个Go_term注释的基因集之间相似度,利用Go_term注释的基因集之间相似度从路径相似度和公共父节点的相似度两方面考虑,计算两个Go_term之间的相似度,利用两个Go_term之间的相似度获得基因之间的相似度矩阵,其具体过程为:
步骤二一、将HumanNet网络中的基因相似度矩阵进行拉普拉斯平滑:



其中



其中,R为拉普拉斯平滑后的相似度矩阵,lambda是拉普拉斯平滑的参数,sum是HumanNet中所有基因对相似性的总和,N是基因的数量,b是用于将值规格化为(0,1)区间的值的扩展因子,s[i][j]是i,j的相似度矩阵,gi和gj表示疾病基因;
步骤二二、计算两个Go_term之间的相似度;
步骤二三、计算基因之间的相似度:
根据步骤二二获得的Go_term之间的相似度,获得基因之间的相似度:



其中,



其中,S(·,·)表示两个Go-term之间的相似度,y表示i或j,t1、t2是两个GO_term;
基于z-score和给定的GO_term,可以从Tj获得两个集合:






如果T′th>T′tl,那么T′j=T′th,否则T′j=T′tl;
其中是相似性标准分数,Ti和Tj分别是gi和gj注释的术语集,|Ti|+|Tj|是Ti和Tj中基因数的和,T′j是Tj中部分Go_term的集合,T′i是Ti中部分Go_term语句的集合,所述的注释的术语集是与基因相关的Go_term...

【专利技术属性】
技术研发人员:李洋汪国华王柯淇
申请(专利权)人:东北林业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1