一种基于复杂网络的疾病进展路径挖掘方法技术

技术编号:26732535 阅读:20 留言:0更新日期:2020-12-15 14:36
本发明专利技术公开了一种基于复杂网络的疾病进展路径挖掘方法,基于临床诊疗数据、基因疾病关联数据和通路疾病关联数据,构建有向表型疾病网络、基于基因的疾病关联网络和基于通路的疾病关联网络,并对节点间的边权值加权求和得到有向的复杂疾病网络;基于病死率对复杂疾病网络进行分类,得到源疾病群和目标疾病群;采用双向最大平均权值路径算法,搜索源疾病到目标疾病的疾病进展路径;最后,计算疾病进展得分,量化疾病进展路径的相对重要性。本发明专利技术通过挖掘疾病发展路径,量化疾病进展路径相对重要性,找到存在显著统计学关系的疾病进展轨迹,为疾病预防提供支撑,从而对预防低死亡风险疾病发展成高死亡风险疾病的研究具有重要意义。

【技术实现步骤摘要】
一种基于复杂网络的疾病进展路径挖掘方法
本专利技术属于网络科学和医学领域,具体涉及一种基于复杂网络的疾病进展路径挖掘方法。
技术介绍
许多疾病之间没有明确的界限,疾病间可以通过多个维度关联。网络分析被认为是分析疾病间关系的有效方法,疾病网络可以全面、系统地阐释疾病之间的关系。近年来,国内外学者围绕基于基因、蛋白质数据的复杂生物网络和基于临床诊断信息的疾病表型网络展开了研究。从分子水平分析疾病与基因、蛋白质之间的关系,有助于发现疾病的发病机制;从临床角度,基于表型相似性对疾病进行系统分类,有助于促进疾病进展模式的识别。如何整合表型数据与分子疾病关联数据,构建复杂疾病网络,是亟待研究的一个关键问题。进一步地,在疾病网络中,基于疾病之间的先后关系识别疾病进展模式,对预防疾病的并发症或发展成其他疾病具有重要意义。在庞大的疾病网络中,如何高效准确挖掘低风险疾病到高风险疾病具有显著统计学意义的疾病进展路径,是亟需解决的又一关键问题。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的一种基于复杂网络的疾病进展路径挖掘方法解决了现有技术中存在的问题。为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于复杂网络的疾病进展路径挖掘方法,包括以下步骤:S1、采集临床诊疗数据,并根据临床诊疗数据中疾病患病率和共病信息构建有向表型疾病网络;S2、采集基因-疾病关联数据,并根据基因-疾病关联数据构建基于基因的疾病关联网络;S3、采集疾病通路数据,并根据疾病通路数据构建基于通路的疾病关联网络;S4、将两两疾病之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,将边权值之和作为复杂疾病网络的边权值,构建有向的复杂疾病网络;S5、将复杂疾病网络中疾病分为低风险、中风险和高风险三部分,设定低风险疾病为源疾病群和高风险疾病为目标疾病群;S6、采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径;S7、计算疾病进展路径的得分,选择得分最高的疾病进展路径,得到源疾病群到目标疾病群的病情进展路径挖掘结果。进一步地,所述步骤S1包括以下分步骤:S1.1、采集临床诊疗数据,筛选同一患者所患的全部疾病;S1.2、根据疾病的患病率和共病信息,获取疾病di与疾病dj的相对风险RR(di,dj)为:其中,i=1,2,...,N,j=1,2,...,N,N表示临床诊疗数据中疾病的总数,p(dj|di)表示在患疾病di的情况下患疾病dj的概率,表示在不患疾病di的情况下患疾病dj的概率;S1.3、根据相对风险RR(di,dj),获取疾病di对疾病dj的影响参数h(di,dj)为:S1.4、对影响参数h(di,dj)进行标准化,得到疾病di对疾病dj的影响程度值为:其中,C表示表型疾病网络;maxC表示表型疾病网络中,所有疾病对之间影响参数的最大值;S1.5、将疾病作为网络节点和影响程度值作为两种疾病之间的边权值,得到有向的表型疾病网络。进一步地,所述步骤S2包括以下分步骤:S2.1、采集基因-疾病关联数据,并计算疾病di与疾病dj之间的基因相似性为:其中,G表示基于基因的疾病关联网络,J()表示雅卡尔指数计算函数,表示疾病di的基因集合,表示疾病dj的基因集合,表示疾病di与疾病dj之间的共同基因,表示疾病di与疾病dj的基因并集;S2.2、将疾病作为网络节点和疾病间的基因相似性作为两种疾病之间的边权值,得到基于基因的疾病关联网络。进一步地,所述步骤S3包括以下分步骤:S3.1、采集疾病通路数据,并根据疾病通路数据获取疾病di与疾病dj之间基于通路k的距离Sk(di,dj)为:其中,fk(di,di)表示每个基因g与其他所有基因CG(k,di)-{g}的平均最短路径长度,CG(k,di)表示疾病di与通路k之间的共同基因集;fk(dj,dj)表示基因q与其他所有基因CG(k,dj)-{q}的平均最短路径长度,CG(k,dj)表示疾病dj与通路k之间的共同基因集;fk(di,dj)表示CG(k,di)中的节点到CG(k,dj)中节点的平均最短路径长度;S3.2、将距离Sk(di,dj)进行标准化,获取标准化距离为:其中,表示在通路k的基础上疾病di与疾病dj之间的距离最小值,表示在通路k的基础上疾病di与疾病dj之间的距离最大值;S3.3、将疾病作为网络节点,通过标准化距离计算网络节点之间的边权值为:其中,P表示基于通路的疾病关联网络,k=1,2,...,n,n表示通路的总数;S3.4、根据网络节点以及网络节点之间对应的边权值,获取基于通路的疾病关联网络。进一步地,所述步骤S4包括以下分步骤:S4.1、分别设置表型疾病网络、基于基因的疾病关联网络和基于通路的疾病关联网络的权重为ω1、ω2和ω3;S4.2、将疾病di与疾病dj之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,得到疾病di与疾病dj在复杂疾病网络中的边权值wi,j为:S4.3、将疾病作为网络节点,并通过边权值获取复杂疾病网络。进一步地,所述步骤S5中将复杂疾病网络中疾病分为低风险、中风险和高风险三部分的具体方法为:根据临床诊疗数据计算病死率,将病死率小于A的疾病分为低风险疾病,将病死率大于等于A且小于B的疾病分为中风险疾病,将病死率大于等于B的疾病分为高风险疾病。进一步地,所述步骤S6中采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径的具体方法为:S6.1、以源疾病群中疾病为起点,按照疾病进展方向搜索源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径;S6.2、以目标疾病群中疾病为起点,按照疾病进展方向反向搜索目标疾病群中各个节点到目标疾病群邻接点的最大平均权值路径;S6.3、将源疾病群到非目标疾病群节点的最大平均权值路径和目标疾病群到目标疾病群邻接点的最大平均权值路径进行连接,得到源疾病群到目标疾病群的疾病进展路径。进一步地,所述步骤S6.1包括以下分步骤:S6.1.1、以源疾病dSi为起点,按照疾病进展方向搜索源疾病dSi到非目标疾病群中疾病dm的路径;S6.1.2、根据路径,计算源疾病dSi到非目标疾病群中疾病dm的最大平均权值δ(dSi,dm)为:其中,a表示源疾病dSi到非目标疾病群中疾病节点dm的路径数,ηx(dSi,dm)表示源疾病dSi到疾病节点dm的第x条路径对应的各疾病间边权值集合,wx表示各疾病间边权值集合ηx(dSi,dm)中的边权值,lx(dSi,dm)表示源疾病dSi到疾病节点dm的第x条路径的步数,x=1,2,...,a;S6.1.3、记录源疾病dS本文档来自技高网...

【技术保护点】
1.一种基于复杂网络的疾病进展路径挖掘方法,其特征在于,包括以下步骤:/nS1、采集临床诊疗数据,并根据临床诊疗数据中疾病患病率和共病信息构建有向表型疾病网络;/nS2、采集基因-疾病关联数据,并根据基因-疾病关联数据构建基于基因的疾病关联网络;/nS3、采集疾病通路数据,并根据疾病通路数据构建基于通路的疾病关联网络;/nS4、将两两疾病之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,将边权值之和作为复杂疾病网络的边权值,构建有向的复杂疾病网络;/nS5、将复杂疾病网络中疾病分为低风险、中风险和高风险三部分,设定低风险疾病为源疾病群和高风险疾病为目标疾病群;/nS6、采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径;/nS7、计算疾病进展路径的得分,选择得分最高的疾病进展路径,得到源疾病群到目标疾病群的病情进展路径挖掘结果。/n

【技术特征摘要】
1.一种基于复杂网络的疾病进展路径挖掘方法,其特征在于,包括以下步骤:
S1、采集临床诊疗数据,并根据临床诊疗数据中疾病患病率和共病信息构建有向表型疾病网络;
S2、采集基因-疾病关联数据,并根据基因-疾病关联数据构建基于基因的疾病关联网络;
S3、采集疾病通路数据,并根据疾病通路数据构建基于通路的疾病关联网络;
S4、将两两疾病之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,将边权值之和作为复杂疾病网络的边权值,构建有向的复杂疾病网络;
S5、将复杂疾病网络中疾病分为低风险、中风险和高风险三部分,设定低风险疾病为源疾病群和高风险疾病为目标疾病群;
S6、采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径;
S7、计算疾病进展路径的得分,选择得分最高的疾病进展路径,得到源疾病群到目标疾病群的病情进展路径挖掘结果。


2.根据权利要求1所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S1包括以下分步骤:
S1.1、采集临床诊疗数据,筛选同一患者所患的全部疾病;
S1.2、根据疾病的患病率和共病信息,获取疾病di与疾病dj的相对风险RR(di,dj)为:



其中,i=1,2,...,N,j=1,2,...,N,N表示临床诊疗数据中疾病的总数,p(dj|di)表示在患疾病di的情况下患疾病dj的概率,表示在不患疾病di的情况下患疾病dj的概率;
S1.3、根据相对风险RR(di,dj),获取疾病di对疾病dj的影响参数h(di,dj)为:



S1.4、对影响参数h(di,dj)进行标准化,得到疾病di对疾病dj的影响程度值为:



其中,C表示表型疾病网络;maxC表示表型疾病网络中,所有疾病对之间影响参数的最大值;
S1.5、将疾病作为网络节点和影响程度值作为两种疾病之间的边权值,得到有向的表型疾病网络。


3.根据权利要求2所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S2包括以下分步骤:
S2.1、采集基因-疾病关联数据,并计算疾病di与疾病dj之间的基因相似性为:



其中,G表示基于基因的疾病关联网络,J()表示雅卡尔指数计算函数,表示疾病di的基因集合,表示疾病dj的基因集合,表示疾病di与疾病dj之间的共同基因,表示疾病di与疾病dj的基因并集;
S2.2、将疾病作为网络节点和疾病间的基因相似性作为两种疾病之间的边权值,得到基于基因的疾病关联网络。


4.根据权利要求3所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S3包括以下分步骤:
S3.1、采集疾病通路数据,并根据疾病通路数据获取疾病di与疾病dj之间基于通路k的距离Sk(di,dj)为:



其中,fk(di,di)表示每个基因g与其他所有基因CG(k,di)-{g}的平均最短路径长度,CG(k,di)表示疾病di与通路k之间的共同基因集;fk(dj,dj)表示基因q与其他所有基因CG(k,dj)-{q}的平均最短路径长度,CG(k,dj)表示疾病dj与通路k之间的共同基因集;fk(di,dj)表示CG(k,di)中的节点到CG(k,dj)中节点的平均最短路径长度;
S3.2、将距离Sk(di,dj)进行标准化,获取标准化距离为:



其中,表示在通路k的基础上疾病di与疾病dj之间的距离最小值,表示在通路k的基础上疾病di与疾病dj之间的距离最大值;
S3.3、将疾病作为网络节点,通过标准化距离计算网络节点之间的边权值为:



其中,P表示基于通路的疾病关联网络,k=1,2,...,n,n表示通路的总数;
S3.4、根据网络节点以及网络节点之间对应的边权值,获取基于通路的疾病关联网络。


5.根据权利要求4所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S4包括以下分步骤:
S4.1、分别设置表型疾病网络、基于基因的疾病关联网络和基于通路的疾病关联网络的权重为ω1、ω2和ω3;
S4.2、将疾病di与疾病dj之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,得到疾病di与疾病dj在复杂疾病网络中的边权值wi,j为:



S4.3、将疾病作为网络节点,...

【专利技术属性】
技术研发人员:邱航罗林王利亚胡智栩周德嘉
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1