【技术实现步骤摘要】
一种基于相似性和张量分解的微生物
‑
疾病关联关系预测方法
[0001]本专利技术涉及生物信息学
,特别涉及一种基于相似性和张量分解的微生物
‑
疾病关联关系预测方法。
技术介绍
[0002]随着多组学和高通量测序技术为代表的生物技术的发展,近来的研究表明微生物跟人类的多种存在着重要的关联关系。特别是肠道微生物(也就是我们所说的肠道菌群),在营养物质代谢、人体自身发育、免疫及疾病的产生等方面都起到极其重要的作用,研究表明其与癌症、心血管疾病、神经性疾病等多种疾病的发病直接相关。此外,有的微生物尽管没有直接影响疾病,但是疾病能够反过来影响其丰度,这些微生物能够作为此类疾病诊断的重要标志物。还有的疾病和微生物能够互相影响进而加重疾病的严重程度。由于通过生物医学实验对微生物疾病之间的关联关系的研究具有费时费力的缺点,故通过计算的方法对微生物和疾病之间的关联关系研究对快速加深对疾病致病机理的理解,提高其诊断和治疗水平有着重要的意义。
[0003]通过研究的人员的不断努力下,当前已经提出了许多计算的方法来预测微生物与疾病之间的关联关系。基于HMDAD数据库,KATZHMDA方法是第一个预测微生物
‑
疾病关联关系的计算方法,其集成了集成疾病的表征和高斯核相似性,微生物高斯核相似性。KATZHMDA是一个基于KATZ度信息的网络方法。RWHMDA也是一个集成了高斯核相似性网络和已知微生物疾病关联关系网络的基于随机游走模型的微生物疾病关联关系预测方法。GRNMFHMDA ...
【技术保护点】
【技术特征摘要】
1.一种基于相似性和张量分解的微生物
‑
疾病关联关系预测方法,其特征在于,所述预测方法包括以下步骤:步骤S1,构建疾病功能相似性矩阵D
funsim
和疾病表征相似性矩阵D
symsim
,并对所述疾病功能相似性矩阵D
funsim
和所述疾病表征相似性矩阵D
symsim
进行均值集成得到最终的疾病相似性矩阵S
d
;步骤S2,根据微生物的序列信息得到微生物的序列相似性S
m
;步骤S3,利用已知的微生物
‑
疾病关联关系和关联类型构建一个微生物疾病关联的三维二进制关联矩阵;步骤S4,利用微生物相似性、疾病相似性和微生物疾病关联的三维二进制关联矩阵采用张量分解的模型对微生物
‑
疾病的深层次关联关系进行预测。2.根据权利要求1所述的预测方法,其特征在于,步骤S1中,计算疾病之间的功能相似性时,对于任意两种疾病d
i
和d
j
,其功能相似性D
funsim
(i,j)计算公式如下:其中,G
i
={g
i1
,g
i2
,......,g
iM
}和G
j
={g
j1
,g
j2
,......,g
jN
}分别表示疾病d
i
和d
j
相关联的基因集合,M和N分别为基因集合G
i
和G
j
中的基因数目;和分别表示单个基因与基因集合之间的功能相似性值。3.根据权利要求2所述的预测方法,其特征在于,步骤S1中,计算疾病表征相似性时,对于任意两种疾病d
i
和d
j
,其表征相似性计算公式如下:其中,w
i,l
和w
j,l
分别表示疾病d
i
和d
j
与表征f
l
之间的权重,其具体值的范围为0到1,w
i,l
的具体计算公式如下:其中,W
il
用于表示疾病d
i
是否存在表征f
l
,如果存在则为1,否则为0,N
d
和n
l
分别代表总的疾病和存在表征f
l
的疾病数量。4.根据权利要求3所述的预测方法,其特征在于,步骤S1中,计算最终的疾病相似性矩阵S
d
的公式如下:5.根据权利要求1所述的预测方法,其特征在于,步骤S2中,微生物的序列相似性矩阵S
m
的计算过程为:S21,从RefSeq数据库获取到微生物对应的序列信息,基于微生物序列的k
‑
mer频率来计算微生物之间的相似性,对于微生物m
i
和m
j
,其序列相似性的具体计算公式如下:
其中,为微生物m
i
和m
j
的基于序列元组统计比较的分数;S22,的具体计算公式为:其中,ω=ω1ω2ω3......ω
k
代表k
‑
mer序列信息,其中的每一个元素都来源于集合Ω={A,T,C,G},Ω
k
代表所有k
‑<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。