一种基于相似性和张量分解的微生物-疾病关联关系预测方法技术

技术编号:33708761 阅读:18 留言:0更新日期:2022-06-06 08:37
本发明专利技术公开了一种基于相似性和张量分解的微生物

【技术实现步骤摘要】
一种基于相似性和张量分解的微生物

疾病关联关系预测方法


[0001]本专利技术涉及生物信息学
,特别涉及一种基于相似性和张量分解的微生物

疾病关联关系预测方法。

技术介绍

[0002]随着多组学和高通量测序技术为代表的生物技术的发展,近来的研究表明微生物跟人类的多种存在着重要的关联关系。特别是肠道微生物(也就是我们所说的肠道菌群),在营养物质代谢、人体自身发育、免疫及疾病的产生等方面都起到极其重要的作用,研究表明其与癌症、心血管疾病、神经性疾病等多种疾病的发病直接相关。此外,有的微生物尽管没有直接影响疾病,但是疾病能够反过来影响其丰度,这些微生物能够作为此类疾病诊断的重要标志物。还有的疾病和微生物能够互相影响进而加重疾病的严重程度。由于通过生物医学实验对微生物疾病之间的关联关系的研究具有费时费力的缺点,故通过计算的方法对微生物和疾病之间的关联关系研究对快速加深对疾病致病机理的理解,提高其诊断和治疗水平有着重要的意义。
[0003]通过研究的人员的不断努力下,当前已经提出了许多计算的方法来预测微生物与疾病之间的关联关系。基于HMDAD数据库,KATZHMDA方法是第一个预测微生物

疾病关联关系的计算方法,其集成了集成疾病的表征和高斯核相似性,微生物高斯核相似性。KATZHMDA是一个基于KATZ度信息的网络方法。RWHMDA也是一个集成了高斯核相似性网络和已知微生物疾病关联关系网络的基于随机游走模型的微生物疾病关联关系预测方法。GRNMFHMDA为一个基于非负矩阵分解的微生物疾病关联关系预测模型,其利用的信息包括疾病的表征相似性以及微生物的高斯核相似性。值得注意的是这个方法增加了初始化处理过程进一步提高了预测的精度。此外,MCHMDA也是一个基于矩阵填充的微生物疾病关联关系预测方法,其利用了疾病的表征、表征相似性和微生物的高斯核相似性,并且进一步集成了微生物的寄生组织信息来提高计算方法的预测性能。
[0004]然而,当前的这些都集中在微生物和疾病之间是否存在关联关系上,而对其关联类型则没有涉及。而在生物学和医学上,除了识别疾病和微生物是否存在关联关系外,对深层次的关联类型的确认也是非常重要的。比如微生物Staphylococcus aureus与疾病Guttate psoriasis中的关联关系是(increase)的,而微生物Bifidobacterium catenulatum在疾病Irritable bowel syndrome(IBS)中是下调(Decrease)的。不同微生物与疾病的关联类型对疾病的诊断和后续治疗药物的开发有着重要的基础参考作用,能够根据其制定不同的诊断和治疗机制。所以,当前对微生物

疾病关联关系的理解还是有待于更进一步加深,为了更加系统的理解疾病的致病机理、提高其诊断和治疗效率,迫切需要提出更加深层次计算方法来预测微生物疾病的关联类型。

技术实现思路

[0005]本专利技术要解决的技术问题是:针对当前通过计算模型对微生物

疾病关系进行预测集中在是否存在关联关系,而对关联类型预测关注不足的问题,提出了一种基于相似性和张量分解的计算方法来预测微生物疾病关联关系。该方法集成疾病表征相似性和功能相似性的均值来得到最终的疾病相似性网络,微生物相似性在通过微生物的序列基于k

mer来计算。本专利技术能够充分利用微生物和疾病相关生物信息,较准确的预测微生物

疾病之间的关联类型,为后续提高疾病的诊断和治疗效率相关的生物医学实验提供基础的指导作用。为了解决上述问题,其技术方案如下:
[0006]本专利技术的一种基于相似性和张量分解的微生物

疾病关联关系预测方法,所述预测方法包括以下步骤:
[0007]步骤S1,构建疾病功能相似性矩阵D
funsim
和疾病表征相似性矩阵D
symsim
,并对所述疾病功能相似性矩阵D
funsim
和所述疾病表征相似性矩阵D
symsim
进行均值集成得到最终的疾病相似性矩阵S
d

[0008]步骤S2,根据微生物的序列信息得到微生物的序列相似性S
m

[0009]步骤S3,利用已知的微生物

疾病关联关系和关联类型构建一个微生物疾病关联的三维二进制关联矩阵;
[0010]步骤S4,利用微生物相似性、疾病相似性和微生物疾病关联的三维二进制关联矩阵采用张量分解的模型对微生物

疾病的深层次关联关系进行预测。
[0011]进一步地,步骤S1中,计算疾病之间的功能相似性时,对于任意两种疾病d
i
和d
j
,其功能相似性D
funsim
(i,j)计算公式如下:
[0012][0013]其中,G
i
={g
i1
,g
i2
,......,g
iM
}和G
j
={g
j1
,g
j2
,......,g
jN
}分别表示疾病d
i
和d
j
相关联的基因集合,M和N分别为基因集合G
i
和G
j
中的基因数目;和分别表示单个基因与基因集合之间的功能相似性值。基因与基因集合之间的功能相似性值依据集合中的所有基因与这个基因的最大值来定义;另外,在HumanNet数据库中基于对数似然函数提供了具体的基因之间的功能相似性值。
[0014]进一步地,步骤S1中,计算疾病表征相似性时,对于任意两种疾病d
i
和d
j
,其表征相似性计算公式如下:
[0015][0016]其中,w
i,l
和w
j,l
分别表示疾病d
i
和d
j
与表征f
l
之间的权重,其具体值的范围为0到1,w
i,l
的具体计算公式如下:
[0017][0018]其中,W
il
用于表示疾病d
i
是否存在表征f
l
,如果存在则为1,否则为0,N
d
和n
l
分别代表总的疾病和存在表征f
l
的疾病数量。
[0019]进一步地,步骤S1中,计算最终的疾病相似性矩阵S
d
的公式如下:
[0020][0021]进一步地,步骤S2中,微生物的序列相似性矩阵S
m
的计算过程为:
[0022]S21,从RefSeq数据库获取到微生物对应的序列信息,基于微生物序列的k

mer频率来计算微生物之间的相似性,对于微生物m
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于相似性和张量分解的微生物

疾病关联关系预测方法,其特征在于,所述预测方法包括以下步骤:步骤S1,构建疾病功能相似性矩阵D
funsim
和疾病表征相似性矩阵D
symsim
,并对所述疾病功能相似性矩阵D
funsim
和所述疾病表征相似性矩阵D
symsim
进行均值集成得到最终的疾病相似性矩阵S
d
;步骤S2,根据微生物的序列信息得到微生物的序列相似性S
m
;步骤S3,利用已知的微生物

疾病关联关系和关联类型构建一个微生物疾病关联的三维二进制关联矩阵;步骤S4,利用微生物相似性、疾病相似性和微生物疾病关联的三维二进制关联矩阵采用张量分解的模型对微生物

疾病的深层次关联关系进行预测。2.根据权利要求1所述的预测方法,其特征在于,步骤S1中,计算疾病之间的功能相似性时,对于任意两种疾病d
i
和d
j
,其功能相似性D
funsim
(i,j)计算公式如下:其中,G
i
={g
i1
,g
i2
,......,g
iM
}和G
j
={g
j1
,g
j2
,......,g
jN
}分别表示疾病d
i
和d
j
相关联的基因集合,M和N分别为基因集合G
i
和G
j
中的基因数目;和分别表示单个基因与基因集合之间的功能相似性值。3.根据权利要求2所述的预测方法,其特征在于,步骤S1中,计算疾病表征相似性时,对于任意两种疾病d
i
和d
j
,其表征相似性计算公式如下:其中,w
i,l
和w
j,l
分别表示疾病d
i
和d
j
与表征f
l
之间的权重,其具体值的范围为0到1,w
i,l
的具体计算公式如下:其中,W
il
用于表示疾病d
i
是否存在表征f
l
,如果存在则为1,否则为0,N
d
和n
l
分别代表总的疾病和存在表征f
l
的疾病数量。4.根据权利要求3所述的预测方法,其特征在于,步骤S1中,计算最终的疾病相似性矩阵S
d
的公式如下:5.根据权利要求1所述的预测方法,其特征在于,步骤S2中,微生物的序列相似性矩阵S
m
的计算过程为:S21,从RefSeq数据库获取到微生物对应的序列信息,基于微生物序列的k

mer频率来计算微生物之间的相似性,对于微生物m
i
和m
j
,其序列相似性的具体计算公式如下:
其中,为微生物m
i
和m
j
的基于序列元组统计比较的分数;S22,的具体计算公式为:其中,ω=ω1ω2ω3......ω
k
代表k

mer序列信息,其中的每一个元素都来源于集合Ω={A,T,C,G},Ω
k
代表所有k
‑<...

【专利技术属性】
技术研发人员:严承黄辛迪刘佳俊
申请(专利权)人:湖南中医药大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1