当前位置: 首页 > 专利查询>中南大学专利>正文

基于多尺度模块核的致病基因识别方法及系统技术方案

技术编号:32834111 阅读:24 留言:0更新日期:2022-03-26 20:51
本公开实施例中提供了一种基于多尺度模块核的致病基因识别方法及系统,属于生物信息学技术领域,具体包括:通过指数抽样的多尺度模块度优化算法从综合的蛋白质相互作用组提取网络多尺度模块,得到标准化多尺度模块谱;根据标准化多尺度模块谱构建多尺度模块核矩阵并进行核稀疏;提取两个预测列表;融合两个预测列表得到基因概率列表,并根据基因概率列表预测疾病的致病基因。通过本公开的方案,提取多尺度模块谱并标准化,有效融合不同层次、特异性的网络模块结构信息后进行稀疏化,提供了新的基因

【技术实现步骤摘要】
基于多尺度模块核的致病基因识别方法及系统


[0001]本公开实施例涉及生物信息学
,尤其涉及一种基于多尺度模块核的致病基因识别方法及系统。

技术介绍

[0002]目前,疾病相关基因的鉴定对于人类复杂疾病的研究非常重要,这是理解疾病分子机制的基础。传统方法存在候选空间大且候选基因的实验鉴定既昂贵又耗时等问题。因此,疾病致病基因预测方法的开发成为计算生物学的一个重要课题,它对复杂疾病的研究有着重要的促进作用。
[0003]已经提出了许多计算方法来预测疾病相关基因,而基于网络的方法是疾病基因预测中最流行的策略之一。通过候选基因和种子基因(即已知与特定疾病相关的基因)之间的直接相互作用、网络距离或接近度来预测疾病相关基因是一种自然而有效的策略。带重启的随机行走等网络传播方法可以更有效地探索生物网络中种子周围的邻域拓扑,因此已被广泛应用于疾病基因预测以及相关问题,并且还被扩展到更复杂的网络模型,如同质或异构网络中的多图模型、多网络模型和多重网络模型。这些模型可以集成多种类型的生物网络。然而,由于生物网络中的数据噪声等问题,这些方法仍有进一步的改进空间。
[0004]生物分子网络中模块结构分析可以为人类复杂疾病的研究提供有用的见解。多尺度模块结构(MMS)广泛存在于生物分子网络中。这些生物分子网络由子网络组成,而子网络可以在深层的层次结构中逐渐分解为更小的子网络。例如,一些复合物可能由多个次级复合物组成,基因功能注释的层次结构也意味着存在多个尺度上的功能模块。MMS可以为疾病研究提供从局部到全局的更丰富的信息,但是如何挖掘隐藏在MMS中的有价值的信息仍然是疾病基因预测的一个具有挑战性的课题。
[0005]可见,亟需一种高效精准的基于多尺度模块核的致病基因识别方法。

技术实现思路

[0006]有鉴于此,本公开实施例提供一种基于多尺度模块核的致病基因识别方法及系统,至少部分解决现有技术中存在致病基因识别效率和识别精准度较差的问题。
[0007]第一方面,本公开实施例提供了一种基于多尺度模块核的致病基因识别方法,包括:
[0008]通过指数抽样的多尺度模块度优化算法从综合的蛋白质相互作用组提取网络多尺度模块,构建包含网络局部信息和全局信息的初始多尺度模块谱,并采用特征信息量方法对其进行权重化处理,得到标准化多尺度模块谱;
[0009]根据所述标准化多尺度模块谱构建多尺度模块核矩阵并进行核稀疏,得到稀疏矩阵;
[0010]根据所述蛋白质相互作用组、疾病

疾病关联和疾病

基因关联,以及,根据所述稀疏矩阵、所述疾病

疾病关联和所述疾病

基因关联,分别构建两个概率矩阵,并通过游走动
力学过程从两个所述概率矩阵中提取两个预测列表;
[0011]通过基于节点排位聚合的概率模型融合两个所述预测列表,得到基因概率列表,并根据所述基因概率列表预测疾病的致病基因。
[0012]根据本公开实施例的一种具体实现方式,所述网络多尺度模块的公式为其中,e
ss
表示模块s内的边比例,a
s
表示在随机模型中模块s内的边比例,γ为分辨率参数,通过指数抽样方式获得对应不同尺度的γ分辨率参数值;
[0013]所述标准化多尺度模块谱:B=(B
(1)
,B
(2)
,

,B
(h)
,

),其中,B
(h)
是每个尺度的模块划分矩阵,该矩阵的元素表示基因i是否属于模块s;
[0014]所述权重化处理的公式为其中,对角矩阵D
IC
的对角元素(D
IC
)
ss


log(∑0I(B
is
)/N),I(x)表示计数函数,N表示节点数目。
[0015]根据本公开实施例的一种具体实现方式,所述根据所述标准化多尺度模块谱构建多尺度模块核矩阵并进行核稀疏,得到稀疏矩阵的步骤,包括:
[0016]将所述标准化多尺度模块谱作为节点特征谱并通过所述节点特征谱向量内积计算得到所述多尺度模块核矩阵;
[0017]通过节点度相关的标准化方法对所述多尺度模块核矩阵内的元素进行标准化,使其元素值约束至0和1之间,得到标准化模块核矩阵;
[0018]保留所述标准化模块核矩阵中每个节点对应的预设数量的相似邻居节点,将所述标准化的模块核矩阵进行核稀疏,得到所述稀疏矩阵。
[0019]根据本公开实施例的一种具体实现方式,所述保留所述标准化模块核矩阵中每个节点对应的预设数量的相似邻居节点,将所述标准化模块核矩阵进行核稀疏,得到所述稀疏矩阵的步骤,包括:
[0020]计算所述标准化模块核矩阵中每个所述节点与其邻居节点之间的相似度分值的降序排位值,得到每个所述节点的排位向量;
[0021]将全部所述节点的排位向量组合,形成排位矩阵;
[0022]根据所述排位矩阵计算新的基因网络;
[0023]根据所述基因网络得到所述稀疏矩阵。
[0024]根据本公开实施例的一种具体实现方式,所述根据所述蛋白质相互作用组、疾病

疾病关联和疾病

基因关联,以及,根据所述稀疏矩阵、所述疾病

疾病关联和所述疾病

基因关联,分别构建两个概率矩阵,并通过游走动力学过程从两个所述概率矩阵中提取两个预测列表的步骤,包括:
[0025]根据所述蛋白质相互作用组、疾病

疾病关联和疾病

基因关联建立第一概率矩阵,以及,根据所述稀疏矩阵、所述疾病

疾病关联和所述疾病

基因关联建立第二概率矩阵;
[0026]将所述第一概率矩阵归一化得到第一概率转移矩阵,以及,将所述第二概率矩阵归一化得到第二概率转移矩阵;
[0027]根据所述游走动力学过程分别生成所述第一概率转移矩阵和所述第二概率转移矩阵对应的预测分值形成两个所述预测列表。
[0028]根据本公开实施例的一种具体实现方式,所述通过基于节点排位聚合的概率模型融合两个所述预测列表,得到基因概率列表,并根据所述基因概率列表预测疾病的致病基因的步骤,包括:
[0029]对两个所述预测列表进行降序排列,得到两个排位列表;
[0030]通过所述概率模型融合两个所述排位列表,得到所述基因概率列表;
[0031]将所述基因概率列表进行降序排列并根据排序结果预测疾病的致病基因。
[0032]第二方面,本公开实施例提供了一种基于多尺度模块核的致病基因识别系统,包括:
[0033]提取模块,用于通过指数抽样的多尺度模块度优化算法从综合的蛋白质相互作用组提取网络多尺度模块,构建包含网络局部信息和全局信息的初始多尺度模块谱,并采用特征信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度模块核的致病基因识别方法,其特征在于,包括:通过指数抽样的多尺度模块度优化算法从综合的蛋白质相互作用组提取网络多尺度模块,构建包含网络局部信息和全局信息的初始多尺度模块谱,并采用特征信息量方法对其进行权重化处理,得到标准化多尺度模块谱;根据所述标准化多尺度模块谱构建多尺度模块核矩阵并进行核稀疏,得到稀疏矩阵;根据所述蛋白质相互作用组、疾病

疾病关联和疾病

基因关联,以及,根据所述稀疏矩阵、所述疾病

疾病关联和所述疾病

基因关联,分别构建两个概率矩阵,并通过游走动力学过程从两个所述概率矩阵中提取两个预测列表;通过基于节点排位聚合的概率模型融合两个所述预测列表,得到基因概率列表,并根据所述基因概率列表预测疾病的致病基因。2.根据权利要求1所述的方法,其特征在于,所述网络多尺度模块的公式为其中,e
ss
表示模块s内的边比例,a
s
表示在随机模型中模块s内的边比例,γ为分辨率参数,通过指数抽样方式获得对应不同尺度的γ分辨率参数值;所述标准化多尺度模块谱:B=(B
(1)
,B
(2)
,...,B
(h)
,...),其中,B
(h)
是每个尺度的模块划分矩阵,该矩阵的元素表示基因i是否属于模块s;所述权重化处理的公式为其中,对角矩阵D
IC
的对角元素(D
IC
)
ss


log(∑
i
I(B
is
)/N),I(x)表示计数函数,N表示节点数目。3.根据权利要求1所述的方法,其特征在于,所述根据所述标准化多尺度模块谱构建多尺度模块核矩阵并进行核稀疏,得到稀疏矩阵的步骤,包括:将所述标准化多尺度模块谱作为节点特征谱并通过所述节点特征谱向量内积计算得到所述多尺度模块核矩阵;通过节点度相关的标准化方法对所述多尺度模块核矩阵内的元素进行标准化,使其元素值约束至0和1之间,得到标准化模块核矩阵;保留所述标准化模块核矩阵中每个节点对应的预设数量的相似邻居节点,将所述标准化的模块核矩阵进行核稀疏,得到所述稀疏矩阵。4.根据权利要求3所述的方法,其特征在于,所述保留所述标准化模块核矩阵中每个节点对应的预设数量的相似邻居节点,将所述标准化模块核矩阵进行核稀疏,得到所述稀疏矩阵的步骤,包括:计算所述...

【专利技术属性】
技术研发人员:李敏项炬
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1