一种基于基因调控网络构建患者生存网络的方法技术

技术编号:39580348 阅读:11 留言:0更新日期:2023-12-03 19:31
本发明专利技术公开了一种基于基因调控网络构建患者生存网络的方法,其步骤包括:

【技术实现步骤摘要】
一种基于基因调控网络构建患者生存网络的方法


[0001]本专利技术属于分子生物学

系统生物学领域,涉及一种基于基因调控网络构建患者生存网络的方法


技术介绍

[0002]在复杂疾病研究中,生存分析被广泛用于鉴定与患者生存和预后相关的疾病标志物,进而指导疾病筛查

早期诊断和个体化医疗决策

传统生存分析主要分为两步:首先根据特定基因的表达水平对患者排序;然后利用对数秩检验评估排名首尾
1/2(

1/4)
的患者的生存时间是否存在显著差异

与患者生存显著相关的基因被称为癌症生存基因,它们往往与癌症发展和预后密切相关

然而
,
传统生存分析存在两个局限:
[0003]1)
利用基因表达水平难以对患者进行准确且稳定的排序

首先,显著的个体差异性导致基因在不同患者体内的表达水平缺乏可比性;此外,复杂的体内和体外因素导致单基因的表达水平缺乏稳定性

[0004]2)
基于表达水平难以发现生存相关的调控子
(
转录因子和小
RNA)。
首先,很多调控子
(
特别是
miRNA)
在肿瘤组织中的表达水平很低,这导致我们难以对它们准确定量并基于它们的表达水平给病人排序;此外,很多调控子通过表达水平变化以外的方式
(
例如蛋白质结构和微环境
)
影响靶基因表达,进而影响癌症进展

[0005]基因并非独立发挥功能,而是在复杂的基因调控网络
(Gene Regulatory Network,GRN)
中相互作用

相互协同
。GRN
的边代表各种各样的相互作用和功能关联,例如物理相互作用
(DNA

DNA
相互作用

蛋白质

DNA
相互作用

蛋白质

蛋白质相互作用
)、
遗传相互作用
(
两个或多个基因关联同一性状
)、
参与同一生物过程或信号通路等

与基因表达水平相比,
GRN
具备以下优势:
[0006]1)GRN
反映了基因在多个患者中稳定的功能关联和调控架构,受个体差异的影响较小;
[0007]2)
相比单基因表达水平,多基因组成的网络具有更高的数据维度,降低了结果的随机性;
[0008]3)
基于
GRN
我们可以忽略调控子的表达水平,而是借助调控子的靶基因逆向推测它与患者生存的关系

[0009]综上,我们相信基于
GRN
开展生存分析能有效解决传统生存分析的局限,显著拓展癌症预后标志物的发现


技术实现思路

[0010]针对现有生存分析方法中存在的技术问题,本专利技术的目的在于提供一种基于基因调控网络构建生存网络的方法

本专利技术赋予了
GRN
节点一个新的属性,称为共表达稳定性
(co

expression stability)。
我们知道,
GRN
中相互连接的基因往往具有相似的表达模式
(
表达量在多个样本中同高同低
)
,这种现象称为共表达

共表达的基因往往功能相关或参
与同一生物过程

基于这一特点,某个基因在
GRN
中的共表达稳定性表示该基因与它的所有邻接基因的表达量差异
(
基于
Z

Score
标准化保证不同基因表达量的可比性
)。
表达差异越小,该基因的共表达稳定性越高,此时它与邻接基因组成的功能模块正常运转;表达差异越大,该基因的共表达稳定性越低,此时它与邻接基因组成的功能模块失调

综上,基因的共表达稳定性与它的功能稳定性密切相关,当一个基因在不同患者体内的共表达稳定性与患者的生存时间显著相关时,该基因被认为在癌症进展中扮演重要角色

[0011]基于上述原理,我们建立了基于
GRN
的生存分析策略

该方法以癌症患者的基因表达数据
(
微阵列数据
、RNA
测序数据

蛋白质质谱数据
)
和生存信息
(
获取生存信息的手段包括医疗档案和追踪调查等,一些大规模癌症研究项目如
TCGA
也提供了患者的生存信息
)
作为输入

主要分析步骤包括
GRN
构建

共表达稳定性评估

患者排序

以及生存差异评估等

[0012]步骤
1)
利用实验手段或直接从公共数据库中获取基因表达数据
(
又称基因表达矩阵,矩阵的行表示所有基因,矩阵的列表示所有患者,矩阵的值表示基因在特定患者中的表达水平,包括转录出的
RNA
水平或翻译出的蛋白质水平
)。
实验手段包括基于高通量测序技术检测生物样本中的
RNA
水平,或基于质谱技术检测生物样本中的蛋白质水平;公共数据库包括
Gene Expression Omnibus(GEO)、The Cancer Genome Atlas Program(TCGA)

ArrayExpress


[0013]步骤
2)
基于基因表达矩阵构建
GRN。
现有的
GRN
推断方法主要包括聚类算法
(
层次聚类

图聚类等
)、
机器学习算法
(
贝叶斯算法

随机森林等
)
和深度学习算法
(
卷积神经网络

迁移学习等
)。
[0014]步骤
3)
利用实验手段或相互作用数据库优化
GRN。
目的是删除可信度较低的边,只保留经过实验验证或公共数据库收录的相互作用,从而保证后续分析的准确度

可用于优化
GRN
的实验手段包括:基于免疫共沉淀预测转录因子

靶基因相互作用,基于酵母双杂交

近距离荧光共振

表面等离子体共振

质本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于基因调控网络构建患者生存网络的方法,其步骤包括:
1)
获取基因表达矩阵,所述基因表达矩阵的行为基因,所述基因表达矩阵的列为目标癌症患者样本,所述基因表达矩阵中第
m
行第
n
列的元素值表示第
m
个基因在第
n
个目标癌症患者中的表达水平;获取每一所述目标癌症患者样本对应的患者生存信息;
2)
基于所述基因表达矩阵构建基因调控网络;
3)
对于所述基因调控网络中的每一条边,如果该边的可信度低于设定阈值,则删除该边;
4)
评估步骤
3)
优化后的基因调控网络中每个基因在每一目标癌症患者样本中的共表达稳定性;
5)
对于所述基因表达矩阵中的每一基因,基于该基因在各目标癌症患者样本中的共表达稳定性对各目标癌症患者样本排序,取共表达稳定性排名前
T
%的目标癌症患者样本的生存信息作为第一组信息,取共表达稳定性排名后
T
%的目标癌症患者样本的生存信息作为第二组信息;基于第一

二组信息进行生存分析得到该基因的对数秩检验值
P
;然后基于该基因的对数秩检验值
P
判定该基因对该排名前
T
%的目标癌症患者样本


T
%的目标癌症患者样本中各目标癌症患者的生存时间是否具有统计学差异;如果具有统计学差异,则保留该基因;
6)
根据步骤
5)
中所保留的基因及所述基因调控网络中连接各所保留基因的边和基因,构建目标癌症的生存网络
。2.
根据权利要求1所述的方法,其特征在于,得到每个基因在各目标癌症患者样本中的共表达稳定性的方法为:首先获取基因调控网络中每个基因的邻接基因;然后获取每一所述邻接基因在所述基因表达矩阵中所有患者的表达水平并对其进行
Z

Score
标准化;然后基于每个基因的
Z

Score
标准化的邻接基因评估该基因在各目标癌症患者样本中的共表达稳定性
。3.
根据权利要求1所述的方法,其特征在于,得到每个基因在各目标癌症患者样本中的共表达稳定性的方法为:对于所述基因表达矩阵中的每一基因
g0,从基因调控网络中获取该基因
g0的
M
个邻接基因
{g1,

,g
M
}
...

【专利技术属性】
技术研发人员:朱云平韩明飞陈洨清陈涛徐小放
申请(专利权)人:中国人民解放军军事科学院军事医学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1