识别调控网络中核心调控因子的方法、系统及计算机介质技术方案

技术编号:33086080 阅读:61 留言:0更新日期:2022-04-15 10:49
本发明专利技术属于核心调控因子识别技术领域,具体公开了一种识别调控网络中核心调控因子的方法、系统及计算机介质,该方法通过分子调控网络,基于基因组的变异或非特异性的修饰调控,得到调控网络节点受到的自扰动,基于特异性的修饰调控关系,得到调控网络节点受到的外部扰动编码,根据自扰动和外部扰动编码,计算扰动分数,设置阈值,将扰动分数与阈值对比,根据对比结果,判断调控网络节点是否为核心调控因子。采用本技术方案,将一个节点受到的调控作用分解为自扰动和外部扰动,实现精准识别调控网络中的核心调控因子。控网络中的核心调控因子。控网络中的核心调控因子。

【技术实现步骤摘要】
识别调控网络中核心调控因子的方法、系统及计算机介质


[0001]本专利技术属于核心调控因子识别
,涉及一种识别调控网络中核心调控因子的方法、系统及计算机介质。

技术介绍

[0002]肿瘤是世界上严重危害人类健康的主要三大疾病之一,也是危害中国居民健康的疾病之一,其每年发病数和死亡数分别约占全球的23.7%和30%。GLOBOCAN2020数据库显示,2020年全球新发癌症1929万例,995万例癌症患者死亡。在过去的10余年里,恶性肿瘤生存率呈现逐渐上升趋势,目前我国恶性肿瘤的5年相对生存率约为40.5%。因此开展恶性肿瘤的研究已成为医学研究的热点问题,而恶性肿瘤基础研究的根本任务是阐明肿瘤发生发展的分子调控机制。
[0003]在过去的十年中,高通量检测技术(以往通过sanger测序只能同时检测一条或几条序列,高通量检测技术通过微型阵列,利用分子杂交的精确配对原理并利用专业荧光检测软件,对阵列上的各个预设的数以百万计的待检测序列进行检测,达到同时检测大量基因组兴趣序列的目的)的快速发展,再加上上万名患者的高质量的癌症基因组数据的产生及应用,严格的统计工具,以及大量比较完善的患者临床及随访信息记录,能够从多个角度去研究癌症这种复杂疾病。
[0004]近年来从多组学角度探究肿瘤发生发展机制已经成为一个热点领域,并且在肿瘤早期突变标志的识别,泛肿瘤分子亚型的识别与鉴定,肿瘤化疗药物耐受机制的研究,肿瘤表观基因组标志性变化的识别,各组学水平肿瘤预后标志物的识别等方面都取得了显著成果。随着识别与癌症相关的多组学水平变化的能力增加,学界已经达成了一些认识,从而形成了阐明疾病原因的方法。首先,到目前为止已经确定基因水平的变异通常只解释了肿瘤进展机制中的一小部分。其次,肿瘤相关基因的表达水平变化也受到DNA甲基化水平(一种DNA双螺旋结构分子上的化学修饰,这些分子末端由其他化学基团通过相应的酶转换为甲基CH3,会使得调控转录的基因与该段甲基化水平高的DNA结合效率变低,起到调控基因转录的作用)的影响,而同一基因座的甲基化水平在不同性别,不同年龄本身具有差异。第三,转录组水平的差异表达往往是不同分子多级调控的结果,这取决于肿瘤进展的阶段。综合起来,这些认识为肿瘤个性化治疗提供了理论基础,这些方法技术涉及整合不同的组学数据类型,以确定特定阶段的与肿瘤相关的分子调控网络及其机制。
[0005]由于肿瘤复杂的多级多重调控特征,多组学数据是探索肿瘤分子调控机制的关键。生命系统趋于动态平衡,分子调控网络也是如此。肿瘤发生和肿瘤进展是正常分子调控网络稳定性(即过度扰动)被破坏的结果。核心调节因子(是指调控一个表型的关键基因,就像酪氨酸酶于白化病,酪氨酸酶缺失将直接导致白化病)是特定表型调节网络的关键节点,识别核心调控因子(复杂疾病不像单基因病,表型由一个复杂的调控网络控制,而调控网络中又存在更关键的几个基因)将为进一步研究肿瘤微环境机制和开发新的治疗靶点和治疗组合铺平道路。然而,目前精准识别这些因子的能力尚不足。虽然已经开发了一系列算法用
于识别调控网络中的核心调控因子,如cytohubba和MCODE等,但是这些方法都主要是基于度(degree)大小等进行判定,这些算法在确定核心调控因子的大致范围这一任务上尚可,然而在特定细胞状态,病理状态,及基因组状态(基因组变异是癌症的标志)下精准判断分子调控网络的核心调控因子时就表现乏力,因此急需开发新的算法用于精准识别分子调控网络中的核心调控因子。

技术实现思路

[0006]本专利技术的目的在于提供一种识别调控网络中核心调控因子的方法、系统及计算机介质,实现精准识别调控网络中的核心调控因子。
[0007]为了达到上述目的,本专利技术的基础方案为:一种基于多组学数据精准识别调控网络中核心调控因子的方法,包括如下步骤:
[0008]获取分子调控网络;
[0009]基于基因组的变异或非特异性的修饰调控,得到调控网络节点受到的自扰动;
[0010]基于特异性的修饰调控关系,得到调控网络节点受到的外部扰动编码;
[0011]根据自扰动和外部扰动编码,计算扰动分数;
[0012]设置阈值,将扰动分数与阈值对比,根据对比结果,判断调控网络节点是否为核心调控因子。
[0013]本基础方案的工作原理和有益效果在于:利用分子与分子在特定病理或细胞状态下的表达水平相关性,衡量不同分子对同一下游分子的影响权重,全面检测节点的基因组突变、拷贝数变异及表观基因组的变化衡量节点自扰动的有无及大小,将一个节点受到的调控作用分解为自扰动和外部扰动(上游信号),并且各个上游信号对节点的调控作用是加权的,优化识别核心调控因子的精确度。
[0014]可将该方法应用到不同的疾病研究中识别该疾病中某特定表型的核心调控因子,可大大提高研究效率。对于药物开发,可以将本方法识别到的核心因子经过体外体内实验验证后,用于开发靶向药物。相比非本方法的其他潜在靶点,本方法提供的核心因子是全局考虑整个调控网络的大量补偿分子机制的前提下识别到的,具有理论上更小的耐药性。可大大降低二次研发的经济和人力成本。
[0015]进一步,基于节点标准和边缘标准,获取分子调控网络的方法如下:
[0016]将细胞分数估计值分类并归入三分位数,为低、中、高,若集群内超过66%的样本被归类为“中”或“高”,则节点将保留给一个节点集;若两个连接节点的一致性分数大于一致性分数分布的P25,则保留边,得到边集,调控网络由其节点集和边集共同组成;
[0017]下游促进作用的一致性分数计算如下:
[0018][0019]下游抑制作用的一致性分数计算如下:
[0020][0021]其中,n
low,low
是节点1低和节点2低的样本数;n
low,high
是节点1为低,节点2为高的样本数量;n
high,high
是节点1高和节点2高的样本数;n
high,low
是节点1高和节点2低的样本数。
[0022]操作简单,利于使用。
[0023]进一步,得到调控网络节点受到的外部扰动编码的方法如下:
[0024]设节点i的第k次扰动事件编码为:
[0025][0026]计算结构简单,便于使用。
[0027]进一步,判断调控网络节点是否为核心调控因子的方法如下:
[0028]对于节点V(G)>1和边E(G)>0的加权图G(V,E),样本空间Ω是通过随机采样Kp次,设节点i的加权扰动分数是PS
ran
(i),i∈Ω,给定一个节点j∈V(G),如果加权得分PS
obs
(i)满足:
[0029][0030]当P<0.05,则节点j在加权图G(V,E)中为核心调控因子。
[0031]对不同调控因素的作用进行加权,更贴切拟合了真实调控网络,提升识别精度。
[0032]进一步,与正常样本相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多组学数据精准识别调控网络中核心调控因子的方法,其特征在于,包括如下步骤:获取分子调控网络;基于基因组的变异或非特异性的修饰调控,得到调控网络节点受到的自扰动;基于特异性的修饰调控关系,得到调控网络节点受到的外部扰动编码;根据自扰动和外部扰动编码,计算扰动分数;设置阈值,将扰动分数与阈值对比,根据对比结果,判断调控网络节点是否为核心调控因子。2.如权利要求1所述的基于多组学数据精准识别调控网络中核心调控因子的方法,其特征在于,基于节点标准和边缘标准,获取分子调控网络的方法如下:将细胞分数估计值分类并归入三分位数,为低、中、高,若集群内超过66%的样本被归类为“中”或“高”,则节点将保留给一个节点集;若两个连接节点的一致性分数大于一致性分数分布的P25,则保留边,得到边集,调控网络由其节点集和边集共同组成;下游促进作用的一致性分数计算如下:下游抑制作用的一致性分数计算如下:其中,n
low,low
是节点1低和节点2低的样本数;n
low,high
是节点1为低,节点2为高的样本数量;n
high,high
是节点1高和节点2高的样本数;n
high,low
是节点1高和节点2低的样本数。3.如权利要求1所述的基于多组学数据精准识别调控网络中核心调控因子的方法,其特征在于,得到调控网络节点受到的外部扰动编码的方法如下:设节点i的第k次扰动事件编码为:4.如权利要求1所述的基于多组学数据精准识别调控网络中核心调控因子的方法,其特征在于,判断调控网络节点是否为核心调控因子的方法如下:对于节点V(G)>1和边E(G)>0的加权图G(V,E),样本空间Ω是通过从V(G)有放回随机...

【专利技术属性】
技术研发人员:宋晶宋方洲冉隆科唐永曜
申请(专利权)人:重庆医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1