一种癌症类型特异的基因调控网络构建方法技术

技术编号:34954867 阅读:12 留言:0更新日期:2022-09-17 12:32
本发明专利技术提供的一种癌症类型特异的基因调控网络构建方法,依靠计算机高性能计算的特点,通过数据挖掘技术高效地进行转录因子与基因的相互作用预测,在考虑转录因子调控基因组线性近邻基因的同时,也考虑到染色质三维结构对调控的影响,将空间近邻所形成的调控关系进行整合,获得更全面的转录因子与基因调控关系,进而构建出更完整的癌症类型特异的基因调控网络。本发明专利技术可以实现染色质的状态与结构信息与基因表达功能信息的融合,遵循结构决定功能这一基础规律,既可以避免单一类型数据的信息不足问题,又可以避免过多类型数据的信息冗余问题。相比于传统生物实验方法,极大地节约了时间成本和经济开支。了时间成本和经济开支。了时间成本和经济开支。

【技术实现步骤摘要】
一种癌症类型特异的基因调控网络构建方法


[0001]本专利技术属于基因调控网络推理
,具体涉及一种癌症类型特异的基因调控网络构建方法。

技术介绍

[0002]癌症是一种复杂疾病,其产生过程与多种因素有关,通常会伴随异常的基因调控,基因调控网络则是一种研究基因调控关系的有效途径。一个基因的表达受其他基因的调控,而该基因的产物又可能调控其他基因的表达,这种错综复杂的相互作用关系可以通过基因调控网络进行表示。通过构建基因调控网络研究癌症中的风险基因及调控关系对于认识癌症致病机理提前预防和治疗具有积极的作用。
[0003]基因调控网络主要由两个部分组成:顶点和边,顶点表示基因调控过程中的参与者,如基因、转录因子等,边表示顶点间的相互作用而形成的调控关系,如转录因子对基因的调控。目前基因调控网络构建的方法主要分为两大类:第一类是基于基因表达数据应用统计学推断的方法逆向重构基因调控网络,基因表达数据可以反映基因间表达量的相对变化规律,从而可用来推断基因间调控关系,而囿于早期测序技术的局限性,通过单一类型数据很难发现一些复杂的生物学机制。
[0004]目前技术的发展使得染色质开放程度的检测成为可能,染色质开放性数据反映了染色质允许调控因子接近的开放程度,开放的染色质是调控因子结合的前提,该类数据的引入可以从源头筛除部分逆向推断的假阳性结果;第二类是基于线性基因组近邻正向推断调控因子调控其线性邻近的基因,然而染色质在细胞核内压缩折叠形成了复杂的三维结构,这使得调控元件可以与其线性距离很远的靶基因在空间距离上接近并产生调控关系,因此该类方法分析的结果并不理想。

技术实现思路

[0005]为了解决现有技术中存在的上述问题,本专利技术提供一种癌症类型特异的基因调控网络构建方法。本专利技术要解决的技术问题通过以下技术方案实现:
[0006]本专利技术提供的一种癌症类型特异的基因调控网络构建方法包括:
[0007]步骤1:从网络获取公开的癌症的染色质相关数据、基因表达数据以及多个转录因子在基因组可能结合位置的位置权重矩阵;
[0008]其中,所述染色质相关数据包括染色质开放数据以及染色质三维交互数据,所述染色质开放数据中包括多个癌症类型的多个染色质开放片段特征,所述染色质三维交互数据包括所需癌症类型的存在三维交互的目标染色质片段;所述基因表达数据中包括所需癌症类型的基因表达谱;
[0009]步骤2:对染色质开放数据进行癌症类型特异性处理,得到特异开放染色体片段;
[0010]步骤3:对染色质三维交互数据进行癌症类型特异性筛选,得到所需癌症类型下的目标染色质片段对;
[0011]步骤4:将转录因子的位置权重矩阵以及所有特异开放染色体片段输入至R包motifmatchr中,输出预测的特异开放染色质片段与转录因子结合结果;
[0012]步骤5:根据转录因子结合结果,推断与转录因子结合位置线性邻近的基因作为第一靶基因以及在三维空间邻近的基因作为第二靶基因;并将转录因子与第一靶基因存在的调控关系作为第一候选调控关系,将转录因子与第二靶基因存在的调控关系作为第二候选调控关系;
[0013]步骤6:在所述第一候选调控关系中确定可靠的第一调控关系,以及在第二候选调控关系中确定可靠的第二调控关系;
[0014]步骤7:将第一调控关系与第二调控关系进行合并,以根据合并后的调控关系得到癌症类型特异的基因调控网络。
[0015]可选的,所述步骤2选包括:
[0016]步骤2a:将所有染色质开放片段特征的开放性分数用一个矩阵进行表示;
[0017]步骤2b:将所述矩阵中的开放性分数标准化到同一尺度上,得到标准化矩阵;
[0018]步骤2c:根据所述标准化矩阵,计算染色质开放片段在不同癌症类型中的开放特异性指标;
[0019]步骤2d:对所有染色质开放片段进行筛选,保留开放特异性指标大于特异性阈值的染色质片段;
[0020]步骤2e:将保留的所有染色质开放片段分配至开放性分数最大的癌症类型中,得到各癌症类型下的特异开放染色质片段,并将同一癌症类型下的特异开放染色质片段组成集合。
[0021]可选的,步骤2中所述标准化矩阵为:
[0022][0023]其中,Min和Max分别表示所有染色质片段开放分数的最小值和最大值,min
j
和max
j
分别表示第j个癌症类型中开放性分数的最小值和最大值;
[0024]开放特异性指标为:
[0025][0026]其中,N表示癌症类型数目,B
j
表示对应染色质片段在癌症类型j中的开放性分数,为标准化矩阵B
ij
的第j列元素。
[0027]可选的,所述步骤3选包括:
[0028]步骤3a:根据基因组序列,将筛选出特异开放染色质片段与目标染色体片段尝试匹配,从而将特异开放染色质片段映射至三维交互的两端;
[0029]步骤3b:如果在三维交互的至少一端匹配到所述开放染色质片段,则筛选出所需癌症类型下存在三维交互关系的目标染色质片段对。
[0030]可选的,所述步骤5中根据转录因子结合结果,推断与转录因子结合位置线性邻近的基因作为第一靶基因以及在三维空间邻近的基因作为第二靶基因包括:
[0031]将特异开放染色体片段输入至R包ChIPseeker中,输出识别的距离特异开放染色
体片段线性距离最近的基因作为第一靶基因;
[0032]将目标染色体片段输入至R包ChIPseeker中,输出识别的目标染色体片段上的基因作为第二靶基因。
[0033]可选的,步骤6中确定可靠的第一调控关系包括:
[0034]步骤6a1:根据特异开放染色质片段与第一靶基因之间的关联关系,计算特异开放染色质片段的开放性分数与第一靶基因表达谱之间的皮尔森相关系数;
[0035]步骤6b1:筛选皮尔森相关系数绝对值超过第一系数阈值的关联关系;
[0036]步骤6c1:通过皮尔森相关系数超过系数阈值的特异开放染色质片段与靶基因之间的关联关系,将转录因子与第一靶基因关联;
[0037]步骤6d1:根据转录因子与第一靶基因之间的调控关系,计算特异开放转录因子表达谱与第一靶基因表达谱之间的皮尔森相关系数;
[0038]步骤6e1:在第一候选调控关系中,筛选皮尔森相关系数绝对值超过第二系数阈值的调控关系作为可靠的调控关系。
[0039]可选的,步骤6中确定可靠的第二调控关系包括:
[0040]步骤6a2:根据目标染色质片段与三维空间邻近的第二靶基因之间的关联关系,计算目标染色质片段的开放性分数与第二靶基因表达谱之间的皮尔森相关系数;
[0041]步骤6b2:筛选皮尔森相关系数绝对值超过第一系数阈值的关联关系;
[0042]步骤6c3:通过皮尔森相关系数超过系数阈值的目标染色质片段与第二靶基因之间的关联关系,将转录因子与第二靶基因关联;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种癌症类型特异的基因调控网络构建方法,其特征在于,包括:步骤1:从网络获取公开的癌症的染色质相关数据、基因表达数据以及多个转录因子在基因组可能结合位置的位置权重矩阵;其中,所述染色质相关数据包括染色质开放数据以及染色质三维交互数据,所述染色质开放数据中包括多个癌症类型的多个染色质开放片段特征,所述染色质三维交互数据包括所需癌症类型的存在三维交互的目标染色质片段;所述基因表达数据中包括所需癌症类型的基因表达谱;步骤2:对染色质开放数据进行癌症类型特异性处理,得到特异开放染色体片段;步骤3:对染色质三维交互数据进行癌症类型特异性筛选,得到所需癌症类型下的目标染色质片段对;步骤4:将转录因子的位置权重矩阵以及所有特异开放染色体片段输入至R包motifmatchr中,输出预测的特异开放染色质片段与转录因子结合结果;步骤5:根据转录因子结合结果,推断与转录因子结合位置线性邻近的基因作为第一靶基因以及在三维空间邻近的基因作为第二靶基因;并将转录因子与第一靶基因存在的调控关系作为第一候选调控关系,将转录因子与第二靶基因存在的调控关系作为第二候选调控关系;步骤6:在所述第一候选调控关系中确定可靠的第一调控关系,以及在第二候选调控关系中确定可靠的第二调控关系;步骤7:将第一调控关系与第二调控关系进行合并,以根据合并后的调控关系得到癌症类型特异的基因调控网络。2.根据权利要求1所述的癌症类型特异的基因调控网络构建方法,其特征在于,所述步骤2选包括:步骤2a:将所有染色质开放片段特征的开放性分数用一个矩阵进行表示;步骤2b:将所述矩阵中的开放性分数标准化到同一尺度上,得到标准化矩阵;步骤2c:根据所述标准化矩阵,计算染色质开放片段在不同癌症类型中的开放特异性指标;步骤2d:对所有染色质开放片段进行筛选,保留开放特异性指标大于特异性阈值的染色质片段;步骤2e:将保留的所有染色质开放片段分配至开放性分数最大的癌症类型中,得到各癌症类型下的特异开放染色质片段,并将同一癌症类型下的特异开放染色质片段组成集合。3.根据权利要求2所述的癌症类型特异的基因调控网络构建方法,其特征在于,步骤2中所述标准化矩阵为:其中,Min和Max分别表示所有染色质片段开放分数的最小值和最大值,min
j
和max
j
分别表示第j个癌症类型中开放性分数的最小值和最大值;开放特异性指标为:
其中,N表示癌症类型数目,B
j
表示对应染色质片段在癌症类型j中的开放性分数,为标准化矩阵B
ij
的第j列元素。4.根据权利要求1所述的癌症类型特异的基因调控网络构建方法,其特...

【专利技术属性】
技术研发人员:郭杏莉蒲明月卢亮王焜王炳波
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1