基于染色质三维结构的潜在原癌基因挖掘的方法与系统技术方案

技术编号:39190322 阅读:10 留言:0更新日期:2023-10-27 08:37
本发明专利技术公开了一种基于染色质三维结构的潜在原癌基因挖掘的方法与系统,涉及计算生物学技术领域,该方法包括:根据染色质数据和癌症突变数据得到多个突变绝缘区域,并输入至训练好的结合位点预测器中,得到预测结果以及被破坏的绝缘区域;根据癌症基因表达数据得到多个差异表达基因集合,对多个差异表达基因集合进行取交集,得到最终差异表达基因集合;对最终差异表达基因集合和被破坏的绝缘区域内的基因取交集,得到交集基因;并进行生存分析,得到分析结果,根据分析结果对交集基因进行筛选,得到与不良预后相关的基因;并对其进行筛选,得到潜在原癌基因;实现了在节约时间成本和经济开支的基础上,提高了挖掘潜在原癌基因的准确性和可靠性。的准确性和可靠性。的准确性和可靠性。

【技术实现步骤摘要】
基于染色质三维结构的潜在原癌基因挖掘的方法与系统


[0001]本专利技术涉及计算生物学
,尤其涉及一种基于染色质三维结构的潜在原癌基因挖掘的系统与方法。

技术介绍

[0002]在人体中,染色体在真核细胞中高度折叠并组织形成动态三维(3D)结构,染色体在细胞核内复杂而精密的折叠保证了基因的正确表达和复制。在3D基因组学中,绝缘区域被定义为一种由CTCF

CTCF同源二聚体形成,且与黏连蛋白(cohesin)共结合,并含有至少一个基因的染色质环。
[0003]在癌症中CTCF结合位点的突变频繁发生,并且一些发生在CTCF结合位点的变异会导致CTCF结合减弱从而使得绝缘区域消失,之后会由于不适当的增强子

启动子相互作用而导致局部基因的失调。目前发现突变的绝缘区域内显著富集了已知原癌基因。这些沉默的原癌基因通常位于绝缘区域内,而绝缘区域的消失会使得这些基因被激活,从而引起癌症。绝缘区域的破坏是癌症的驱动因素之一。
[0004]基因差异表达分析通过比较癌症组织与正常组织的基因表达差异,可以筛选出差异表达的基因,这些基因可能在癌症的发生和发展中起着重要的作用。基因差异表达分析能够揭示癌症组织与正常组织之间的基因表达差异,这些差异可能与癌症的病理生理过程密切相关。通过生物信息学分析这些差异表达基因,可以发现参与癌症发生和发展的重要信号通路、调控因子和靶标基因。
[0005]深度学习是一种基于多层神经网络的学习方法,可以自动从数据中学习表示和特征,并进行高级抽象和分析。深度学习是序列预测的一种有效方法。在序列预测任务中它能够有效地捕捉序列数据的复杂性和时序关系,提高预测的准确性和泛化能力。
[0006]目前技术的发展使得获取人类基因组的绝缘区域成为了现实。我们可以由CTCF CHIA

PET数据和RAD21(组成黏连蛋白的分子之一)CHIP

seq数据共同得到绝缘区域。我们可以获得CTCF CHIP

seq数据得到CTCF的结合位点从而构建并训练CTCF结合位点的预测器。
[0007]目前相关的文献仅仅通过生物学实验手段报道了少数破坏CTCF结合位点活性的突变,仍有大量突变以待研究。这种手段在面对成千上万个突变时,往往会消耗大量的时间成本和金钱成本。
[0008]目前通常是通过基因表达差异分析来进行原癌基因的挖掘,此方式原理是按照基因的表达在正常和癌症样本中是否有显著差异这一特征进行挖掘。但此方法通常会得到成百上千个基因,还需要大量人力物力对这些基因一一研究,从而最终确定原癌基因。

技术实现思路

[0009]本专利技术通过提供一种基于染色质三维结构的潜在原癌基因挖掘的方法与系统,解决了现有技术中在挖掘多个基因突变时,消耗大量时间成本和金钱成本的问题,实现了在
节约了时间成本和经济开支的基础上,提高挖掘潜在原癌基因的准确性和可靠性。
[0010]第一方面,本专利技术实施例提供了一种基于染色质三维结构的潜在原癌基因挖掘的方法,该方法包括:
[0011]根据染色质数据和癌症突变数据得到多个突变绝缘区域,将所述多个突变绝缘区域输入至训练好的结合位点预测器中,得到预测结果;
[0012]利用所述预测结果判断所述突变绝缘区域是否是被突变所破坏的突变绝缘区域,得到被破坏的绝缘区域;
[0013]根据癌症基因表达数据得到多个差异表达基因集合,并对所述多个差异表达基因集合进行取交集,得到最终差异表达基因集合;
[0014]对所述最终差异表达基因集合和所述被破坏的绝缘区域内的基因取交集,得到交集基因;
[0015]对所述交集基因进行生存分析,得到分析结果,并根据所述分析结果对所述交集基因进行筛选,得到与不良预后相关的基因;
[0016]利用基因集富集对所述与不良预后相关的基因进行筛选,得到潜在原癌基因。
[0017]结合第一方面,在一种可能的实现方式中,所述染色质数据包括染色质三维交互数据和基因组学数据,所述染色质三维交互数据是CTCF在基因组中的长程相互作用数;所述基因组学数据是CTCF蛋白在基因组中的结合位点分布数据。
[0018]结合第一方面,在一种可能的实现方式中,所述癌症突变数据包括多个癌症类型的体细胞突变数据;所述癌症基因表达数据包括癌症类型的基因表达谱。
[0019]结合第一方面,在一种可能的实现方式中,所述根据染色质数据和癌症突变数据得到多个突变绝缘区域,具体包括:
[0020]提取所述染色质数据中的CTCF CHIA

PET数据的第一列至第五列,得到每条染色体上由CTCF介导的互作的两个基因组区域的起始位置和终止位置;
[0021]提取所述染色质数据中的RAD21 CHIP

seq数据的第一列、第二列、第三列,得到每条染色体上RAD21结合的基因组的起始位置和终止位置;
[0022]将由CTCF介导的互作的两个基因组区域的起始位置和终止位置与RAD21结合的基因组的起始位置和终止位置进行综合,得到多个突变绝缘区域。
[0023]结合第一方面,在一种可能的实现方式中,所述结合位点预测器,包括:嵌入层、一维卷积层、最大池化层、双向门控循环神经网络层以及全连接层,所述结合位点预测器中各个层依次连接。
[0024]结合第一方面,在一种可能的实现方式中,在将所述多个突变绝缘区域输入至训练好的结合位点预测器之前,还包括:
[0025]分别获取K562细胞系、HepG2细胞系和GM12878细胞系的CTCF CHIP

seq数据的第一列、第二列以及第三列数据,得到多个筛选数据,并对所述多个筛选数据进行取交集操作,得到细胞系保守CTCF CHIP

seq数据;
[0026]对所述细胞系保守CTCF CHIP

seq数据的第十列数据进行分析,得到每条数据中相互作用最强的位置;
[0027]截取以所述相互作用最强的位置为中心的部分数据,作为所述结合位点预测器的正样本数据;
[0028]通过使用R包gkmSVM控制所述正样本数据的序列长度、GC含量以及重复序列分数特征,得到与每个正样本数据对应的负样本数据;
[0029]利用所述正样本数据与所述负样本数据对所述结合位点预测器进行训练,得到训练好的所述结合位点预测器。
[0030]结合第一方面,在一种可能的实现方式中,所述将所述多个突变绝缘区域输入至训练好的结合位点预测器中,得到预测结果,具体包括:
[0031]获取所述多个突变绝缘区域中带有CTCF结合位点的突变绝缘区域,得到多个所述带有CTCF结合位点的突变绝缘区域;
[0032]分别将多个所述带有CTCF结合位点的突变绝缘区域输入至所述结合位点预测器中进行预测,得到多个预测结果。
[0033]结合第一方面,在一种可能的实现方式中,所述利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于染色质三维结构的潜在原癌基因挖掘的方法,其特征在于,包括:根据染色质数据和癌症突变数据得到多个突变绝缘区域,将所述多个突变绝缘区域输入至训练好的结合位点预测器中,得到预测结果;利用所述预测结果判断所述突变绝缘区域是否是被突变所破坏的突变绝缘区域,得到被破坏的绝缘区域;根据癌症基因表达数据得到多个差异表达基因集合,并对所述多个差异表达基因集合进行取交集,得到最终差异表达基因集合;对所述最终差异表达基因集合和所述被破坏的绝缘区域内的基因取交集,得到交集基因;对所述交集基因进行生存分析,得到分析结果,并根据所述分析结果对所述交集基因进行筛选,得到与不良预后相关的基因;利用基因集富集对所述与不良预后相关的基因进行筛选,得到潜在原癌基因。2.根据权利要求1所述的基于染色质三维结构的潜在原癌基因挖掘的系统,其特征在于,所述染色质数据包括染色质三维交互数据和基因组学数据,所述染色质三维交互数据是CTCF在基因组中的长程相互作用数;所述基因组学数据是CTCF蛋白在基因组中的结合位点分布数据。3.根据权利要求1所述的基于染色质三维结构的潜在原癌基因挖掘的系统,其特征在于,所述癌症突变数据包括多个癌症类型的体细胞突变数据;所述癌症基因表达数据包括癌症类型的基因表达谱。4.根据权利要求1所述的基于染色质三维结构的潜在原癌基因挖掘的系统,其特征在于,所述根据染色质数据和癌症突变数据得到多个突变绝缘区域,具体包括:提取所述染色质数据中的CTCF CHIA

PET数据的第一列至第五列,得到每条染色体上由CTCF介导的互作的两个基因组区域的起始位置和终止位置;提取所述染色质数据中的RAD21 CHIP

seq数据的第一列、第二列、第三列,得到每条染色体上RAD21结合的基因组的起始位置和终止位置;将由CTCF介导的互作的两个基因组区域的起始位置和终止位置与RAD21结合的基因组的起始位置和终止位置进行综合,得到多个突变绝缘区域。5.根据权利要求1所述的基于染色质三维结构的潜在原癌基因挖掘的系统,其特征在于,所述结合位点预测器,包括:嵌入层、一维卷积层、最大池化层、双向门控循环神经网络层以及全连接层,所述结合位点预测器中各个层依次连接。6.根据权利要求1所述的基...

【专利技术属性】
技术研发人员:郭杏莉王屹恒王焜
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1