一种对协同致死的癌症驱动基因进行预测的方法技术

技术编号:29972082 阅读:19 留言:0更新日期:2021-09-08 09:50
本发明专利技术涉及一种对协同致死的癌症驱动基因进行预测的方法,包括以下步骤:S1:从COSMIC和MetaCore中收集癌症生物标记,将其用作筛选原始癌症相关SL对的筛选器;S2:从酵母SL对中产生阳性SL对,然后进行同源基因转化;S3:基于候选基因和癌症网络内的基因组成原始候选SL对;S4:进行卡方检验用来评估两个基因的突变是否是每个原始候选SL对中的独立事件;S5:对候选SL对和阳性SL对的三个特征进行了计算和归一化。该方法通过设计一个基于学习的管道,根据已知的SL基因对以及其他未知基因对新的SL基因对进行排序,通过挖掘累积的TCGA突变和基因表达数据,以及蛋白质

【技术实现步骤摘要】
一种对协同致死的癌症驱动基因进行预测的方法


[0001]本专利技术涉及医学研究
,特别涉及一种对协同致死的癌症驱动基因进行预测的方法。

技术介绍

[0002]协同致死性(SL)描述了两个单独的非致死性突变的组合导致致死性的遗传相互作用,这种现象最早由加尔文
·
布里奇斯(Calvin Bridges)在1922年描述,他注意到有机体果蝇(Drosophila melanogaster)中的某些突变组合具有致命性,通常,位于平行通路中的两个基因(导致细胞存活或共同的必需产物)的互相抵抗是引起协同致死性(SL)的重要模式之一。
[0003]从根本上说,癌症是一种遗传疾病,涉及许多基因突变,这些基因突变中的一些可以充当癌症中的生物标记,有些癌症治疗方面已取得显着进展,例如发现赫赛汀可治疗具有HER2扩增的乳腺癌患者,发现易瑞沙可治疗具有EGFR突变的非小细胞肺癌患者,然而,开发选择性杀死癌细胞而不损害正常细胞的药物仍然是肿瘤治疗中的一大挑战,鉴于遗传突变是癌细胞与健康细胞之间差异的基础,Hartwell第一个提出将化学和基因合成致死性筛选用于癌症治疗的建议,此后,这种做法引起癌症生物学家高度重视,因为它为肿瘤学药物提供了一个有希望的前景,例如,在患有肿瘤BRCA1/2突变的卵巢癌患者中使用奥拉帕尼靶向PARP

1酶在该领域取得了里程碑式的成功,现在siRNA和CRISPR筛选是检测SL基因对的最可靠方法。
[0004]然而,与模型生物遗传系统(例如酵母或果蝇)相比,人类细胞系统在全基因组siRNA或CRISPR筛选方面面临更大的挑战,由于这个原因,已经提出了几种计算方法来促进系统地检测癌症中的SL基因对,简而言之,这些方法根据其目标数据资源可分为三类:
[0005](i)从酵母SL基因推导人类直系同源基因对;
[0006](ii)使用鲁棒性功能评估基因对在癌症PPI网络中的重要性;
[0007](iii)使用统计模型根据基因突变/转录表达数据计算互斥性。
[0008]同时,Livnat等人提出DAISY来鉴定SL基因对,这种方法结合了体细胞拷贝数改变,siRNA筛选以及细胞存活和基因共表达信息,此方法在数据驱动的SL基因对识别中取得了可喜的表现,然而,综合比较已有的几个的方法发现,在这些不同方法中,预测的SL基因对结果一致性极低,这种不一致性可能表明对于SL基因对的计算预测方法还很不成熟,此外,以前的方法都不是基于机器学习的,也就是说,SL基因对的鉴定是基于某些标准的筛选,而不是训练和预测,由于现在已经积累了一部分已知的SL基因对,对这些SL基因对的特征进行的研究有望获得重要的特征,这些特征可以定量地描述SL的常见机制。
[0009]故此,提出一种对协同致死的癌症驱动基因进行预测的方法以解决上述问题。

技术实现思路

[0010]本专利技术针对现有技术中存在的技术问题,提供一种对协同致死的癌症驱动基因进
行预测的方法,该对协同致死的癌症驱动基因进行预测的方法通过设计一个基于学习的管道,根据已知的SL基因对以及其他未知基因对新的SL基因对进行排序,通过挖掘累积的TCGA突变和基因表达数据,以及蛋白质

蛋白质相互作用网络中的基因特性,将传统策略整合,列出了潜在的SL基因对列表。
[0011]本专利技术解决上述技术问题的技术方案如下:一种对协同致死的癌症驱动基因进行预测的方法,包括以下步骤:
[0012]S1:从COSMIC和MetaCore中收集癌症生物标记,将其用作筛选原始癌症相关SL对的筛选器;
[0013]S2:从酵母SL对中产生阳性SL对,然后进行同源基因转化,癌症生物标志物过滤以及证据在从文献挖掘中获得的人类细胞系中的应用;
[0014]S3:基于候选基因和癌症网络内的基因组成原始候选SL对,其中,候选基因选自TCGA突变数据;
[0015]S4:进行卡方检验用来评估两个基因的突变是否是每个原始候选SL对中的独立事件,此外,还计算突变排他性,其定义为携带SL基因对中一个突变基因之一的样品的百分比,仅选择那些具有高突变排他性的独立基因突变作为候选SL对,以进行进一步的计算;
[0016]S5:在导出到学习模型之前,对候选SL对和阳性SL对的三个特征进行了计算和归一化;
[0017]S6:使用交叉验证中获得的优化参数来检测新型SL对。
[0018]在上述技术方案的基础上,本专利技术还可以做如下改进。
[0019]进一步,所述TCGA突变和表达数据处理的流程为:
[0020]1)从UCSC癌症基因组浏览器(https://genome

cancer.ucsc.edu)下载TCGA突变和表达谱数据,该数据提供了TCGA基因组,表型和临床数据的注解和交互式可视化结果;
[0021]2)从中获得两个矩阵,矩阵的每一行代表一个基因,每一列代表一个样本,细胞中的值分别代表基因表达矩阵和基因突变矩阵中的表达和突变状态。
[0022]进一步,所述阳性协同致死基因对的处理流程为:
[0023]1)从BioGRID获得基于高通量遗传筛选的酵母SL(协同致死)基因的集体数据,其中,从酵母到人类基因的系统发育推断可从Ensemble数据库(http://useast.ensembl.org/)获得;
[0024]2)通过MetaCore(https://portal.genego.com/)中的癌症生物标记和COSMIC中的驱动基因过滤同源人类SL基因对,仅保留具有癌症生物标志物或驱动基因所覆盖的两个基因的同源人类SL基因对,用于下游分析。
[0025]进一步,所述癌症网络为使用蛋白质

蛋白质相互作用所呈现的边缘以及蛋白质所显示的节点来构建癌症网络。
[0026]进一步,所述候选SL基因对生成的流程为:
[0027]1)在TCGA突变数据中计算了样本中每个基因的突变率;
[0028]2)将1%用作选择候选基因的截止阈值,通过从癌症网络中选择候选基因以及其他基因来生成每个原始候选SL基因对;
[0029]3)基于突变数据测试基因A突变和基因B突变是否是独立事件,详细地,无效假设是基因A突变和基因B突变彼此独立,在2
×
2列联表上执行卡方检验,如下表:
[0030][0031]其中,M代表同时携带基因A和基因B突变的样本数,N代表携带基因A突变而没有基因B突变的样品的数量,X代表携带基因B突变而没有基因A突变的样品数,Y是同时包含野生型基因A和野生型基因B的样本数,+表示突变型,

表示野生型;
[0032]卡方检验p值<=0.05的原始候选SL基因对意味着基因A和基因B的突变不是独立的,基因A和基因B的突变之间可能存在某些关系,此外,基因A和基因B的突变排他性可以计算为(X+N)/(M+N+X),较高的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,包括以下步骤:S1:从COSMIC和MetaCore中收集癌症生物标记,将其用作筛选原始癌症相关SL对的筛选器;S2:从酵母SL对中产生阳性SL对,然后进行同源基因转化,癌症生物标志物过滤以及证据在从文献挖掘中获得的人类细胞系中的应用;S3:基于候选基因和癌症网络内的基因组成原始候选SL对,其中,候选基因选自TCGA突变数据;S4:进行卡方检验用来评估两个基因的突变是否是每个原始候选SL对中的独立事件,此外,还计算突变排他性,其定义为携带SL基因对中一个突变基因之一的样品的百分比,仅选择那些具有高突变排他性的独立基因突变作为候选SL对,以进行进一步的计算;S5:在导出到学习模型之前,对候选SL对和阳性SL对的三个特征进行了计算和归一化;S6:使用交叉验证中获得的优化参数来检测新型SL对。2.根据权利要求1所述的一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,所述TCGA突变和表达数据处理的流程为:1)从UCSC癌症基因组浏览器(https://genome

cancer.ucsc.edu)下载TCGA突变和表达谱数据,该数据提供了TCGA基因组,表型和临床数据的注解和交互式可视化结果;2)从中获得两个矩阵,矩阵的每一行代表一个基因,每一列代表一个样本,细胞中的值分别代表基因表达矩阵和基因突变矩阵中的表达和突变状态。3.根据权利要求2所述的一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,所述阳性协同致死基因对的处理流程为:1)从BioGRID获得基于高通量遗传筛选的酵母SL(协同致死)基因的集体数据,其中,从酵母到人类基因的系统发育推断可从Ensemble数据库(http://useast.ensembl.org/)获得;2)通过MetaCore(https://portal.genego.com/)中的癌症生物标记和COSMIC中的驱动基因过滤同源人类SL基因对,仅保留具有癌症生物标志物或驱动基因所覆盖的两个基因的同源人类SL基因对,用于下游分析。4.根据权利要求3所述的一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,所述癌症网络为使用蛋白质

蛋白质相互作用所呈现的边缘以及蛋白质所显示的节点来构建癌症网络。5.根据权利要求4所述的一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,所述候选SL基因对生成的流程为:1)在TCGA突变数据中计算了样本中每个基因的突变率;2)将1%用作选择候选基因的截止阈值,通过从癌症网络中选择候选基因以及其他基因来生成每个原始候选SL基因对;3)基于突变数据测试基因A突变和基因B突变是否是独立事件,详细地,无效假设是基因A突变和基因B突变彼此独立,在2
×
2列联表上执行卡方检验,如下表:
其中,M代表同时携带基因A和基因B突变的样本数,N代表携带基因A突变而没有基因B突变的样品的数量,X代表携带基因B突变而没有基因A突变的样品数,Y是同时包含野生型基因A和野生型基因B的样本数,+表示突变型,

表示野生型;卡方检验p值<=0.05的原始候选SL基因对意味着基因A和基因B的突变不是独立的,基因A和基因B的突变之间可能存在某些关系,此外,基因A和基因B的突变排他性可以计算为(X+N)/(M+N+X),较高的突变排他性表明基因A和基因B更有可能是互斥的突变,在此,仅选择卡方检验P值≤0.05且突变排他性≥0.8的候选SL对进行下游处理。6.根据权利要求5所述的一种对协同致死的癌症驱动基因进行预测的方法,其特征在于,所述特征计算包括基因对突变覆盖率、驱动突变概率、网络信息中心和半监督排名模型。7.根据权利要求6所述的一种对协同致死的癌症驱动基因进行预测的方法,其特...

【专利技术属性】
技术研发人员:韦嘉吴金波
申请(专利权)人:上海基绪康生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1