一种胶质母细胞瘤分类与预测方法、系统、设备及介质技术方案

技术编号:37401504 阅读:10 留言:0更新日期:2023-04-30 09:29
本发明专利技术公开了一种胶质母细胞瘤分类与预测方法、系统、设备及介质,包括:S1:下载TCGA

【技术实现步骤摘要】
一种胶质母细胞瘤分类与预测方法、系统、设备及介质


[0001]本专利技术涉及生物学技术和计算机
,特别涉及一种基于基因特征的人工智能计算模型得到胶质母细胞瘤分类与预测方法、系统、设备及介质。

技术介绍

[0002]胶质母细胞瘤(GBM)是一种高级胶质瘤(IV级),是最具侵袭性和致死性的胶质瘤。临床上,GBM预后不良,只有不到5%的患者在确诊后存活时间超过5年。GBM的发生机制尚不清楚,且由于缺乏有效的治疗方法,容易复发。组织形态学的模糊性和肿瘤的异质性给GBM的诊断、预后预测和治疗带来了挑战。组织学诊断的经验在观察者之间产生了相当大的差异,限制了诊断的可重复性,这导致了暂时性的病理诊断和明显的临床混乱。更重要的是,GBM在组织学和遗传学上表现出显著的瘤间和瘤内异质性,具有不同的突变或表现出不同的表型和表观遗传状态,反映出基因组的不稳定性,导致不同的治疗或结果。胶质瘤的发病机制、治疗和预后在分子水平上成为当前研究的重点。基于基因谱和分子生物学特征的GBM分子分类是对传统的基于病理学的GBM分类的必要补充。
[0003]基于分子的诊断、患者分层和治疗越来越重要。2016年,世卫组织更新了指南,将形态学和遗传变异结合起来,导致对几种脑肿瘤实体的分类进行了重大重组,特别是胶质瘤。2016年WHO基于GBM的异柠檬酸脱氢酶(IDH)基因突变状态分类的两个重要实体是IDH野生型GBM和IDH突变型GBM,无法对IDH进行完全评估的患者归为GBM NOS。多组学研究在肿瘤基因组图谱研究网络(TCGA)、中国胶质瘤基因组图谱(CGGA)等数据库中解释了GBM的概况,揭示了GBM复杂的遗传谱。这些异常分子包括1p和19q编码缺失(少突胶质细胞瘤特异性)、IDH基因突变、PTEN(磷酸酶和紧张素同源物)基因突变、TP53突变、TERT(端粒酶逆转录酶)基因启动子突变、ATRX(α

地中海贫血/智力低下综合征x相关)基因启动子突变和EGFR(上皮生长因子受体)基因扩增,这些都迫使临床病理学重新考虑GBM的治疗。基于异常分子的GBM分类逐渐缩短了从诊断到治疗的时间,显著提高了准确性和靶向性。
[0004]基因组学作为一门数据驱动的科学而兴起,它通过对基因组尺度数据的探索来发现新的特性,而不是通过测试先入为主的模型和假设。基因组学的应用包括寻找基因型和表型之间的联系,发现患者分层的生物标记物,预测基因的功能。基因组数据太大而且太复杂,不能仅通过对偶相关的目视调查来挖掘,需要分析工具来支持发现意料之外的关系,推导出新的假设和模型,并做出预测。机器学习算法适合数据驱动的科学,它的性能很大程度上取决于每个变量是如何计算的。神经网络是由连续的基本操作组成的机器学习模型,它将前面操作的结果作为输入,计算越来越复杂的特征。深度神经网络能够通过发现高复杂性的相关特征来提高预测的准确性。目前,人工智能广泛应用于GBM预测模型,有监督和无监督的学习方法来训练深度神经网络,但是仍然没有精度较高的预测性较好的分类器对异质性较强的GBM进行分类,提供最佳诊断标准。

技术实现思路

[0005]本专利技术针对现有技术的缺陷,提供了一种胶质母细胞瘤分类与预测方法、系统、设备及介质。
[0006]为了实现以上专利技术目的,本专利技术采取的技术方案如下:
[0007]一种胶质母细胞瘤分类与预测方法,包括以下步骤:
[0008]S1:下载TCGA

GBM和CGGA

GBM患者转录组数据作为测试数据集;
[0009]TCGA

GBM为来自于The Cancer Genome Atlas Program(TCGA)数据库,数据类型是RNA

seq和病人临床随访数据,简称为TCGA

GBM。
[0010]CGGA

GBM为来自于自中国胶质瘤数据库(The Chinese Glioma Genome Atlas,CGGA),数据类型是RNA

seq和病人临床随访数据,简称为CGGA

GBM。
[0011]S2:使用GSVA计算基因特征数据集(MSigDB),并合并成初始数据集。
[0012]S3:对初始数据集进行无监督聚类的一致性聚类,得到与预后相关的新亚型。
[0013]S4:新亚型差异基因分析,得到新亚型免疫特异性。
[0014]S5:利用WGCNA计算TCGA

GBM基因表达谱,划分为基因模块,并得到每个模块的核心基因(hub gene)。
[0015]S6:使用反向传播(BP)神经网络,构建对新亚型预测的最佳分类器。
[0016]进一步地,步骤S2具体为:计算基因特征数据集;
[0017]使用由R语言中的GSVA包计算对来自分子特征数据库(MSigDB)中的9中类型基因集的评分,合并每个病人对基因集的富集评分,得到多条基因特征,作为以下分类的初始数据集。
[0018]进一步地,步骤S3具体为:
[0019]使用R语言中的ConsensusClusterPlus包,进行无监督聚类,对80%的样本进行重采样,重复10次。根据分布函数图确定最佳聚类数,找到新亚型。
[0020]进一步地,步骤S4具体为:
[0021]在基因参与的功能分析方面,使用R软件包clusterProfiler进行信号通路和基因本体的富集分析。
[0022]对于肿瘤微环境分析(TME)分别使用xcell1,CIBERSORT,Patient Immunophenoscore和quanTISeq进行免疫浸润分析,得到免疫特异性。
[0023]进一步地,步骤S4中,对新亚型进行差异分析,得到的差异基因(DEGs),和主要参与的KEGG通路和GO生物过程。
[0024]对新亚型进行肿瘤微环境分析(TME)
[0025]对新亚型进行耐药分析,得到耐药性。
[0026]对新亚型进行肿瘤驱动基因靶点分析,得到新亚型的肿瘤驱动基因靶点。
[0027]进一步地,S4中将差异基因阈值设置为FDR<0.05和Log2Foldchange>|2|,满足此条件的基因为2个亚群之间的明显差异。
[0028]进一步地,S5具体为:利用WGCNA计算S1中下载得到的TCGA

GBM转录组数据,计算每个基因的中位绝对偏差(MAD),并去掉了前50%的中位绝对偏差最小的基因。使用R软件包的goodSamplesGenes方法去除异常值基因和样本。
[0029]利用WGCNA构建无标度共表达网络。对所有配对基因进行Pearson相关矩阵和平均
连锁法,为了把基因表达趋势具有一致性的基因合并,将具有相似表达谱的基因划分为基因模块,并筛选每个模块的核心基因。
[0030]进一步地,S6具体为:通过R包的Neura本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种胶质母细胞瘤分类与预测方法,其特征在于,包括以下步骤:S1:下载TCGA

GBM和CGGA

GBM患者转录组数据作为测试数据集;TCGA

GBM为来自于The Cancer Genome Atlas Program数据库,数据类型是RNA

seq和病人临床随访数据,简称为TCGA

GBM;CGGA

GBM为来自于自中国胶质瘤数据库,数据类型是RNA

seq和病人临床随访数据,简称为CGGA

GBM;S2:使用GSVA计算基因特征数据集,并合并成初始数据集;S3:对初始数据集进行无监督聚类的一致性聚类,得到与预后相关的新亚型;S4:新亚型差异基因分析,得到新亚型免疫特异性;S5:利用WGCNA计算TCGA

GBM基因表达谱,划分为基因模块,并得到每个基因模块的核心基因;S6:使用反向传播神经网络,构建对新亚型预测的最佳分类器。2.根据权利要求1所述的一种胶质母细胞瘤分类与预测方法,其特征在于,步骤S2具体为:计算基因特征数据集;使用由R语言中的GSVA包计算对来自基因特征数据集中的9中类型基因集的评分,合并每个病人对基因集的富集评分,得到多条基因特征,作为以下分类的初始数据集。3.根据权利要求1所述的一种胶质母细胞瘤分类与预测方法,其特征在于,步骤S3具体为:使用R语言中的ConsensusClusterPlus包,进行无监督聚类,对80%的样本进行重采样,重复10次;根据分布函数图确定最佳聚类数,找到新亚型。4.根据权利要求1所述的一种胶质母细胞瘤分类与预测方法,其特征在于,步骤S4具体为:在基因参与的功能分析方面,使用R软件包clusterProfiler进行信号通路和基因本体的富集分析;对于肿瘤微环境分析分别使用xcell1,CIBERSORT,Patient Immunophenoscore和quanTISeq进行免疫浸润分析,得到免疫特异性;对新亚型进行差异分析,得到的差异基因,和主要参与的KEGG通路和GO生物过程;对新亚型进行肿瘤微环境分析;对新亚型进行耐药分析,得到耐药性;对新亚型进行肿瘤驱动基因靶点分析,得到新亚型的肿瘤驱动基因靶点。5.根据权利要求4所述的一种胶质母细胞瘤分类与预测方法,其特征在于:S4中将差异基因阈值设置为FDR<0.05和Log2Foldchange>|2|,满足此条件的基...

【专利技术属性】
技术研发人员:董磊张佩夏琴
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1