食管癌相关特征通路的识别及早期诊断模型的构建方法技术

技术编号:21275563 阅读:28 留言:0更新日期:2019-06-06 09:08
本发明专利技术属于肿瘤诊断技术领域,具体涉及食管癌相关特征通路的识别及早期诊断模型的构建方法,具体包括表达谱预处理、差异表达基因提取、样本聚类分析、基因聚类分析、特异基因集功能通路分析、通路失常得分比较、功能差异比较分析、食管癌特异性共表达网络构建、对基因进行特征选择和深度学习模型预测等步骤。本发明专利技术方法将基因根据其表达相似性和功能一致性划分为不同的分组,以基因集合的形式进行分析,一方面可以避免传统方法中假阳性率高、随机误差大、结果不稳定等缺点,另一方面也可以更加特异性的识别出和食管癌显著相关的功能。

【技术实现步骤摘要】
食管癌相关特征通路的识别及早期诊断模型的构建方法
本专利技术属于肿瘤诊断
,具体涉及食管癌相关特征通路的识别及早期诊断模型的构建方法。
技术介绍
食管癌是一种非常普遍的消化道癌症,具有较高的发病率和致死率。然而,尽管在临床上食管癌的发病率很高,但食管癌的发病机制仍然不是很明确。临床上常规治疗手段包括手术治疗,放射线治疗,化疗,分子治疗等。然而由于缺乏早期诊断标识,对于进入进展期或晚期的食管癌患者,常规治疗方案往往得不到理想的治疗效果。因此食管癌的发病机制以及对应的有效治疗策略是我们当前迫切需要解决的问题。同时,识别出潜在的诊断标识和新的治疗靶点对于指导食管癌治疗具有重要的启发式意义。传统分析手段基于单个基因表达水平筛选出和疾病具有统计学显著性的基因,其前提假设是基因特征之间相对独立。然而在生物体内,基因与基因之间并不是相对独立的,而是存在表达相关性和功能一致性,不同基因之间相互作用,共同参与调控下游的生物学作用。这种基因之间的相互作用可分为协同作用,拮抗作用,补偿作用。协同作用是指基因之间相互协调补充,彼此刺激,增强其调控作用;拮抗作用是指基因之间有竞争或抑制关系,通过拮抗作用可以使得基因的调控作用始终处于平衡状态,当其中一方发生异常,这种基因之间的失衡则会引起下游功能水平的异常;补偿作用是指基因之间属于平行关系,参与调控相同或相似的功能。通常情况只有其中一条通路发挥作用,只有当这条通路被阻断,另一条通路才被激活,从而起到功能代偿的作用。
技术实现思路
本专利技术主要提供一种食管癌相关特征通路的识别及早期诊断模型的构建方法,其将基因根据其表达相似性和功能一致性划分为不同的分组,以基因集合的形式进行分析,一方面可以避免传统方法中假阳性率高、随机误差大、结果不稳定等缺点,另一方面也可以更加特异性的识别出和食管癌显著相关的功能。其技术方案如下:一种食管癌相关特征通路的识别及早期诊断模型的构建方法,包括以下步骤:(1)表达谱预处理:从GEO数据库https://www.ncbi.nlm.nih.gov/geo/下载人类食管癌表达谱数据GSE100843,GSE100843共包含76个样本,其中40个besegment,36个正常对照组织normalsquamousmucosa用control表示,将所有表达值经过z检验标准化校正,校正过程包括计算control组中的表达均值μ和标准差sd,然后利用公式1对所有样本的表达值进行校正,其中,adj.exp为标准化校正后的表达值,exp为原始表达值,μ为基因表达均值,sd为标准差;(2)差异表达基因提取:以正常normalsquamousmucosa样本作为对照组,besegment作为实验组,通过limmaRpackage计算基因显著性,以显著性P值小于0.01且logFC超出5%和95%分位数的基因作为显著差异表达的基因;(3)样本聚类分析:利用差异表达基因对所有食管癌样本和正常对照样本进行层次聚类,聚类过程通过Rheatmappackage实现,相似性矩阵采用pearson相关系数算法,最后通过热图的形式可视化;(4)基因聚类分析:先利用主成分分析识别出最大的三个主成分,然后利用前三个主成分结合mclust算法(PMID:27818791)对基因进行聚类,根据BIC准则评价最优的分类个数,以及每个基因聚类对应的基因集;(5)特异基因集功能通路分析:利用每个子集内的基因进行功能富集分析,分析方法采用fisherexacttest,每个基因子集可能富集到多个生物学功能,选择显著性最强的前两个功能来描述这个基因子集的主要功能,取显著性P值小于0.05的功能通路作为显著通路;(6)通路失常得分比较:采用欧氏距离的量化方法计算通路失常得分,比较通路相对于正常样本在食管癌样本中的动态功能变化;(7)功能差异比较分析:利用所有正常样本的失常得分计算均值μ和标准差sd,然后对于每个样本都做Z检验校正,若某个样本失常得分显著高,则信号在Z检验下被放大,反之则信号被削弱,对正常样本和食管癌两组失常得分做wilcox检验,根据显著性阈值p<0.05识别出食管癌相关的功能,这些筛选出的功能自身在食管癌发生过程中发生明显功能水平的偏差,或发生功能亢进,或被抑制,同时参与调控这些功能的基因也发生明显差异表达;(8)食管癌特异性共表达网络构建:将差异表达基因随机两两组合并计算在所有样本中的Pearson相关系数,根据所有基因对的相关系数分布设定阈值,超过阈值的基因对认为存在共表达相关性,根据任意两基因之间的共表达相关性构建系统网络,通过对网络拓扑性质的分析,识别网络中hub基因,这些基因在网络中具有较高的度或介数;(9)对基因进行特征选择:利用遗传算法模拟生物进化过程,通过亲本染色体重组过程,淘汰适应度低的子代,扩增适应度强的子代,从而优化出最适合的遗传信息组合,将所有特征基因随机组合形成特征链,初始化特征链长度为特征总数的50%,然后抽取一对特征链进行重组,使得子代特征链同时包含了来自亲本的特征信息,并计算子代适应度,用高适应度的子代特征链淘汰低适应度的子代特征链,此过程循环直至达到最大进化代数或模型收敛找到最优特征链,最后获得最优特征基因组合;(10)深度学习模型预测:利用遗传算法对特征基因进行进化筛选,获得食管癌显著相关的基因组合,利用这些特征基因在两组样本中的表达值作为特征值,结合神经网络深度学习模型进行训练并预测,对分析数据随机排序,取50%作为训练集,余下50%作为测试集,训练过程利用gridsearch算法进行参数优化,优化参数包括激活函数,隐含层层数,学习速率,最后通过ROC曲线评价模型分类预测效能。优选的,步骤(2)中数据共包含32321个基因探针,每个探针的表达值都经过标准化预处理,最后根据所有探针logFC的分布,取5%和95%的分位数作为阈值,显著性p值的阈值为0.01,共筛选出1616个上调基因探针和1616个下调基因探针。优选的,步骤(6)中采用公式2进行通路失常得分计算,其中,A(P)为功能的失常得分,m为通路中上调差异表达基因的个数,n为下调差异表达基因的个数,Xi为基因i的表达值,Xj是基因j的表达值,μ为基因在正常样本中的表达均值,若A(P)=0,则说明功能中上调基因和下调基因平衡;若A(P)>0,则说明上调基因占优势,功能发生上调偏差;若A(P)<0,则说明通路中下调基因占优势,功能发生下调偏差。优选的,步骤(6)中利用公式1对所有富集到的通路进行打分,若多个基因子集富集到同一个功能,则合并取均值处理,最后共获得68条功能term,并利用功能得分构建68x76的矩阵,对于每一条功能均利用Wilcox检验验证其显著性,最后识别出9条生物学功能,均在两组样本间存在显著性。优选的,步骤(8)中食管癌特异性网络构建的结果为,利用差异表达基因之间的表达值计算相似性矩阵,根据所有基因对之间的Pearson相关系数绝对值的95%分位数为阈值,95%的分位数对应相关系数为0.88,即筛选所有相关系数大于0.88的基因对作为存在显著关联的基因对,利用这些显著相关的基因对构建相似性共表达网络,网络中包含节点个数481,边个数1256,根据网络中每本文档来自技高网...

【技术保护点】
1.一种食管癌相关特征通路的识别及早期诊断模型的构建方法,其特征在于:包括以下步骤:(1)表达谱预处理:从GEO数据库https://www.ncbi.nlm.nih.gov/geo/下载人类食管癌表达谱数据GSE100843,GSE100843共包含76个样本,其中40个be segment,36个正常对照组织normal squamous mucosa用control表示,将所有表达值经过z检验标准化校正,校正过程包括计算control组中的表达均值μ和标准差sd,然后利用公式1对所有样本的表达值进行校正,

【技术特征摘要】
1.一种食管癌相关特征通路的识别及早期诊断模型的构建方法,其特征在于:包括以下步骤:(1)表达谱预处理:从GEO数据库https://www.ncbi.nlm.nih.gov/geo/下载人类食管癌表达谱数据GSE100843,GSE100843共包含76个样本,其中40个besegment,36个正常对照组织normalsquamousmucosa用control表示,将所有表达值经过z检验标准化校正,校正过程包括计算control组中的表达均值μ和标准差sd,然后利用公式1对所有样本的表达值进行校正,其中,adj.exp为标准化校正后的表达值,exp为原始表达值,μ为基因表达均值,sd为标准差;(2)差异表达基因提取:以正常normalsquamousmucosa样本作为对照组,besegment作为实验组,通过limmaRpackage计算基因显著性,以显著性P值小于0.01且logFC超出5%和95%分位数的基因作为显著差异表达的基因;(3)样本聚类分析:利用差异表达基因对所有食管癌样本和正常对照样本进行层次聚类,聚类过程通过Rheatmappackage实现,相似性矩阵采用pearson相关系数算法,最后通过热图的形式可视化;(4)基因聚类分析:先利用主成分分析识别出最大的三个主成分,然后利用前三个主成分结合mclust算法对基因进行聚类,根据BIC准则评价最优的分类个数,以及每个基因聚类对应的基因集;(5)特异基因集功能通路分析:利用每个子集内的基因进行功能富集分析,分析方法采用fisherexacttest,每个基因子集可能富集到多个生物学功能,选择显著性最强的前两个功能来描述这个基因子集的主要功能,取显著性P值小于0.05的功能通路作为显著通路;(6)通路失常得分比较:采用欧氏距离的量化方法计算通路失常得分,比较通路相对于正常样本在食管癌样本中的动态功能变化;(7)功能差异比较分析:利用所有正常样本的失常得分计算均值μ和标准差sd,然后对于每个样本都做Z检验校正,若某个样本失常得分显著高,则信号在Z检验下被放大,反之则信号被削弱,对正常样本和食管癌两组失常得分做wilcox检验,根据显著性阈值p<0.05识别出食管癌相关的功能,这些筛选出的功能自身在食管癌发生过程中发生明显功能水平的偏差,或发生功能亢进,或被抑制,同时参与调控这些功能的基因也发生明显差异表达;(8)食管癌特异性共表达网络构建:将差异表达基因随机两两组合并计算在所有样本中的Pearson相关系数,根据所有基因对的相关系数分布设定阈值,超过阈值的基因对认为存在共表达相关性,根据任意两基因之间的共表达相关性构建系统网络,通过对网络拓扑性质的分析,识别网络中hub基因,这些基因在网络中具有较高的度或介数;(9)对基因进行特征选择:利用遗传算法模拟生物进化过程,通过亲本染色体重组过程,淘汰适应度低的子代,扩增适应度强的子代,从而优化出最适合的遗传信息组合,将所有特征基因随机组合形成特征链,初始化特征链长度为特征总数的50%,然后抽取一对特征链进行重组,使得子代特征链同时包含了来自亲本的特征信息,并计算子代适应度,用高适应度的子代特征链淘汰低适应度的子代特征链,此过程循环直至达到最大进化代数或模型收敛找到最优特征链,最后获得最优特征基因组合;(10)深度学习模型预测:利用遗传算法对特征基因进行进化筛选,获得食管癌显...

【专利技术属性】
技术研发人员:赵杰薛文华范智蕊李砺锋翟运开张腾飞田鑫张超奇宋晓琴马丙钧朱子家沈志博梁淑红
申请(专利权)人:郑州大学第一附属医院
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1