基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法技术

技术编号:21275565 阅读:51 留言:0更新日期:2019-06-06 09:08
本发明专利技术属于肺腺癌预测技术领域,具体涉及一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法,其包括数据重塑及分组、数据标准化、phase特异性基因提取、基因共表达相关性分析、无监督聚类分析、特异性和非特异性共表达网络分析、功能通路富集、显著变异通路识别、REE算法筛选早筛标识基因、基于早筛风险基因建立分类模型和生存分析验证等步骤。本发明专利技术方法可以实现对肺癌的早期诊断,同时识别出伴随肺癌进展而显著发生动态变化的基因标识。

【技术实现步骤摘要】
基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法
本专利技术属于肺腺癌预测
,具体涉及一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法。
技术介绍
肺腺癌(lungadenocarcinoma)是肺癌的一种,属于非小细胞癌。不同于鳞状细胞肺癌,肺腺癌较容易发生于女性及不抽烟者。起源于支气管粘膜上皮,少数起源于大支气管的粘液腺。发病率比鳞癌和未分化癌低,发病年龄较小,女性相对多见。多数腺癌起源于较小的支气管,为周围型肺癌。早期一般没有明显的临床症状,往往在胸部X线检查时被发现。表现为圆形或椭圆形肿块,一般生长较慢,但有时早期即发生血行转移,淋巴转移则发生较晚。对于肺腺癌的诊断检查,临床上常用的方法有以下几种:X线检查、支气管镜检查、放射性核素检查、细胞学检查、剖胸探查术、ECT检查、纵隔镜检查。但是上述诊断方法均不能满足对肺腺癌早期诊断的这种要求。
技术实现思路
本专利技术主要提供了一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法,可以实现对肺癌的早期诊断,同时识别出伴随肺癌进展而显著发生动态变化的基因标识。其技术方案如下:一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法,包括以下步骤:(1)数据重塑及分组:首先对肺癌数据根据样本临床信息进行分组,每个样本临床分级信息分为phaseI、phaseII、phaseIII、phaseIV四组;(2)数据标准化:对数据进行标准化预处理,对于缺失值大于10%的基因和样本进行剔除,其余存在缺失值的样本用对应基因在其他样本中的均值进行替换,以正常对照control组作为对照组,计算每个基因在对照组中的均值和标准差,然后对所有样本实现Z-score标准化,基因在对照组中的表达服从均值为0,方差为1的标准正态分布,因此若基因i在正常健康样本以及早期或中晚期的肺腺癌样本中不存在差异,则基因i的表达值应服从正态分布,否则认为基因i在早期或中晚期肺癌样本中相对于健康人群存在明显差异,这种差异表达基因可能成为肺腺癌早期诊断的标志物;(3)phase特异性基因提取:利用变异系数来评估基因在肺腺癌样本中的波动情况,变异系数通过公式1计算,其中,mean为基因在所有肺腺癌样本中的表达均值,sd为对应的标准差,CV越大说明基因正向波动越显著,CV越小说明基因负向波动越显著,根据变异系数在所有基因中的分布,只筛选出变异系数在双尾25%的基因作为可能和肺腺癌相关的基因,剩下的50%基因则由于在0附近存在较小的波动,因此可以认为和肺腺癌不相关,为了识别在肺腺癌早期即发生差异表达的基因,利用limma算法对于基因在control组和earlyphase患者中的表达情况进行显著性评估,显著性阈值为0.05且|logfc|>1,识别出的早期肺腺癌相关基因标记为Δ0,同样的,为了识别出在中晚期发生差异表达的基因,对control组和latephase的肺腺癌样本进行比较分析,识别出中晚期肺腺癌相关基因标记为Δ1,而早期风险基因与中晚期风险基因的交集,则称为既能实现早期诊断肺腺癌的特征,又是伴随肺腺癌进展的重要临床指标,标记为Δ2;(4)基因共表达相关性分析:考察了在control,earlyphase,latephase三个状态下,早期风险基因Δ0和中晚期风险基因Δ1,以及交集基因Δ2的表达相关性,采用pearson相关系数,大于0.5的认为是正相关,低于-0.5的认为是负相关;(5)无监督聚类分析:用相关性分析构建早期风险基因和中晚期风险基因的交集基因Δ2之间的相关系数矩阵,并利用层次聚类法实现对样本和基因的无监督聚类;(6)特异性和非特异性共表达网络分析:利用基因在controlgroup、earlyphase、latephase三个阶段的共表达模式进行特异性网络构建,同时利用交集基因在所有样本中稳定的共表达关系构建非特异性网络;(7)功能通路富集:利用交集基因Δ2进行功能富集分析,分析方法采用Fisher精确检验,获得的显著通路则为这些交集基因参与调控的功能;(8)显著变异通路识别:假设我们利用交集基因通过富集共获得N个通路,首先识别每个通路基因库中差异表达的基因,利用逆累积分布函数将ANOVA的P值转化为Z值并乘上基因的权重,通路P中差异表达的基因Z值由公式计算出通路的偏差得分A(P),计算公式如下公式3所示:计算过程中,首先将差异表达的基因Z值从大到小排序,Z值越大,基因的差异表达程度越高,假设通路P中包含k个差异表达基因,然后迭代的选取2个基因,3个基因….k个基因计算Zscore均值,当迭代到第t步时(1<t<k),计算t个基因的Zscore均值为最大值,则对应的t个基因对于通路P的贡献最大,计算出通路P在疾病状态下的偏差得分A(P);(9)REE算法筛选早筛标识基因:利用recursivefeatureelimination(RFE)算法对基因进行特征选择,最后筛选出显著的肺癌风险相关基因用于训练诊断预测模型;(10)基于早筛风险基因建立分类模型:利用有监督分类算法支持向量机(SVM)构建诊断分类模型,模型初始化参数包括核函数采用rbf非线性核,gamma为0,其他参数均采用默认参数,结合gridsearch进行参数优化,求解最优参数组合,并用五倍交叉验证绘制ROC曲线,评价模型分类效能;(11)生存分析验证:从TCGA数据库下载肺腺癌样本作为独立验证数据,并利用coxregression分析风险基因与肺腺癌样本overallsurvival整体生存期的相关性。优选的,步骤(1)中数据分组时,从GEO数据库下载的GSE20189原始下载数据包括22277个基因和162个样本,经过和临床信息比较,control对照组样本81个,earlyphase即phaseI患者28个,latephase即中晚期phaseII-phaseIV患者53个。优选的,步骤(3)中根据limma算法识别出866个earlyphase相关差异表达基因,其中136个上调基因,730个下调基因,识别出913latephase相关差异表达基因,其中419个上调基因,494个下调基因,由此可知,在肺腺癌早期阶段下调基因占优势,而随着疾病进展,在中晚期阶段则体现出上调基因占优势,提示了随着肺腺癌进展,越来越多的基因发生上调高表达。优选的,经步骤(4)基因共表达相关性分析后,发现从正常状态到早期和晚期三个阶段中有164个交集基因均体现出差异性。优选的,步骤(6)中,网络构建用cytoscape软件实现,并利用networkanalysis插件进行网络拓扑性质分析,正常样本特异性网络体现了基因之间的固有互作关系,早期肺癌特异性网络体现了进入疾病初期基因之间共表达关系的异常,中晚期特异性网络体现了随着疾病进展,更多的基因关联发生变异,整个网络拓扑性质发生显著差异,利用交集基因Δ2构建非特异性网络,并进行拓扑性质分析,最后利用基因节点在网络中的degree度分布来评价基因的重要性,度越高,说明基因发生异常表达时影响的周围临近基因越多,所有交集基因的度均通过公式2的sigmoid函数转换为0-1的权重,不在网络中的基因权重默认为最小值,本文档来自技高网...

【技术保护点】
1.一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法,其特征在于:包括以下步骤:(1)数据重塑及分组:首先对肺癌数据根据样本临床信息进行分组,每个样本临床分级信息分为phaseI、phaseII、phaseIII、phaseIV四组;(2)数据标准化:对数据进行标准化预处理,对于缺失值大于10%的基因和样本进行剔除,其余存在缺失值的样本用对应基因在其他样本中的均值进行替换,以正常对照control组作为对照组,计算每个基因在对照组中的均值和标准差,然后对所有样本实现Z‑score标准化,基因在对照组中的表达服从均值为0,方差为1的标准正态分布,因此若基因i在正常健康样本以及早期或中晚期的肺腺癌样本中不存在差异,则基因i的表达值应服从正态分布,否则认为基因i在早期或中晚期肺癌样本中相对于健康人群存在明显差异,这种差异表达基因可能成为肺腺癌早期诊断的标志物;(3)phase特异性基因提取:利用变异系数来评估基因在肺腺癌样本中的波动情况,变异系数通过公式1计算,

【技术特征摘要】
1.一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法,其特征在于:包括以下步骤:(1)数据重塑及分组:首先对肺癌数据根据样本临床信息进行分组,每个样本临床分级信息分为phaseI、phaseII、phaseIII、phaseIV四组;(2)数据标准化:对数据进行标准化预处理,对于缺失值大于10%的基因和样本进行剔除,其余存在缺失值的样本用对应基因在其他样本中的均值进行替换,以正常对照control组作为对照组,计算每个基因在对照组中的均值和标准差,然后对所有样本实现Z-score标准化,基因在对照组中的表达服从均值为0,方差为1的标准正态分布,因此若基因i在正常健康样本以及早期或中晚期的肺腺癌样本中不存在差异,则基因i的表达值应服从正态分布,否则认为基因i在早期或中晚期肺癌样本中相对于健康人群存在明显差异,这种差异表达基因可能成为肺腺癌早期诊断的标志物;(3)phase特异性基因提取:利用变异系数来评估基因在肺腺癌样本中的波动情况,变异系数通过公式1计算,其中,mean为基因在所有肺腺癌样本中的表达均值,sd为对应的标准差,CV越大说明基因正向波动越显著,CV越小说明基因负向波动越显著,根据变异系数在所有基因中的分布,只筛选出变异系数在双尾25%的基因作为可能和肺腺癌相关的基因,剩下的50%基因则由于在0附近存在较小的波动,因此可以认为和肺腺癌不相关,为了识别在肺腺癌早期即发生差异表达的基因,利用limma算法对于基因在control组和earlyphase患者中的表达情况进行显著性评估,显著性阈值为0.05且|logfc|>1,识别出的早期肺腺癌相关基因标记为Δ0,同样的,为了识别出在中晚期发生差异表达的基因,对control组和latephase的肺腺癌样本进行比较分析,识别出中晚期肺腺癌相关基因标记为Δ1,而早期风险基因与中晚期风险基因的交集,则称为既能实现早期诊断肺腺癌的特征,又是伴随肺腺癌进展的重要临床指标,标记为Δ2;(4)基因共表达相关性分析:考察了在control,earlyphase,latephase三个状态下,早期风险基因Δ0和中晚期风险基因Δ1,以及交集基因Δ2的表达相关性,采用pearson相关系数,大于0.5的认为是正相关,低于-0.5的认为是负相关;(5)无监督聚类分析:用相关性分析构建早期风险基因和中晚期风险基因的交集基因Δ2之间的相关系数矩阵,并利用层次聚类法实现对样本和基因的无监督聚类;(6)特异性和非特异性共表达网络分析:利用基因在controlgroup、earlyphase、latephase三个阶段的共表达模式进行特异性网络构建,同时利用交集基因在所有样本中稳定的共表达关系构建非特异性网络;(7)功能通路富集:利用交集基因Δ2进行功能富集分析,分析方法采用Fisher精确检验,获得的显著通路则为这些交集基因参与调控的功能;(8)显著变异通路识别:假设我们利用交集基因通过富集共获得N个通路,首先识别每个通路基因库中差异表达的基因,利用逆累积分布函数将ANOVA的P值转化为Z值并乘上基因的权重,通路P中差异表达的基因Z值由公式计算出通路的偏差得分A(P),计算公式如下公式3所示:计算过程中,首先将差异表达的基因Z值从大到小排序,Z值越大,基因的差异表达程度越高,假设通路P中包含k个差异表达基因,然后迭代的选取2个基因,3个基因….k个基因计算Zscore均值,当迭代到第t步时(1<t<k),计算t个基因的Zscore均值为最大值,则对应的t个基因对于通路P的贡献最大,计算出通路P在疾病状态下的偏差得分A(P);(9)REE算法筛选早筛标识基因:利用recursivefeatureelimination(RFE)算法对基因进行特征选择,最后筛选出显著的肺癌风险相关基因用于训练诊断预测模型;(10)基于早筛风险基因建立分类模型:利用有监督分类算法支持向量机(SVM)构建诊断分类模型,模型初始化参数包括核函数采用rbf非线性核,gamma为0,其他参数均采用默认参数,结合gridsearch进...

【专利技术属性】
技术研发人员:赵杰李砺锋张超奇薛文华翟运开范智蕊张腾飞丁显飞宋晓琴沈志博马丙钧朱子家梁淑红
申请(专利权)人:郑州大学第一附属医院
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1