基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法技术

技术编号：21275565 阅读：51 留言：0更新日期：2019-06-06 09:08

本发明专利技术属于肺腺癌预测技术领域，具体涉及一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，其包括数据重塑及分组、数据标准化、phase特异性基因提取、基因共表达相关性分析、无监督聚类分析、特异性和非特异性共表达网络分析、功能通路富集、显著变异通路识别、REE算法筛选早筛标识基因、基于早筛风险基因建立分类模型和生存分析验证等步骤。本发明专利技术方法可以实现对肺癌的早期诊断，同时识别出伴随肺癌进展而显著发生动态变化的基因标识。

全部详细技术资料下载

【技术实现步骤摘要】
基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法
本专利技术属于肺腺癌预测
，具体涉及一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法。
技术介绍
肺腺癌(lungadenocarcinoma)是肺癌的一种，属于非小细胞癌。不同于鳞状细胞肺癌，肺腺癌较容易发生于女性及不抽烟者。起源于支气管粘膜上皮，少数起源于大支气管的粘液腺。发病率比鳞癌和未分化癌低，发病年龄较小，女性相对多见。多数腺癌起源于较小的支气管，为周围型肺癌。早期一般没有明显的临床症状，往往在胸部X线检查时被发现。表现为圆形或椭圆形肿块，一般生长较慢，但有时早期即发生血行转移，淋巴转移则发生较晚。对于肺腺癌的诊断检查，临床上常用的方法有以下几种：X线检查、支气管镜检查、放射性核素检查、细胞学检查、剖胸探查术、ECT检查、纵隔镜检查。但是上述诊断方法均不能满足对肺腺癌早期诊断的这种要求。
技术实现思路
本专利技术主要提供了一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，可以实现对肺癌的早期诊断，同时识别出伴随肺癌进展而显著发生动态变化的基因标识。其技术方案如下：一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，包括以下步骤：(1)数据重塑及分组：首先对肺癌数据根据样本临床信息进行分组，每个样本临床分级信息分为phaseI、phaseII、phaseIII、phaseIV四组；(2)数据标准化：对数据进行标准化预处理，对于缺失值大于10％的基因和样本进行剔除，其余存在缺失值的样本用对应基因在其他样本中的均值进行替换，以正常对照c...

【技术保护点】
1.一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，其特征在于：包括以下步骤：(1)数据重塑及分组：首先对肺癌数据根据样本临床信息进行分组，每个样本临床分级信息分为phaseI、phaseII、phaseIII、phaseIV四组；(2)数据标准化：对数据进行标准化预处理，对于缺失值大于10％的基因和样本进行剔除，其余存在缺失值的样本用对应基因在其他样本中的均值进行替换，以正常对照control组作为对照组，计算每个基因在对照组中的均值和标准差，然后对所有样本实现Z‑score标准化，基因在对照组中的表达服从均值为0，方差为1的标准正态分布，因此若基因i在正常健康样本以及早期或中晚期的肺腺癌样本中不存在差异，则基因i的表达值应服从正态分布，否则认为基因i在早期或中晚期肺癌样本中相对于健康人群存在明显差异，这种差异表达基因可能成为肺腺癌早期诊断的标志物；(3)phase特异性基因提取：利用变异系数来评估基因在肺腺癌样本中的波动情况，变异系数通过公式1计算，

【技术特征摘要】
1.一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，其特征在于：包括以下步骤：(1)数据重塑及分组：首先对肺癌数据根据样本临床信息进行分组，每个样本临床分级信息分为phaseI、phaseII、phaseIII、phaseIV四组；(2)数据标准化：对数据进行标准化预处理，对于缺失值大于10％的基因和样本进行剔除，其余存在缺失值的样本用对应基因在其他样本中的均值进行替换，以正常对照control组作为对照组，计算每个基因在对照组中的均值和标准差，然后对所有样本实现Z-score标准化，基因在对照组中的表达服从均值为0，方差为1的标准正态分布，因此若基因i在正常健康样本以及早期或中晚期的肺腺癌样本中不存在差异，则基因i的表达值应服从正态分布，否则认为基因i在早期或中晚期肺癌样本中相对于健康人群存在明显差异，这种差异表达基因可能成为肺腺癌早期诊断的标志物；(3)phase特异性基因提取：利用变异系数来评估基因在肺腺癌样本中的波动情况，变异系数通过公式1计算，其中，mean为基因在所有肺腺癌样本中的表达均值，sd为对应的标准差，CV越大说明基因正向波动越显著，CV越小说明基因负向波动越显著，根据变异系数在所有基因中的分布，只筛选出变异系数在双尾25％的基因作为可能和肺腺癌相关的基因，剩下的50％基因则由于在0附近存在较小的波动，因此可以认为和肺腺癌不相关，为了识别在肺腺癌早期即发生差异表达的基因，利用limma算法对于基因在control组和earlyphase患者中的表达情况进行显著性评估，显著性阈值为0.05且|logfc|>1，识别出的早期肺腺癌相关基因标记为Δ0，同样的，为了识别出在中晚期发生差异表达的基因，对control组和latephase的肺腺癌样本进行比较分析，识别出中晚期肺腺癌相关基因标记为Δ1，而早期风险基因与中晚期风险基因的交集，则称为既能实现早期诊断肺腺癌的特征，又是伴随肺腺癌进展的重要临床指标，标记为Δ2；(4)基因共表达相关性分析：考察了在control，earlyphase，latephase三个状态下，早期风险基因Δ0和中晚期风险基因Δ1，以及交集基因Δ2的表达相关性，采用pearson相关系数，大于0.5的认为是正相关，低于-0.5的认为是负相关；(5)无监督聚类分析：用相关性分析构建早期风险基因和中晚期风险基因的交集基因Δ2之间的相关系数矩阵，并利用层次聚类法实现对样本和基因的无监督聚类；(6)特异性和非特异性共表达网络分析：利用基因在controlgroup、earlyphase、latephase三个阶段的共表达模式进行特异性网络构建，同时利用交集基因在所有样本中稳定的共表达关系构建非特异性网络；(7)功能通路富集：利用交集基因Δ2进行功能富集分析，分析方法采用Fisher精确检验，获得的显著通路则为这些交集基因参与调控的功能；(8)显著变异通路识别：假设我们利用交集基因通过富集共获得N个通路，首先识别每个通路基因库中差异表达的基因，利用逆累积分布函数将ANOVA的P值转化为Z值并乘上基因的权重，通路P中差异表达的基因Z值由公式计算出通路的偏差得分A(P)，计算公式如下公式3所示：计算过程中，首先将差异表达的基因Z值从大到小排序，Z值越大，基因的差异表达程度越高，假设通路P中包含k个差异表达基因，然后迭代的选取2个基因，3个基因….k个基因计算Zscore均值，当迭代到第t步时(1<t<k)，计算t个基因的Zscore均值为最大值，则对应的t个基因对于通路P的贡献最大，计算出通路P在疾病状态下的偏差得分A(P)；(9)REE算法筛选早筛标识基因：利用recursivefeatureelimination(RFE)算法对基因进行特征选择，最后筛选出显著的肺癌风险相关基因用于训练诊断预测模型；(10)基于早筛风险基因建立分类模型：利用有监督分类算法支持向量机(SVM)构建诊断分类模型，模型初始化参数包括核函数采用rbf非线性核，gamma为0，其他参数均采用默认参数，结合gridsearch进...

【专利技术属性】
技术研发人员：赵杰，李砺锋，张超奇，薛文华，翟运开，范智蕊，张腾飞，丁显飞，宋晓琴，沈志博，马丙钧，朱子家，梁淑红，
申请(专利权)人：郑州大学第一附属医院，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人