基于临床表型和逻辑回归分析的食管鳞癌风险预测方法技术

技术编号:26973793 阅读:21 留言:0更新日期:2021-01-06 00:07
本发明专利技术提出了一种基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,用以实现对食管鳞癌患者的预后生存风险评估。其步骤为:首先,根据食管鳞癌患者的临床检测数据筛选出特征指标,并根据特征指标构建决策树分类器;其次,利用决策树分类器将食管鳞癌患者分为早期和中晚期食管鳞癌患者;然后,获取食管鳞癌患者术前一周的血液指标信息,筛选出与食管鳞癌患者生存风险相关性高的血液指标并构建逻辑回归模型;再将分类后的食管鳞癌患者的血液指标输入逻辑回归模型中,得到食管鳞癌患者的预后生存风险概率值;进而判断预后生存风险的高低。本发明专利技术较为准确地判断食管鳞癌患者术后的生存状态,提高风险预测的性能,降低风险预测的成本。

【技术实现步骤摘要】
基于临床表型和逻辑回归分析的食管鳞癌风险预测方法
本专利技术涉及机器学习的
,特别是指一种基于临床表型和逻辑回归分析的食管鳞癌风险预测方法。
技术介绍
随着癌症发病率逐渐提高,基于模型预测癌症的预后已经广泛应用于不同的疾病,而对癌症患者进行精准的预后仍然是当前所面临的首要问题。临床上检测到的数据是典型的多重共线性、维度高、多噪声的特点,这使得数据本身存在信息冗余、非线性等问题,特别是“高维度”数据特点一直是影响数据挖掘的重大难题,一方面“高维度”使得对数据的处理需要高昂的运算代价,另一方面数据本身也无法直接体现本质属性。近年来,国内外的研究学者针对维度灾难这一问题进行了思考和探讨,并且致力于生物信息的特征提取方法的研究。特征选择和模型构建是学术界和医学领域的一个研究热点和重点,好的特征选择能够提升模型的性能,更能帮助理解数据的特点、底层结构,有助于改善模型。现有技术中,有以下几种方法用于训练数据的特征选择和模型构建:(1)单因素方差分析能够对每一个特征进行测试,衡量该特征和因变量之间的关系,舍弃掉不理想的特征信息;(2)使用皮尔森相关系数衡量变量之间的线性相关性,建立变量之间的关联性;(3)线性回归是常用的一种建模方法。上述方法都是采用常规的方法筛选特征变量进而建立预测模型,使得现有模型的识别率较低,然而,当今的医学界需要一种能准确判断预后风险的方法。
技术实现思路
针对上述
技术介绍
中存在的不足,本专利技术提出了一种基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,解决了现有预测模型由于特征筛选不全,造成识别率低的技术问题。本专利技术的技术方案是这样实现的:一种基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其步骤如下:步骤一:获取食管鳞癌患者的临床检测数据,根据临床检测数据筛选出与食管鳞癌患者分类相关性高的特征指标;步骤二:根据与食管鳞癌患者分类相关性高的特征指标构建决策树分类器;步骤三:将待分类的食管鳞癌患者的特征指标输入决策树分类器,得到食管鳞癌患者的分类结果;步骤四:获取食管鳞癌患者术前一周的血液指标信息,通过构建血液指标信息的ROC曲线筛选出与食管鳞癌患者生存风险相关性高的血液指标;步骤五:根据与食管鳞癌患者生存风险相关性高的血液指标构建逻辑回归模型;步骤六:将步骤三中分类后的食管鳞癌患者的血液指标输入逻辑回归模型中,得到食管鳞癌患者的预后生存风险概率值;步骤七:判断预后生存风险概率值是否大于阈值γ,若是,预后生存风险为高风险,否则,预后生存风险为低风险,其中,阈值γ表示由ROC曲线构造的高风险和低风险的临界值。所述食管鳞癌患者的临床检测数据中的指标包括性别、病理诊断、肿瘤部位、肿瘤的长度、肿瘤的宽度、肿瘤的厚度、肿瘤的类型、病理分化程度、肿瘤浸润程度、阴性、淋巴结阳性转移、T分期、N分期、M分期、第八版TNM分期。所述根据临床检测数据筛选出与食管鳞癌患者分类相关性高的特征指标的方法为:S11、计算临床检测数据中所有指标的卡方值,将卡方值与卡方表一一对应,得到所有指标的P值,筛选出P<0.05的指标作为初步特征指标;其中,初步特征指标具体指性别、病理分化程度、肿瘤浸润程度和淋巴结阳性转移;S12、分别计算每个初步特征指标在属性划分前的信息熵和属性划分后的信息熵,并根据属性划分前的信息熵和属性划分后的信息熵计算初步特征指标的信息增益;S13、根据信息增益的大小对初步特征指标进行筛选,得到与食管鳞癌患者分类相关性高的特征指标;其中与食管鳞癌患者分类相关性高的特征指标包括肿瘤浸润程度和淋巴结阳性转移。所述临床检测数据中所有指标的卡方值的计算方法为:其中,k表示指标类别,指标k取值范围是k∈{1,2,...,nk},nk表示指标总数,表示指标k的卡方值,i表示指标的属性类别,i∈{1,2,...,mk},mk表示指标k的属性类别总数,j表示食管鳞癌患者的分类类别,j∈{1,2},Akij表示指标类别为k属性值为i且属于第j类食管鳞癌患者的实际人数,Tkij表示指标类别为k属性值为i且属于第j类食管鳞癌患者的理论人数。所述指标类别为k属性值为i且属于第j类食管鳞癌患者的理论人数Tkij的计算公式为:所述属性划分前的信息熵的计算方法为:其中,InfoBefore(H(x))表示不考虑指标类别时患者确诊为食管鳞癌事件x的信息熵,H(x)表示患者确诊为食管鳞癌事件x发生的信息熵,P(xj)表示患者属于第j类食管鳞癌事件发生的概率,j表示食管鳞癌患者的分类类别,j∈{1,2};所述属性划分后的信息熵的计算方法为:其中,InfoAfter(H(xk))表示考虑指标类别时患者确诊为食管鳞癌事件xk的信息熵,k表示指标类别,指标k取值范围是k∈{1,2,...,nk},nk表示指标总数,H(xk)表示患者确诊为食管鳞癌事件xk发生的信息熵,xki表示在指标k属性值为i的患者确诊食管鳞癌事件,P(xki)表示事件xki发生的概率,xkij表示在指标k属性值为i且属于第j类患者确诊食管鳞癌事件,i表示当前指标的属性类别,i∈{1,2,...,mi},mi表示当前指标的属性类别总数;所述初步特征指标的信息增益的计算方法为:△H(xk)=InfoBefore(H(xk))-InfoAfter(H(xk)),其中,△H(xk)表示初步特征指标k的信息增益,InfoBefore(H(xk))=InfoBefore(H(x))表示不考虑指标类别时事件xk发生的信息熵。所述决策树分类器的构建方法为:将淋巴结阳性转移作为决策树的根节点,将肿瘤浸润程度作为决策树的叶节点构建决策树分类器。所述血液指标信息包括白细胞计数、淋巴细胞计数、单核细胞计数、中性粒细胞计数、嗜酸性粒细胞计数、嗜碱性粒细胞计数、红细胞计数、血红蛋白浓度、血小板计数、总蛋白、白蛋白、球蛋白、凝血酶原时间、活化部分凝血活酶时间、凝血酶时间和纤维蛋白原。所述通过构建血液指标信息的ROC曲线筛选出与食管鳞癌患者生存风险相关性高的血液指标的方法为:分别绘制血液指标信息中所有血液指标的ROC曲线,根据ROC曲线得到每个血液指标的AUC和P'值;根据统计学理论,ROC曲线下的面积值在1.0和0.5之间,筛选出AUC>0.5且P'<0.05的血液指标作为与食管鳞癌患者生存风险相关性高的血液指标;其中,与食管鳞癌患者生存风险相关性高的血液指标包括变量白细胞计数、单核细胞计数、中性粒细胞计数、嗜酸性粒细胞计数和总蛋白。所述逻辑回归模型为:logit(p)=β0+β1X1+β2X2+…+βmXm,其中,p表示食管鳞癌患者被划分为低风险的概率,logit(p)表示食管鳞癌患者被划分为低风险的概率的对数发生比,X1表示第1个变量的取值,X2表示第2个变量的取值,Xm表示第m个变量的取值,m表示逻辑回归模型中变量因子的个数,本文档来自技高网...

【技术保护点】
1.一种基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其特征在于,其步骤如下:/n步骤一:获取食管鳞癌患者的临床检测数据,根据临床检测数据筛选出与食管鳞癌患者分类相关性高的特征指标;/n步骤二:根据与食管鳞癌患者分类相关性高的特征指标构建决策树分类器;/n步骤三:将待分类的食管鳞癌患者的特征指标输入决策树分类器,得到食管鳞癌患者的分类结果;/n步骤四:获取食管鳞癌患者术前一周的血液指标信息,通过构建血液指标信息的ROC曲线筛选出与食管鳞癌患者生存风险相关性高的血液指标;/n步骤五:根据与食管鳞癌患者生存风险相关性高的血液指标构建逻辑回归模型;/n步骤六:将步骤三中分类后的食管鳞癌患者的血液指标输入逻辑回归模型中,得到食管鳞癌患者的预后生存风险概率值;/n步骤七:判断预后生存风险概率值是否大于阈值γ,若是,预后生存风险为高风险,否则,预后生存风险为低风险,其中,阈值γ表示由ROC曲线构造的高风险和低风险的临界值。/n

【技术特征摘要】
1.一种基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其特征在于,其步骤如下:
步骤一:获取食管鳞癌患者的临床检测数据,根据临床检测数据筛选出与食管鳞癌患者分类相关性高的特征指标;
步骤二:根据与食管鳞癌患者分类相关性高的特征指标构建决策树分类器;
步骤三:将待分类的食管鳞癌患者的特征指标输入决策树分类器,得到食管鳞癌患者的分类结果;
步骤四:获取食管鳞癌患者术前一周的血液指标信息,通过构建血液指标信息的ROC曲线筛选出与食管鳞癌患者生存风险相关性高的血液指标;
步骤五:根据与食管鳞癌患者生存风险相关性高的血液指标构建逻辑回归模型;
步骤六:将步骤三中分类后的食管鳞癌患者的血液指标输入逻辑回归模型中,得到食管鳞癌患者的预后生存风险概率值;
步骤七:判断预后生存风险概率值是否大于阈值γ,若是,预后生存风险为高风险,否则,预后生存风险为低风险,其中,阈值γ表示由ROC曲线构造的高风险和低风险的临界值。


2.根据权利要求1所述的基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其特征在于,所述食管鳞癌患者的临床检测数据中的指标包括性别、病理诊断、肿瘤部位、肿瘤的长度、肿瘤的宽度、肿瘤的厚度、肿瘤的类型、病理分化程度、肿瘤浸润程度、阴性、淋巴结阳性转移、T分期、N分期、M分期、第八版TNM分期。


3.根据权利要求2所述的基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其特征在于,所述根据临床检测数据筛选出与食管鳞癌患者分类相关性高的特征指标的方法为:
S11、计算临床检测数据中所有指标的卡方值,将卡方值与卡方表一一对应,得到所有指标的P值,筛选出P<0.05的指标作为初步特征指标;其中,初步特征指标具体指性别、病理分化程度、肿瘤浸润程度和淋巴结阳性转移;
S12、分别计算每个初步特征指标在属性划分前的信息熵和属性划分后的信息熵,并根据属性划分前的信息熵和属性划分后的信息熵计算初步特征指标的信息增益;
S13、根据信息增益的大小对初步特征指标进行筛选,得到与食管鳞癌患者分类相关性高的特征指标;其中与食管鳞癌患者分类相关性高的特征指标包括肿瘤浸润程度和淋巴结阳性转移。


4.根据权利要求3所述的基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其特征在于,所述临床检测数据中所有指标的卡方值的计算方法为:



其中,k表示指标类别,指标k取值范围是k∈{1,2,...,nk},nk表示指标总数,χk2表示指标k的卡方值,i表示指标的属性类别,i∈{1,2,...,mk},mk表示指标k的属性类别总数,j表示食管鳞癌患者的分类类别,j∈{1,2},Akij表示指标类别为k属性值为i且属于第j类食管鳞癌患者的实际人数,Tkij表示指标类别为k属性值为i且属于第j类食管鳞癌患者的理论人数。


5.根据权利要求4所述的基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其特征在于,所述指标类别为k属性值为i且属于第j类食管鳞癌患者的理论人数Tkij的计算公式为:





6.根据权利要求3所述的基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其特征在于,所述属性划分前的信息熵的计算方法为:

【专利技术属性】
技术研发人员:王延峰凌丹张桢桢孙军伟王妍王英聪黄春张勋才王立东宋昕赵学科
申请(专利权)人:郑州轻工业大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1