【技术实现步骤摘要】
基于临床表型和逻辑回归分析的食管鳞癌风险预测方法
本专利技术涉及机器学习的
,特别是指一种基于临床表型和逻辑回归分析的食管鳞癌风险预测方法。
技术介绍
随着癌症发病率逐渐提高,基于模型预测癌症的预后已经广泛应用于不同的疾病,而对癌症患者进行精准的预后仍然是当前所面临的首要问题。临床上检测到的数据是典型的多重共线性、维度高、多噪声的特点,这使得数据本身存在信息冗余、非线性等问题,特别是“高维度”数据特点一直是影响数据挖掘的重大难题,一方面“高维度”使得对数据的处理需要高昂的运算代价,另一方面数据本身也无法直接体现本质属性。近年来,国内外的研究学者针对维度灾难这一问题进行了思考和探讨,并且致力于生物信息的特征提取方法的研究。特征选择和模型构建是学术界和医学领域的一个研究热点和重点,好的特征选择能够提升模型的性能,更能帮助理解数据的特点、底层结构,有助于改善模型。现有技术中,有以下几种方法用于训练数据的特征选择和模型构建:(1)单因素方差分析能够对每一个特征进行测试,衡量该特征和因变量之间的关系,舍弃掉不理想的特征信息;(2)使用皮尔森相关系数衡量变量之间的线性相关性,建立变量之间的关联性;(3)线性回归是常用的一种建模方法。上述方法都是采用常规的方法筛选特征变量进而建立预测模型,使得现有模型的识别率较低,然而,当今的医学界需要一种能准确判断预后风险的方法。
技术实现思路
针对上述
技术介绍
中存在的不足,本专利技术提出了一种基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,解决了现有预测模型由于特征 ...
【技术保护点】
1.一种基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其特征在于,其步骤如下:/n步骤一:获取食管鳞癌患者的临床检测数据,根据临床检测数据筛选出与食管鳞癌患者分类相关性高的特征指标;/n步骤二:根据与食管鳞癌患者分类相关性高的特征指标构建决策树分类器;/n步骤三:将待分类的食管鳞癌患者的特征指标输入决策树分类器,得到食管鳞癌患者的分类结果;/n步骤四:获取食管鳞癌患者术前一周的血液指标信息,通过构建血液指标信息的ROC曲线筛选出与食管鳞癌患者生存风险相关性高的血液指标;/n步骤五:根据与食管鳞癌患者生存风险相关性高的血液指标构建逻辑回归模型;/n步骤六:将步骤三中分类后的食管鳞癌患者的血液指标输入逻辑回归模型中,得到食管鳞癌患者的预后生存风险概率值;/n步骤七:判断预后生存风险概率值是否大于阈值γ,若是,预后生存风险为高风险,否则,预后生存风险为低风险,其中,阈值γ表示由ROC曲线构造的高风险和低风险的临界值。/n
【技术特征摘要】 【专利技术属性】
1.一种基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其特征在于,其步骤如下:
步骤一:获取食管鳞癌患者的临床检测数据,根据临床检测数据筛选出与食管鳞癌患者分类相关性高的特征指标;
步骤二:根据与食管鳞癌患者分类相关性高的特征指标构建决策树分类器;
步骤三:将待分类的食管鳞癌患者的特征指标输入决策树分类器,得到食管鳞癌患者的分类结果;
步骤四:获取食管鳞癌患者术前一周的血液指标信息,通过构建血液指标信息的ROC曲线筛选出与食管鳞癌患者生存风险相关性高的血液指标;
步骤五:根据与食管鳞癌患者生存风险相关性高的血液指标构建逻辑回归模型;
步骤六:将步骤三中分类后的食管鳞癌患者的血液指标输入逻辑回归模型中,得到食管鳞癌患者的预后生存风险概率值;
步骤七:判断预后生存风险概率值是否大于阈值γ,若是,预后生存风险为高风险,否则,预后生存风险为低风险,其中,阈值γ表示由ROC曲线构造的高风险和低风险的临界值。
2.根据权利要求1所述的基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其特征在于,所述食管鳞癌患者的临床检测数据中的指标包括性别、病理诊断、肿瘤部位、肿瘤的长度、肿瘤的宽度、肿瘤的厚度、肿瘤的类型、病理分化程度、肿瘤浸润程度、阴性、淋巴结阳性转移、T分期、N分期、M分期、第八版TNM分期。
3.根据权利要求2所述的基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其特征在于,所述根据临床检测数据筛选出与食管鳞癌患者分类相关性高的特征指标的方法为:
S11、计算临床检测数据中所有指标的卡方值,将卡方值与卡方表一一对应,得到所有指标的P值,筛选出P<0.05的指标作为初步特征指标;其中,初步特征指标具体指性别、病理分化程度、肿瘤浸润程度和淋巴结阳性转移;
S12、分别计算每个初步特征指标在属性划分前的信息熵和属性划分后的信息熵,并根据属性划分前的信息熵和属性划分后的信息熵计算初步特征指标的信息增益;
S13、根据信息增益的大小对初步特征指标进行筛选,得到与食管鳞癌患者分类相关性高的特征指标;其中与食管鳞癌患者分类相关性高的特征指标包括肿瘤浸润程度和淋巴结阳性转移。
4.根据权利要求3所述的基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其特征在于,所述临床检测数据中所有指标的卡方值的计算方法为:
其中,k表示指标类别,指标k取值范围是k∈{1,2,...,nk},nk表示指标总数,χk2表示指标k的卡方值,i表示指标的属性类别,i∈{1,2,...,mk},mk表示指标k的属性类别总数,j表示食管鳞癌患者的分类类别,j∈{1,2},Akij表示指标类别为k属性值为i且属于第j类食管鳞癌患者的实际人数,Tkij表示指标类别为k属性值为i且属于第j类食管鳞癌患者的理论人数。
5.根据权利要求4所述的基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其特征在于,所述指标类别为k属性值为i且属于第j类食管鳞癌患者的理论人数Tkij的计算公式为:
6.根据权利要求3所述的基于临床表型和逻辑回归分析的食管鳞癌风险预测方法,其特征在于,所述属性划分前的信息熵的计算方法为:
技术研发人员:王延峰,凌丹,张桢桢,孙军伟,王妍,王英聪,黄春,张勋才,王立东,宋昕,赵学科,
申请(专利权)人:郑州轻工业大学,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。