结直肠癌术后LARS预测模型的构建方法及预测系统技术方案

技术编号:37262580 阅读:7 留言:0更新日期:2023-04-20 23:35
本发明专利技术公开了结直肠癌术后LARS预测模型的构建方法及预测系统,包括:获取第一样本对;生成第二样本对;训练生成预测模型;选出测试集对预测模型测试;在聚类空间内标定预测模型;进行半监督聚类分析生成聚类结果;将患者变量作为结直肠癌术后LARS预测模型的输入数据,将对应的最优的预测模型的输出数据作为结直肠癌术后LARS预测模型的输出数据。本发明专利技术通过将不同的患者变量对应不同的预测模型,避免了单一模型对LARS预测精度差的问题,在预测模型使用过程中,只需要选择对应患者变量的最优预测模型进行预测,就可以获得精度很好的LARS预测数据。预测数据。预测数据。

【技术实现步骤摘要】
结直肠癌术后LARS预测模型的构建方法及预测系统


[0001]本专利技术涉及信息分析
,具体涉及结直肠癌术后LARS预测模型的构建方法及预测系统。

技术介绍

[0002]结直肠癌是世界第三常见的癌症,也是发达国家第二癌症相关的死亡原因。随着结直肠癌诊疗技术的不断发展以及医患双方对术后生活质量要求的愈发重视,保肛手术也成为越来越多的结直肠癌首选术式,并在一定程度上改善了患者的生活质量。但许多结直肠癌患者保肛术后出现了不同程度的排便次数增加、便急、气便失禁、排便不尽等症状,即低位前切除综合征,这对患者生活质量产生了严重的影响。目前国内仅有一些研究涉及了低位前切综合征发生的影响因素,其中包括患者的基本情况(如性别、年龄)、肿瘤分期和治疗方案(如是否进行术前化疗)等各方面因素,这些因素可能与低位前切综合征(Low Anterior Resection Syndrome, LARS)发生以及发生的严重性有一定相关性。但目前国内及国际上均没有研究或产品能够对结直肠癌术后低位前切综合征的发生进行预测。
[0003]故本申请依托于大量结直肠癌患者的临床数据,开展一项前瞻性队列研究,进行合适的数据分析基于机器学习方法构建了低位前切综合征的预测模型。

技术实现思路

[0004]为了至少克服现有技术中的上述不足,本申请的目的在于提供结直肠癌术后LARS预测模型的构建方法及预测系统。
[0005]第一方面,本申请实施例提供了结直肠癌术后LARS预测模型的构建方法,包括:从样本库中获取第一样本对;所述第一样本对为患者变量和LARS评分的对应关系;对所述第一样本对中患者变量进行预处理生成第二样本对;从所述第二样本对中选出训练集,并通过所述训练集对多种模型进行训练生成多个对应不同模型的预测模型;从所述第二样本对中选出多组对应不同患者变量的测试集对所有所述预测模型进行测试生成测试评价数据;以所述测试评价数据和对应的所述患者变量构建聚类空间,并在所述聚类空间内标定所有的所述预测模型;根据所述测试评价数据对所有第二样本对进行半监督聚类分析生成聚类结果;所述聚类结果为所述第二样本对中患者变量对应的最优的预测模型;将所述患者变量作为结直肠癌术后LARS预测模型的输入数据,将对应的所述最优的预测模型的输出数据作为结直肠癌术后LARS预测模型的输出数据完成结直肠癌术后LARS预测模型的构建。
[0006]现有技术中,对于医用预测模型的研究已经有所展开,如申请号为
202111071269.5的中国专利公开了肺癌手术后生存率预测模型构建方法和预测模型系统,其通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法包括:数据获取步骤,获取肺癌手术后临床数据;预处理步骤,对肺癌手术后临床数据进行分类分组,得到建模组临床数据和验证组临床数据;危险因素筛选步骤,对建模组临床数据进行危险因素筛选,得到危险因素数据和总生存期数据;回归分析步骤,对危险因素数据和总生存期数据进行回归分析,得到回归分析后数据,肺癌手术后临床数据包括基因突变分型,年龄,肿瘤大小,淋巴结转移,手术方式。专利技术人发现由于医学样本的复杂性,无论是如何进行参数筛选和模型修正,都很难获取较为准确的预测结果。
[0007]本申请实施例实施时,为了有效提高预测模型的预测精度,将从样本库中提取的第一样本对处理为第二样本对后,对多种不同的模型进行训练生成对应的不同的预测模型,这些模型可以是逻辑回归模型、支持向量机、决策树模型、随机森林模型和神经网络模型中的任意多种,训练出来的预测模型也对应上述模型的类型。专利技术人发现,每个模型对不同的患者变量所表现出的预测精度是有限的,所以采用了预设聚类中心的半监督学习方式进行分类,其目的是选出每个预测模型可以更好预测的患者变量。
[0008]在本申请实施例中,聚类中心设定为预测模型,设定方式可以采用将该预测模型标定在其测试评价数据最好的患者变量位置;然后对第二样本对进行聚类分析,可以计算出每个预测模型可以较好进行预测的患者变量,该预测模型即作为这些患者变量的最优的预测模型。这样在后续进行预测时,获取了患者相关的数据后,将这些数据转换为患者变量,并输入到对应的最优的预测模型进行预测,可以将不同的预测模型的有点都利用起来,极大的提高预测精度。本申请实施例通过将不同的患者变量对应不同的预测模型,避免了单一模型对LARS预测精度差的问题,在预测模型使用过程中,只需要选择对应患者变量的最优预测模型进行预测,就可以获得精度很好的LARS预测数据。
[0009]在一种可能的实现方式中,所述患者变量包括人口学资料、肿瘤位置、肿瘤长短径、手术术式、预防性造口、新辅助治疗和肿瘤距齿状线距离。
[0010]在一种可能的实现方式中,对所述第一样本对中患者变量进行预处理生成第二样本对包括:基于随机森林方法对所述患者变量中缺失值进行插补形成插补患者变量;对所述插补患者变量进行特征选择,筛选出所述插补患者变量中相互之间相关性大于预设值的特征作为相关特征,并将所述相关特征进行去相关性计算形成修正患者变量;对所述修正患者变量进行标准化处理生成第二样本对。
[0011]在一种可能的实现方式中,筛选出所述插补患者变量中相互之间相关性大于预设值的特征作为相关特征,并将所述相关特征进行去相关性计算形成修正患者变量包括:计算所述插补患者变量中特征的变量方差膨胀因子,并将所述变量方差膨胀因子大于10的特征作为所述相关特征;将所述相关特征进行拆分,并从拆分结果中剔除相关部分形成修正患者变量。
[0012]在一种可能的实现方式中,多种模型包括逻辑回归、支持向量机、决策树、随机森林和神经网络中的至少三种。
[0013]在一种可能的实现方式中,所述训练集和所述测试集的选取包括:
将所述第二样本对排列为开发队列;从开发队列中随机选取第一预设比例的样本对作为训练集,并选取第二预设比例的样本对作为测试集;所述第一预设比例和第二预设比例之和为1;通过所述训练集训练预测模型,并通过所述测试集测试预测模型;根据所述第一预设比例和所述第二预设比例循环选取训练集和测试集进行预测模型的训练和测试,直至每种模型均训练出的预测模型的数量满足预期。
[0014]在一种可能的实现方式中,构建聚类空间及进行半监督聚类分析包括:根据所述患者变量构建聚类空间,并根据所述测试评价数据在所述所述聚类空间内标定所述预测模型;以所述预测模型在所述聚类空间中的位置作为聚类中心进行聚类分析,将所述第二样本对聚类至不同的聚类中心附近形成多个类别;将同一类别聚类中心对应的预测模型作为该类别中的患者变量的对应的最优的预测模型。
[0015]在一种可能的实现方式中,从所述第二样本对中选出多组对应不同患者变量的测试集对所有所述预测模型进行测试生成测试评价数据包括:通过所述测试集对所有所述预测模型进行测试获取所述预测模型的输出数据作为计算数据;将所述测试集中的LARS评分作为参考数据与所述计算数据进行比对获取所述预测模型的差异数据;所述差异数据包括精确度、特异度、敏感度、阳性预测值和阴本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.结直肠癌术后LARS预测模型的构建方法,其特征在于,包括:从样本库中获取第一样本对;所述第一样本对为患者变量和LARS评分的对应关系;对所述第一样本对中患者变量进行预处理生成第二样本对;从所述第二样本对中选出训练集,并通过所述训练集对多种模型进行训练生成多个对应不同模型的预测模型;从所述第二样本对中选出多组对应不同患者变量的测试集对所有所述预测模型进行测试生成测试评价数据;以所述测试评价数据和对应的所述患者变量构建聚类空间,并在所述聚类空间内标定所有的所述预测模型;根据所述测试评价数据对所有第二样本对进行半监督聚类分析生成聚类结果;所述聚类结果为所述第二样本对中患者变量对应的最优的预测模型;将所述患者变量作为结直肠癌术后LARS预测模型的输入数据,将对应的所述最优的预测模型的输出数据作为结直肠癌术后LARS预测模型的输出数据完成结直肠癌术后LARS预测模型的构建。2.根据权利要求1所述的结直肠癌术后LARS预测模型的构建方法,其特征在于,所述患者变量包括人口学资料、肿瘤位置、肿瘤长短径、手术术式、预防性造口、新辅助治疗和肿瘤距齿状线距离。3.根据权利要求1所述的结直肠癌术后LARS预测模型的构建方法,其特征在于,对所述第一样本对中患者变量进行预处理生成第二样本对包括:基于随机森林方法对所述患者变量中缺失值进行插补形成插补患者变量;对所述插补患者变量进行特征选择,筛选出所述插补患者变量中相互之间相关性大于预设值的特征作为相关特征,并将所述相关特征进行去相关性计算形成修正患者变量;对所述修正患者变量进行标准化处理生成第二样本对。4.根据权利要求3所述的结直肠癌术后LARS预测模型的构建方法,其特征在于,筛选出所述插补患者变量中相互之间相关性大于预设值的特征作为相关特征,并将所述相关特征进行去相关性计算形成修正患者变量包括:计算所述插补患者变量中特征的变量方差膨胀因子,并将所述变量方差膨胀因子大于10的特征作为所述相关特征;将所述相关特征进行拆分,并从拆分结果中剔除相关部分形成修正患者变量。5.根据权利要求1所述的结直肠癌术后LA...

【专利技术属性】
技术研发人员:汪晓东黄明君李立叶林
申请(专利权)人:四川大学华西医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1