基于多模型融合的可解释乳腺癌复发预测方法及系统技术方案

技术编号：40201233 阅读：28 留言：0更新日期：2024-01-27 00:06

本公开实施例中提供了一种基于多模型融合的可解释乳腺癌复发预测方法及系统，属于医疗保健信息学技术领域，具体包括：获取原始数据集；对原始数据集进行预处理操作；对目标数据集分别进行n次的上采样和下采样；采用不同的机器学习算法在每个正负样本均衡子数据集进行训练，生成其对应的个体学习器；将集成修剪问题构建多目标规划模型，引入帕累托支配的概念，并利用智能优化算法进行求解，得到一组互不相同的帕累托最优个体学习器子集；根据预设的结合策略将帕累托最优个体学习器子集中每个个体学习器的结果进行融合，得到预测模型；将待预测患者的相关数据输入预测模型，得到复发预测结果。通过本公开的方案，提高了预测精准度和可解释性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开实施例涉及医疗保健信息学，尤其涉及一种基于多模型融合的可解释乳腺癌复发预测方法及系统。

技术介绍

1、目前，乳腺癌为发生在乳腺上皮组织的恶性肿瘤，是全球最常见，发病率最高的恶性肿瘤之一，已成为威胁妇女健康的主要病因。乳腺癌的发病率逐年攀升，严重威胁着广大民众的健康和生命。随着医疗水平的提高，乳腺癌的疗效逐渐改善，已成为疗效最佳的实体肿瘤之一。预后预测对乳腺癌的疗效改善有着重要意义，故为乳腺癌患者开发和验证可靠的预后预测方法与临床实践的关系日益密切。其中，乳腺癌的预后复发与死亡率有着内在联系，是乳腺癌预后预测的重要基石。然而，乳腺癌的复杂性及其预后的巨大个体差异使预测和治疗具有挑战性。此外，尽管复发与乳腺癌密切相关，但大多数乳腺癌数据集很少记录复发情况，这增加了复发预测的难度。

2、可见，亟需一种预测精准度和可解释性高的基于多模型融合的可解释乳腺癌复发预测方法。

技术实现思路

1、有鉴于此，本公开实施例提供一种基于多模型融合的可解释乳腺癌复发预测方法及系统，至少部分解决现有技术中存在预测精准度和可解释性较差的问题。

2、第一方面，本公开实施例提供了一种基于多模型融合的可解释乳腺癌复发预测方法，包括：

3、步骤1，获取原发性乳腺癌患者的临床病理学检验数据和预后患者的随访数据形成原始数据集；

4、步骤2，对原始数据集进行预处理操作，得到目标数据集；

5、步骤3，对目标数据集分别进行n次的上采样和下采样，得到2n个正负样本均

6、步骤4，采用不同的机器学习算法在每个正负样本均衡子数据集进行训练，生成其对应的个体学习器；

7、步骤5，将全部个体学习器的集成修剪问题构建多目标规划模型，引入帕累托支配的概念，并利用智能优化算法进行求解，得到一组互不相同的帕累托最优个体学习器子集；

8、步骤6，根据预设的结合策略将帕累托最优个体学习器子集中每个个体学习器的结果进行融合，得到预测模型；

9、步骤7，将待预测患者的相关数据输入预测模型，得到复发预测结果。

10、根据本公开实施例的一种具体实现方式，其特征在于,所述步骤2具体包括：

11、对原始数据集中的重复信息以及缺失值或异常值超过预设标准的无效样本和特征变量删除，对原始数据集中缺失值或异常值未超过预设标准的连续特征进行均值/中位数填充，对类别特征变量进行众数填充；

12、将连续特征归一化，并对类别特征进行编码，形成目标数据集。

13、根据本公开实施例的一种具体实现方式，所述归一化的方式为minmaxscalar方法，所述编码的方式为独热编码。

14、根据本公开实施例的一种具体实现方式，所述步骤3具体包括：

15、对目标数据集分别进行n次的上采样和下采样，并在每次采用时采用bootstrap策略随机从多数样本中随机采样构成正负样本均衡的子数据集，得到2n个正负样本均衡子数据集。

16、根据本公开实施例的一种具体实现方式，所述步骤4具体包括：

17、采用不同的并行集成学习算法和串行集成学习算法在每个正负样本均衡子数据集进行训练，生成其对应的个体学习器并选择多样性度量方法对生成的个体学习器进行多样性度量。

18、根据本公开实施例的一种具体实现方式，所述步骤5具体包括：

19、步骤5.1，将全部个体学习器的集成修剪问题构建多目标规划模型并初始化个体学习器子集；

20、步骤5.2，引入帕累托支配的概念并利用二值状态转移算法生成多目标规划模型的候选解；

21、步骤5.3，评估全部候选解并利用快速非支配排序对生成的候选解进行排序；

22、步骤5.4，选择排序前预设数量个的候选解更新个体学习器子集；

23、步骤5.5，重复步骤5.2至步骤5.4直至满足迭代停止条件，输出帕累托最优个体学习器子集。

24、根据本公开实施例的一种具体实现方式，所述多目标规划模型的表达式为

25、max h(x)

26、min||x||0

27、s.t.x＝(x1,x2,...,xm)

28、xi∈{0,1},i＝1,2,...,m，

29、其中，x表示个体学习器的选择状态，xi＝1时表示第i个个体学习器被选择，否则不被选择，||x||0则代表所选个体学习器的数量，h(x)表示性能索引。

30、根据本公开实施例的一种具体实现方式，所述步骤4之后，所述方法还包括：

31、对全部个体学习器依次进行特征重要性分析，并按照重要性进行排序，得到2n*m组不同的排序；

32、筛选每组排序中重要性排名前k项将其作为重要特征，进而统计每个特征被选为重要特征的次数，并定义该次数为统计特征重要性。

33、第二方面，本公开实施例提供了一种基于多模型融合的可解释乳腺癌复发预测系统，包括：

34、获取模块，用于获取原发性乳腺癌患者的临床病理学检验数据和预后患者的随访数据形成原始数据集；

35、预处理模块，用于对原始数据集进行预处理操作，得到目标数据集；

36、采样模块，用于对目标数据集分别进行n次的上采样和下采样，得到2n个正负样本均衡子数据集，其中，n为正整数；

37、训练模块，用于采用不同的机器学习算法在每个正负样本均衡子数据集进行训练，生成其对应的个体学习器；

38、求解模块，用于将全部个体学习器的集成修剪问题构建多目标规划模型，引入帕累托支配的概念，并利用智能优化算法进行求解，得到一组互不相同的帕累托最优个体学习器子集；

39、融合模块，用于根据预设的结合策略将帕累托最优个体学习器子集中每个个体学习器的结果进行融合，得到预测模型；

40、预测模块，用于将待预测患者的相关数据输入预测模型，得到复发预测结果。

41、本公开实施例中的基于多模型融合的可解释乳腺癌复发预测方案，包括：步骤1，获取原发性乳腺癌患者的临床病理学检验数据和预后患者的随访数据形成原始数据集；步骤2，对原始数据集进行预处理操作，得到目标数据集；步骤3，对目标数据集分别进行n次的上采样和下采样，得到2n个正负样本均衡子数据集，其中，n为正整数；步骤4，采用不同的机器学习算法在每个正负样本均衡子数据集进行训练，生成其对应的个体学习器；步骤5，将全部个体学习器的集成修剪问题构建多目标规划模型，引入帕累托支配的概念，并利用智能优化算法进行求解，得到一组互不相同的帕累托最优个体学习器子集；步骤6，根据预设的结合策略将帕累托最优个体学习器子集中每个个体学习器的结果进行融合，得到预测模型；步骤7，将待预测患者的相关数据输入预测模型，得到复发预测结果。

42、本公开实施例的有益效果为：

43、1)通过收集人口和遗传特征、临床病理因素以及随访数据本文档来自技高网...

【技术保护点】

1.一种基于多模型融合的可解释乳腺癌复发预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于,所述步骤2具体包括：

3.根据权利要求2所述的方法，其特征在于,所述归一化的方式为MinMaxScalar方法，所述编码的方式为独热编码。

4.根据权利要求3所述的方法，其特征在于,所述步骤3具体包括：

5.根据权利要求4所述的方法，其特征在于,所述步骤4具体包括：

6.根据权利要求5所述的方法，其特征在于,所述步骤5具体包括：

7.根据权利要求6所述的方法，其特征在于,所述多目标规划模型的表达式为

8.根据权利要求1所述的方法，其特征在于,所述步骤4之后，所述方法还包括：

9.一种基于多模型融合的可解释乳腺癌复发预测系统，其特征在于，包括：

【技术特征摘要】

1.一种基于多模型融合的可解释乳腺癌复发预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于,所述步骤2具体包括：

3.根据权利要求2所述的方法，其特征在于,所述归一化的方式为minmaxscalar方法，所述编码的方式为独热编码。

4.根据权利要求3所述的方法，其特征在于,所述步骤3具体包括：

5.根据权利要...

【专利技术属性】
技术研发人员：周晓君，袁维军，杜洋伊，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人