一种肿瘤检测模型训练系统、方法、设备及存储介质技术方案

技术编号：40079085 阅读：25 留言：0更新日期：2024-01-17 02:12

本申请公开了一种肿瘤检测模型训练系统、方法、设备及存储介质，涉及模型训练技术领域，包括：待训练数据集获取模块，用于获取待训练数据集；模型训练模块，用于在当前训练周期中利用待训练数据集对初始模型进行训练得到训练后模型；数据样本筛选模块，用于当待训练数据集中的数据样本不小于预设数量时，筛选出低于预设可信度阈值的目标训练数据集；数据集更新模块，用于将目标训练数据集确定为下一训练周期的待训练数据集，并进行下一训练周期的训练过程；模型输出模块，用于当待训练数据集中的数据样本小于预设数量时，输出包含所有训练后模型的预设模型队列，并结合预设可信度阈值对待预测数据集进行预测。这样一来，本申请可以提高模型精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及模型训练，特别涉及一种肿瘤检测模型训练系统、方法、设备及存储介质。

技术介绍

1、肿瘤样本和非肿瘤样本的区分一般是基于组织细胞病理金标准，但由于肿瘤的异质性，进入到体液中液体活检的标志物比如蛋白质、多肽、代谢物、外泌、循环游离dna（deoxyribonucleic acid，脱氧核糖核酸）、循环肿瘤细胞等等都无法做到病理诊断一样将肿瘤和非肿瘤两组队列完全分开，即使借助机器学习深度学习等训练更多标志物特征也无法达到和金标准完全匹配的效果。因此通过液体活检区分肿瘤样本和非肿瘤样本的时候必然存在两组判别样本的交叠区域，也就是灰区，灰区部分区分的效能较差，往往无法给出明确的分类信息。如果能减少落入灰区的样本，有望将液体活检检测区分肿瘤样本和非肿瘤样本的准确率提高。目前常用的方案是利用梯度下降的思想，通过迭代地添加新的基础模型来不断提升预测性能；这样在每次迭代中关注之前模型的误差，通过拟合新模型来纠正这些误差，从而逐步改进整体模型的预测能力。这样用串联迭代的方式集成多个基础模型，但每次迭代的训练样本是相同的，故在进行低可信度的肿瘤亚型分类时效果不佳；并且，串联迭代难以确定基础模型的复杂度，若基础模型过于复杂，会造成过拟合；关键的是，肿瘤样本和非肿瘤样本可能表现出相同的特征表达情况，当训练数据无法涵盖所有情况时，残差大的未必是判断出错的情况，若这些数据带入下次迭代，则会影响准确性。

2、由此可见，如何提升机器学习模型对肿瘤的预测结果的准确性是本领域要解决的问题。

技术实现思路</p>

1、有鉴于此，本专利技术的目的在于提供一种肿瘤检测模型训练系统、方法、设备及存储介质，可以根据样本可信度针对性筛选训练样本，防止模型过拟合，提高了模型预测结果的准确率。其具体方案如下：

2、第一方面，本申请提供了一种肿瘤检测模型训练系统，包括：

3、待训练数据集获取模块，用于获取待训练数据集；所述待训练数据集包括通过标签编码处理后的与肿瘤液体活检检测结果对应的数据样本；

4、模型训练模块，用于在当前训练周期中，基于预设回归算法利用所述待训练数据集对初始模型进行训练，得到训练后模型；

5、数据样本筛选模块，用于当所述待训练数据集中数据样本的数量不小于预设数量阈值时，基于预设交叉验证方式对所述待训练数据集中数据样本的可信度进行计算，以筛选得到可信度不大于预设可信度阈值的目标训练数据集；

6、数据集更新模块，用于将所述目标训练数据集确定为下一训练周期的待训练数据集，并跳转至基于预设回归算法利用所述待训练数据集对初始模型进行训练，得到训练后模型的步骤，以进行所述下一训练周期的训练过程；

7、模型输出模块，用于当所述待训练数据集中数据样本的数量小于所述预设数量阈值时，输出包含当前训练周期和此前所有训练周期对应的训练后模型的预设模型队列，以便利用所述预设模型队列中的模型对待预测数据集进行预测。

8、可选的，所述待训练数据集获取模块，包括：

9、初始数据集获取单元，用于获取初始数据集；所述初始数据集包括肿瘤液体活检检测结果和相应的分类编码。

10、可选的，所述模型训练模块，包括：

11、算法处理单元，用于基于所述待训练数据集利用预设搜索算法对所述预设回归算法进行超参数优化，以得到与所述待训练数据集对应的超参数；

12、第一模型训练单元，用于基于所述待训练数据集、所述超参数和所述预设回归算法对初始模型进行训练，得到相应的训练后模型。

13、可选的，所述数据样本筛选模块，包括：

14、数据样本划分单元，用于当所述待训练数据集中数据样本的数量不小于预设数量阈值时，基于预设交叉验证折数将所述待训练数据集中的数据样本分成相应数量的n份数据；

15、第二模型训练单元，用于基于所述n份数据中的任意n-1份数据、所述超参数和所述预设回归算法对所述初始模型进行训练，得到样本预测模型；

16、训练样本得分计算单元，用于利用所述样本预测模型和预设预测算法计算出所述n份数据中剩余的一份数据中各数据样本的训练样本得分，以得到与所述待训练数据集中各数据样本分别对应的若干训练样本得分；

17、训练样本可信度转化单元，用于根据预设可信度计算公式将若干所述训练样本得分转化为训练样本可信度；

18、目标训练数据集确定单元，用于从所述待训练数据集中筛选出训练样本可信度不大于预设可信度阈值的若干数据样本，以得到目标训练数据集。

19、可选的，所述模型训练模块，包括：

20、模型添加单元，用于在当前训练周期中，将所述训练后模型添加至所述预设模型队列中，以便在所述待训练数据集中数据样本的数量小于所述预设数量阈值时，输出包含当前训练周期和此前所有训练周期对应的训练后模型的预设模型队列。

21、可选的，所述系统还包括：

22、模型选取单元，用于在当前预测周期中，从所述预设模型队列中取出当前模型；

23、预测样本得分计算单元，用于基于所述当前模型利用预设预测算法预测待预测数据集中的数据样本，以得到相应的预测样本得分；

24、模型队列判断子模块，用于判断所述预设模型队列是否为空；

25、样本标签确定单元，用于当所述预设模型队列为空时，将所述预测样本得分添加至预设得分集，并根据所述预设得分集和所述预测样本得分确定所述待预测数据集中数据样本对应的样本标签。

26、可选的，所述模型队列判断子模块，包括：

27、预测样本可信度转化单元，用于当所述预设模型队列不为空时，基于预设可信度计算公式将所述预测样本得分转化为相应的预测样本可信度；

28、目标预测数据集确定单元，用于从所述待预测数据集中筛选出所述预测样本可信度不大于预设可信度阈值的若干数据样本以得到目标预测数据集；

29、预测样本得分添加单元，用于将所述预测样本可信度大于所述预设可信度阈值的若干数据样本对应的预测样本得分添加至所述预设得分集；

30、待预测数据集更新单元，用于将所述目标预测数据集确定为下一预测周期的待预测数据集，并跳转至从所述预设模型队列中取出当前模型的步骤，以进行下一预测周期的预测过程。

31、第二方面，本申请提供了一种肿瘤检测模型训练方法，包括：

32、获取待训练数据集；所述待训练数据集包括通过标签编码处理后的与肿瘤液体活检检测结果对应的数据样本；

33、在当前训练周期中，基于预设回归算法利用所述待训练数据集对初始模型进行训练，得到训练后模型；

34、基于预设交叉验证方式对所述待训练数据集中数据样本的可信度进行计算，以筛选得到可信度不大于预设可信度阈值的目标训练数据集；

35、若所述目标训练数据集中数据样本的数量不小于所述预设数量阈值，将所述目标训练数据集确定为下一训练周期的待训练数据集，并跳转至基于预设回归算法利用所述待训练数本文档来自技高网...

【技术保护点】

1.一种肿瘤检测模型训练系统，其特征在于，包括：

2.根据权利要求1所述的肿瘤检测模型训练系统，其特征在于，所述待训练数据集获取模块，包括：

3.根据权利要求2所述的肿瘤检测模型训练系统，其特征在于，所述模型训练模块，包括：

4.根据权利要求3所述的肿瘤检测模型训练系统，其特征在于，所述数据样本筛选模块，包括：

5.根据权利要求1至4任一项所述的肿瘤检测模型训练系统，其特征在于，所述模型训练模块，包括：

6.根据权利要求1所述的肿瘤检测模型训练系统，其特征在于，还包括：

7.根据权利要求6所述的肿瘤检测模型训练系统，其特征在于，所述模型队列判断子模块，包括：

8.一种肿瘤检测模型训练方法，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求8所述的肿瘤检测模型训练方法。

【技术特征摘要】

1.一种肿瘤检测模型训练系统，其特征在于，包括：

2.根据权利要求1所述的肿瘤检测模型训练系统，其特征在于，所述待训练数据集获取模块，包括：

3.根据权利要求2所述的肿瘤检测模型训练系统，其特征在于，所述模型训练模块，包括：

4.根据权利要求3所述的肿瘤检测模型训练系统，其特征在于，所述数据样本筛选模块，包括：

5.根据权利要求1至4任一项所述的肿瘤检测模型训练系统，其特征在于，所述模型训练模块，...

【专利技术属性】
技术研发人员：余捷凯，唐家琪，王战鹏，黄玮，邬建敏，栾春燕，
申请(专利权)人：杭州汇健科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人