用于生理相关参数预测的机器学习模型的训练方法及系统技术方案

技术编号：34207057 阅读：54 留言：0更新日期：2022-07-20 12:09

本公开涉及一种用于生理相关参数预测的机器学习模型的训练方法、装置、系统和介质，所述训练方法包括：获取生理相关参数的标注数据的第一数据集和生理相关参数的弱标注数据的第二数据集；以及由至少一个处理器，基于所述第二数据集，利用经由所述第一数据集对所述机器学习模型进行第一训练后的机器学习模型进行预测，和/或利用与所述弱标注数据相关联的先验信息进行处理以补充标注，来得到生理相关参数的标注数据的第三数据集；基于所述第一数据集和所述第三数据集，对所述机器学习模型进行第二训练，将第二训练后的机器学习模型用于所述生理相关参数预测。由此，弱标记数据集可以在机器学习模型的训练中得到充分利用，以显著提高其性能。著提高其性能。著提高其性能。

全部详细技术资料下载

【技术实现步骤摘要】
用于生理相关参数预测的机器学习模型的训练方法及系统
[0001]相关申请的交叉引用
[0002]本申请基于2021年1月4日提交的美国临时申请第63/133,756号并要求其优先权，该申请通过引用整体结合于此。

[0003]本公开涉及医学数据及医学图像的处理和分析的
，更具体地，涉及用于生理相关参数预测的机器学习模型的训练方法的

技术介绍

[0004]机器学习的最新进展使得建模极其复杂功能成为可能。例如，深度学习系统能够精准地分类图像，甚至超过人工注释。然而，这样的复杂模型的一个挑战是他们需要高质量标记的大规模数据集。因此，在医疗领域中，通常使用少量标记数据来训练机器学习模型。结果是，训练好的模型很有可能过拟合训练数据，使得难以泛化到新的(unseen)测试数据。
[0005]提出了大量方法来解决机器学习模型的过拟合问题。例如，通常使用早期停止(在到达标准前提前终止学习处理)来避免过拟合训练数据中的噪声。在医疗领域中通常忽略使用弱标记或未标记数据来进行正则化(regularization)。一些常规方法可以通过后处理步骤考虑正则化机器学习模型，而这些方法需要附加的步骤并且可能会降低机器学习模型的性能。在训练阶段，一些其他方法可以使用一个及以上的损失项来惩罚不正确的预测，以期得到更正则化及鲁棒性的机器学习模型。然而，这些方法都没有解决训练数据缺失的根本问题，对包含未标记数据在内的弱标记数据在训练中的应用也少关注。

技术实现思路

[0006]提供本公开以解决现有技术...

【技术保护点】

【技术特征摘要】
1.一种用于生理相关参数预测的机器学习模型的训练方法，其特征在于，所述训练方法包括：获取生理相关参数的标注数据的第一数据集和生理相关参数的弱标注数据的第二数据集；以及由至少一个处理器，基于所述第二数据集，利用经由所述第一数据集进行第一训练后的机器学习模型进行预测，和/或利用与所述弱标注数据相关联的先验信息进行处理以补充标注，来得到生理相关参数的标注数据的第三数据集；基于所述第一数据集和所述第三数据集，对所述机器学习模型进行第二训练，将第二训练后的机器学习模型用于所述生理相关参数预测。2.一种用于生理相关参数预测的机器学习模型的训练方法，其特征在于，所述训练方法包括：获取生理相关参数的标注数据的第一数据集和生理相关参数的弱标注数据的第二数据集；以及由至少一个处理器，基于所述第一数据集对所述机器学习模型进行第三训练；基于所述第三训练过程中的多个所述机器学习模型，生成集成机器学习模型；利用第三训练后的机器学习模型对所述第二数据集中的弱标注数据进行第三预测，利用所述集成机器学习模型对所述第二数据集中的弱标注数据进行第四预测，将所述第三预测和所述第四预测的预测结果之间的偏离作为第一损失项；基于所述第一数据集和所述第二数据集，利用包含所述第一损失项的损失函数，对第三训练后的机器学习模型以联合方式进行第四训练，将第四训练后的机器学习模型用于所述生理相关参数预测。3.根据权利要求2所述的训练方法，其特征在于，基于所述第一数据集和所述第二数据集，利用包含所述第一损失项的损失函数，对第三训练后的机器学习模型以联合方式进行第四训练具体包括：利用第三训练后的机器学习模型对所述第一数据集中的标注数据进行第五预测，将所述第五预测的预测结果与地面真值之间的偏离作为第二损失项；基于所述第一数据集和所述第二数据集，利用包含所述第一损失项和所述第二损失项的损失函数，对第三训练后的机器学习模型以联合方式进行第四训练。4.根据权利要求1所述的训练方法，其特征在于，所述补充标注包括对所述第二数据集中的数据的标注进行补充、清理或修改中的至少一项。5.根据权利要求1所述的训练方法，其特征在于，基于所述第一数据集和所述第三数据集对所述机器学习模型进行第二训练进一步包括：基于至少与置信度相关联的第一预设条件，从所述第三数据集中提取满足所述第一预设条件的标注数据；基于所述第一数据集和从所述第三数据集中所提取的标注数据对所述机器学习模型进行第二训练。6.根据权利要求1所述的训练方法，其特征在于，基于所述第二数据集，利用经由所述第一数据集进行第一训练后的机器学习模型进行预测，和/或利用与所述弱标注数据相关联的先验信息进行处理以补充标注，来得到生理相关参数的标注数据的第三数据集进一步
包括：对所述弱标注数据进行第一变换和第二变换并加入所述第二数据集，以得到扩增后的第二数...

【专利技术属性】
技术研发人员：孔斌，尹游兵，王昕，陆易，宋麒，
申请(专利权)人：深圳科亚医疗科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人