当前位置: 首页 > 专利查询>北京大学专利>正文

模型训练方法、装置及电子设备制造方法及图纸

技术编号:38322214 阅读:12 留言:0更新日期:2023-07-29 09:04
本申请公开了一种模型训练方法、装置及电子设备。该方法包括:确定第一数据集对应的第一表征向量和第二数据集对应的第二表征向量;基于第一表征向量对初始预测模型进行训练,确定第一模型参数,并基于第二表征向量对初始预测模型进行训练,确定第二模型参数;基于第一模型参数和/或第二模型参数确定第三模型参数;将第三模型参数作为初始预测模型的初始模型参数,基于第一表征向量和第二表征向量对初始预测模型进行训练,得到目标预测模型,其中,目标预测模型的目标损失函数至少包括用于反映第一表征向量和第二表征向量分布差异的第一损失函数。本申请解决了由于相关技术缺乏训练数据,导致最终训练所得的预测模型的输出准确率较低的技术问题。确率较低的技术问题。确率较低的技术问题。

【技术实现步骤摘要】
模型训练方法、装置及电子设备


[0001]本申请涉及医疗数据挖掘
,具体而言,涉及一种模型训练方法、装置及电子设备。

技术介绍

[0002]目前,由于卫生资源和服务水平的限制,欠发达地区的医疗机构对一些非传染性疾病(如脓毒症、糖尿病和心脏病)的早期诊断和及时临床管理十分必要,可以有效避免重症及预后不良。其中,脓毒症是由于宿主对感染反应失调而导致的危及生命的器官功能障碍,如果不及早发现并及时治疗,可能导致感染性休克、多器官衰竭,甚至死亡,因此,脓毒症已经成为高度关注的公共医疗问题。
[0003]脓毒症的临床诊断定义从1.0发展至3.0,也在不断经历变化更新,但由于临床脓毒症的发病机制复杂,涉及变量因素较多,诊断准确性还有待提高,因此,早期识别是脓毒症管理中至关重要的第一步。目前的研究大部分使用的是基于机器学习技术在数据丰富的环境下分析复杂信号,但是从实际情况出发,每家医院都具备大规模的电子病历是不现实的,尤其是对于人口稀少、收治对象有限的地区。另外,由于数据分布差异导致从一家医院的数据中学习到的脓毒症识别模型很可能不适用于另一家医院,若采用半监督迁移学习方式,利用从数据多的医院学习到的知识辅助小数据的医院进行脓毒症预警,则会导致不同对象数据收集到一起进行模型训练时存在潜在的隐私泄露风险。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种模型训练方法、装置及电子设备,以至少解决由于相关技术缺乏训练数据,导致最终训练所得的预测模型的输出准确率较低的技术问题。
[0006]根据本申请实施例的一个方面,提供了一种模型训练方法,包括:确定第一数据集对应的至少一组第一表征向量和第二数据集对应的至少一组第二表征向量;基于至少一组第一表征向量对初始预测模型进行迭代训练,确定初始预测模型的第一模型参数,并基于至少一组第二表征向量对初始预测模型进行迭代训练,确定初始预测模型的第二模型参数;基于第一模型参数和/或第二模型参数确定第三模型参数;将第三模型参数作为初始预测模型的初始模型参数,并基于至少一组第一表征向量和至少一组第二表征向量对初始预测模型进行迭代训练,以得到目标预测模型,其中,目标预测模型的目标损失函数中至少包括:用于反映至少一组第一表征向量和至少一组第二表征向量分布差异的第一损失函数。
[0007]可选地,确定第一数据集对应的至少一组第一表征向量和第二数据集对应的至少一组第二表征向量,包括:分别获取第一数据集和第二数据集,且第一数据集中包括:至少一个第一对象的M个器官系统在第一时间段内的临床数据信息,第二数据集中包括:至少一个第二对象的N个器官系统在第二时间段内的临床数据信息,其中,临床数据信息中包括:人口统计信息、生命特征数据和实验室检查指标,M和N均为不大于6的正整数;确定第一数
据集中的多组第一特征向量,并确定第二数据集中的多组第二特征向量,且每组第一特征向量中包括:用于表征第一对象的任一器官系统在第一时间段内的临床数据信息的m个第一特征变量,每组第二特征向量中包括:用于表征第二对象的任一器官系统在第二时间段内的临床数据信息的n个第二特征变量,其中,m等于n,且m和n均为不小于2的正整数;基于多组第一特征向量确定至少一组第一表征向量,并基于多组第二特征向量确定至少一组第二表征向量,其中,每组第一表征向量中包括:用于表征第一对象的各个器官系统在第三时间段内的临床数据信息的M个第一表征变量,每组第二表征向量中包括:用于表征第二对象的各个器官系统在第四时间段内的临床数据信息的N个第二表征变量。
[0008]可选地,基于多组第一特征向量确定一组第一表征向量,并基于多组第二特征向量确定一组第二表征向量,包括:分别确定各组第一特征向量中m个第一特征变量对应的第一差分特征变量,并基于m个第一特征变量和对应的第一差分特征变量确定一个第一表征变量;基于M个第一表征变量组成一组第一表征向量;分别确定各组第二特征向量中n个第二特征变量对应的第二差分特征变量,并基于n个第二特征变量和对应的第二差分特征变量确定一个第二表征变量;基于N个第二表征变量组成一组第二表征向量。
[0009]可选地,基于至少一组第一表征向量对初始预测模型进行迭代训练,确定初始预测模型的第一模型参数,包括:依据至少一组第一表征向量确定至少一组第一训练样本数据和至少一组第二训练样本数据,其中,每组第一训练样本数据中包括:M个第一表征变量以及各个第一表征变量对应的第一序贯性器官衰竭评估分数,每组第二训练样本数据中包括:第一表征向量以及第一表征向量对应的第一脓毒症风险概率值;分别基于至少一组第一训练样本数据和至少一组第二训练样本数据对初始预测模型进行迭代训练,确定初始预测模型的第二损失函数,其中,第二损失函数用于对初始预测模型的第一模型参数进行调整。
[0010]可选地,分别基于至少一组第一训练样本数据和至少一组第二训练样本数据对初始预测模型进行迭代训练,确定初始预测模型的第二损失函数,包括:基于第一训练样本数据对初始预测模型进行迭代训练,并通过初始预测模型输出第一序贯性器官衰竭评估预测分数,并依据第一训练样本数据中的第一序贯性器官衰竭评估分数和第一序贯性器官衰竭评估预测分数构建第一子损失函数;基于第二训练样本数据对初始预测模型进行迭代训练,并通过初始预测模型输出第一脓毒症风险概率预测值,并依据第二训练样本数据中的第一脓毒症风险概率值和第一脓毒症风险概率预测值构建第二子损失函数;依据第一子损失函数和第二子损失函数确定初始预测模型的第二损失函数。
[0011]可选地,基于至少一组第二表征向量对初始预测模型进行迭代训练,确定初始预测模型的第二模型参数,包括:依据至少一组第二表征向量确定至少一组第三训练样本数据和至少一组第四训练样本数据,其中,每组第三训练样本数据中包括:N个第二表征变量以及各个第二表征变量对应的第二序贯性器官衰竭评估分数,每组第四训练样本数据中包括:第二表征向量以及第二表征向量对应的第二脓毒症风险概率值;分别基于至少一组第三训练样本数据和至少一组第四训练样本数据对初始预测模型进行迭代训练,确定初始预测模型的第三损失函数,其中,第三损失函数用于对初始预测模型的第二模型参数进行调整。
[0012]可选地,将第三模型参数作为初始预测模型的初始模型参数,并基于至少一组第
一表征向量和至少一组第二表征向量对初始预测模型进行迭代训练,以得到目标预测模型,包括:将第三模型参数作为初始预测模型的初始模型参数,并基于至少一组第一表征向量和至少一组第二表征向量对初始预测模型进行迭代训练,确定初始预测模型的目标损失函数,其中,目标损失函数由第一损失函数、第二损失函数和第三损失函数确定;采用随机梯度下降算法确定目标损失函数的最小值,并基于目标损失函数的最小值对初始预测模型的第三模型参数进行调整,以得到目标预测模型的目标模型参数。
[0013]根据本申请实施例的另一方面,还提供了一种模型训练装置,包括:第一确定模块,用于确定第一数据集对应的至少一组第一表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:确定第一数据集对应的至少一组第一表征向量和第二数据集对应的至少一组第二表征向量;基于至少一组所述第一表征向量对初始预测模型进行迭代训练,确定所述初始预测模型的第一模型参数,并基于至少一组所述第二表征向量对所述初始预测模型进行迭代训练,确定所述初始预测模型的第二模型参数;基于所述第一模型参数和/或所述第二模型参数确定第三模型参数;将所述第三模型参数作为所述初始预测模型的初始模型参数,并基于至少一组所述第一表征向量和至少一组所述第二表征向量对所述初始预测模型进行迭代训练,以得到目标预测模型,其中,所述目标预测模型的目标损失函数中至少包括:用于反映所述至少一组所述第一表征向量和至少一组所述第二表征向量分布差异的第一损失函数。2.根据权利要求1所述的方法,其特征在于,确定第一数据集对应的至少一组第一表征向量和第二数据集对应的至少一组第二表征向量,包括:分别获取所述第一数据集和所述第二数据集,且所述第一数据集中包括:至少一个第一对象的M个器官系统在第一时间段内的临床数据信息,所述第二数据集中包括:至少一个第二对象的N个器官系统在第二时间段内的临床数据信息,其中,所述临床数据信息中包括:人口统计信息、生命特征数据和实验室检查指标,M和N均为不大于6的正整数;确定所述第一数据集中的多组第一特征向量,并确定所述第二数据集中的多组第二特征向量,且每组所述第一特征向量中包括:用于表征所述第一对象的任一器官系统在第一时间段内的临床数据信息的m个第一特征变量,每组所述第二特征向量中包括:用于表征所述第二对象的任一器官系统在第二时间段内的临床数据信息的n个第二特征变量,其中,m等于n,且m和n均为不小于2的正整数;基于多组所述第一特征向量确定至少一组所述第一表征向量,并基于多组所述第二特征向量确定至少一组所述第二表征向量,其中,每组所述第一表征向量中包括:用于表征所述第一对象的各个器官系统在第三时间段内的临床数据信息的M个第一表征变量,每组所述第二表征向量中包括:用于表征所述第二对象的各个器官系统在第四时间段内的临床数据信息的N个第二表征变量。3.根据权利要求2所述的方法,其特征在于,基于多组所述第一特征向量确定至少一组所述第一表征向量,并基于多组所述第二特征向量确定至少一组所述第二表征向量,包括:分别确定各组所述第一特征向量中m个所述第一特征变量对应的第一差分特征变量,并基于m个所述第一特征变量和对应的所述第一差分特征变量确定一个所述第一表征变量;基于M个所述第一表征变量组成一组所述第一表征向量;分别确定各组所述第二特征向量中n个所述第二特征变量对应的第二差分特征变量,并基于n个所述第二特征变量和对应的所述第二差分特征变量确定一个所述第二表征变量;基于N个所述第二表征变量组成一组所述第二表征向量。4.根据权利要求2所述的方法,其特征在于,基于至少一组所述第一表征向量对初始预测模型进行迭代训练,确定所述初始预测模型的第一模型参数,包括:
依据至少一组所述第一表征向量确定至少一组第一训练样本数据和至少一组第二训练样本数据,其中,每组所述第一训练样本数据中包括:M个所述第一表征变量以及各个所述第一表征变量对应的第一序贯性器官衰竭评估分数,每组所述第二训练样本数据中包括:所述第一表征向量以及所述第一表征向量对应的第一脓毒症风险概率值;分别基于至少一组所述第一训练样本数据和至少一组所述第二训练样本数据对所述初始预测模型进行迭代训练,确定所述初始预测模型的第二损失函数,其中,所述第二损失函数用于对所述初始预测模型的所述第一模型参数进行调整。5.根据权利要求4所...

【专利技术属性】
技术研发人员:王乐业丁瑞卿
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1