【技术实现步骤摘要】
基于迁移学习的青少年IgA肾病的预测分析系统
[0001]本专利技术涉及机器学习领域,尤其涉及一种基于迁移学习的面向青少年IgA肾病的预测分析系统。
技术介绍
[0002]IgA全称指(Immunoglobulin A,即免疫球蛋白A)。IgA肾病是全世界最常见的免疫性肾小球肾炎;各个年龄段都有发病,但高峰在20
‑
40岁。迄今为止,发病的机制尚不清楚,疾病预测仍依赖于肾活检这项有创操作,虽然经过积极治疗,目前仍有高达20%
‑
30%的患者可能恶化至终末期肾病(尿毒症)。因此我们结合机器学习,采取有效手段预测IgA肾病的青少年患者的恶化情况,有重要的科学意义和现实意义。
[0003]但是,由于青少年的发病率较低,用于训练机器学习模型的相关样本较少,难以通过数据驱动的方式为机器学习模型提供充分的训练样本,会造成模型预测精度的显著下降,使得模型对于青少年患者的临床样本的特征预测呈现欠拟合。
[0004]现有的利用机器学习的IgA肾病预测系统采取的判断途径主要是通过数据驱动的方式来训练IgA肾病预测模型。但是,由于青少年恶化率较低,难以对肾病预测分析系统提供充足的样本。如果使用全部年龄的样本来训练青少年肾病预测系统,一方面会引入关于成年患者的样本偏置,从而使得面向青少年预测系统的泛化性不强,另一方面,由于肾病预测衡量的指标多样复杂,不可避免的会引入训练噪声。但在重要的病理特征上,青少年和成年人存在一致性。因此本专利技术利用迁移学习技术,利用青少年和成年人肾病数据的域分布差 ...
【技术保护点】
【技术特征摘要】
1.一种基于迁移学习的青少年IgA肾病的预测分析系统,其特征在于,该系统包括数据采集模块、数据预处理模块、数据归一化模块、迁移学习方法的模型训练模块、模型预测模块和报告生成模块;其中,所述数据采集模块用于采集青少年患者样本的临床检查数据和病理检查数据以及青少年患者样本对应的恶化标签、成年患者样本的临床检查数据和病理检查数据,以及成年患者样本对应的恶化标签;所述数据预处理模块用于对青少年患者和成年患者的临床检查数据和病理检查数据进行数据增强,并剔除有数据缺失的样本,最终得到用于后续模型训练及预测的临床检查数据特征和病理检查数据特征表示,再将临床检查数据特征和病理检查数据特征二者进行直接拼接组合,构成临床数据特征,作为后续模型训练及测试的输入数据,患者的临床数据特征表示为F=[f1,f2,
…
,f
n
],其中,f
i
表示第i个特征,n表示共有n个特征;将恶化标签处理为1和0的二分类标签Y,作为后续模型训练及测试的标签,其中1表示患者IgA肾病恶化,0表示IgA肾病没有恶化;其中,患者包括青少年患者和成年患者;所述数据归一化模块用于将得到的患者临床数据特征F进行数据归一化操作,最终得到用于后续模型训练及测试的数据集,所述数据集中的每一个数据样本包括患者归一化后的临床数据特征及该患者对应的恶化标签,所述数据集由训练集和测试集两部分构成,其中训练集由成年患者的全部数据集样本以及青少年患者的70%的数据集样本构成,测试集由青少年患者的30%的数据集样本构成;所述数据归一化指通过如下公式将临床数据特征F映射到0
‑
1之间,避免因为数据范围相差过大,增加模型训练的难度;上式中,f
i
表示对应患者的临床数据特征表示为F中的第i个特征,f
min
表示包括青少年患者和成年患者在内的所有患者中第i个特征的最小值,f
max
表示包括青少年患者和成年患者在内的所有患者中第i个特征的最大值;x
i
表示第i个特征被归一化之后的标准特征值,最终归一化之后的临床数据特征表示为X=[x1,x2,
…
,x
n
];并将成年患者的恶化情况的概率表示为所述迁移学习方法的模型训练模块通过迁移学习方法,训练构建的面向青少年的IgA肾病预测模型,用于后续的青少年患者样本恶化概率预测;所述面向青少年的IgA肾病预测模型采用迭代训练方法进行训练,对于一个给定的输入的训练集数据样本,将临床数据特征分别输入面向青少年的IgA肾病预测模型中的肾病预测分类器和数据域分类器中,其中,数据域分类器用于判断输入的数据样本是来自成年患者还是青少年患者,当输入数据样本为成年患者时,肾病预测分类器用于判断成年患者的患病情况;当输入数据样本为青少年患者时,面向青少年的IgA肾病预测模型只需要计算数据域分类器的损失函数最终,使用所述肾病预测分类器的损失函数对所述面向青少年的IgA肾病预测模型进行训练;当面向青少年的IgA肾病预测模型的精度满足预设阈值要求,停止训练;其中,所述面向青少年的IgA肾病预测模型在训练过程中,使用损失函数其中,为肾病预测分类损失函数,该损失函数用于对比模型预测的成
年患者的恶化概率与成年患者的恶化标签,因此仅适用于成年患者样本,为数据域分类器的对抗损失函数;的表示如下:上式中,Y表示成年患者数据集样本的真实的恶化标签,表示成年患者数据集样本的模型预测的肾病恶化概率;所述数据域分类器的对抗损失函数如下:上式中,D
i
′
表示第i
′
个训练集数据样本的数据域标签,当D
i
′
=0时,表示来自成年患者的数据域,即源域;而当D
i
′
=1时,表示来自青少年患者的数据域,即目标域;p
i
′
表示对第i
′
个样本的所属的数据域的预测概率,log表示以e为底的对数;则最终的面向青少年的IgA肾病预测模型的损失函数表示如下:所述模型预测模块使用所述迁移学习方法的模型训练模块中训练得到的面向青少年的IgA肾病预测模型来预测临床样本的IgA肾病恶化概率;在采用训练得到的面向青少年的IgA肾病预测模型进行预测时,只需要使用肾病预测分类器,对于测试集数据样本,输入数据预处理模块得到待测试的青少年患者数据集样本的临床数据特征,将得到的青少年患者数据集样本的...
【专利技术属性】
技术研发人员:段立新,李文,刘丹蕾,魏凡越,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。