System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多模态数据与机器学习算法构建IPF临床预后模型的方法技术_技高网

基于多模态数据与机器学习算法构建IPF临床预后模型的方法技术

技术编号:39940342 阅读:9 留言:0更新日期:2024-01-08 22:30
本发明专利技术涉及一种基于多模态数据与机器学习算法构建IPF临床预后模型的方法。本发明专利技术通过收集多模态数据,如临床指标及高分辨率CT特征(HRCT),借助人工智能机器学习算法,实现对CT影像自动的肺部切割以及纤维化区域的分割,分割后进一步提取影像组学特征和纤维化特征,将多模态数据融合后借助多种机器学习算法筛选特征并以多种方法构建临床预后模型,以多模型多特征匹配最优模型。本发明专利技术充分发掘多模态特征,充分发掘具有临床价值的影像特征,利用与预后高度相关的纤维化区域,有效提高对IPF治疗决策的稳定性与可靠性,为临床医生制定治疗方案提供参考。

【技术实现步骤摘要】

本专利技术涉及一种基于多模态数据与机器学习算法构建特发性肺纤维化(简称为ipf)的临床预后模型的方法。


技术介绍

1、ipf是一种进展迅速的间质性肺疾病,诊断后中位生存期仅2-5年,临床预后差,疾病负担重,为社会经济带来严重负担。在ipf的临床预后方面,目前缺乏全面、综合的复合指标(检验指标+生理指标+影像指标)分期。临床医师难以有效把握ipf患者的疾病进展情况,难以结合预后情况选择更合适的治疗方案,可能促成ipf患者预后不佳。

2、因此,基于临床数据,建立有效的ipf的临床预后模型,可以更好地合理判断预后的分期分级,预测患者生存时间,指导相应的治疗方案,改善患者的生存质量并有效预防病情的急性加重,进而可能延长患者的生存时间。

3、临床上现有的ipf预后模型主要包括:

4、(1)gap模型:使用患者性别、年龄以及fvc%pred对患者进行分期,不包含患者影像组学数据;

5、(2)复合生理指数(简称为cpi)模型:使用患者的dlco%pred、fvc%pred以及第1秒用力呼吸末容积占预计值百分比(fev1%pred)对患者进行分期,无影像组学数据;

6、(3)临床-影像-生理(简称为crp)模型:使用较多参数以提升预测效果,但其中的影像评分由放射科专家给出,可能导致评估结果不客观;

7、(4)ctpf模型:利用计算机自动从ct中提取肺纤维化区域并计算相关指标,结合肺功能指标对患者病情进展进行预测,但该模型并未结合患者其他易得的生理指标,可能遗漏部分具有预测价值的临床指标。

8、因此,目前为止,传统的ipf预后模型及评估的方法要么计算公式复杂,其所需的各项指标难以在临床中获得;要么过于简单,不能准确反映ipf的严重程度并评估预后。因此,目前尚没有被广泛接受的评估疾病严重程度和估计预后的方法。


技术实现思路

1、本专利技术要解决如下技术问题:

2、(1)传统的ipf临床预后模型选取的特征具有一定局限性:部分特征较简单,评价效能有限;部分特征较复杂,临床难获取;未充分利用高分辨率ct数据。

3、(2)临床评估ipf患者的预后非常困难,临床医生难以综合多种数据进行判断;

4、(3)模型构建方法单一,构建完成后缺乏广泛的评价与比较,模型优化效果不佳,实际应用时准确度不佳。

5、为了解决上述技术问题,本专利技术的技术方案是提供了一种基于多模态数据与机器学习算法构建ipf临床预后模型的方法,包括以下步骤:

6、步骤一、将患者的临床信息中的每个数据项作为一个特征,除收集ipf患者每个特征数据之外,还收集ipf患者的ct图像数据。临床信息包括基本信息、肺功能指标、风湿免疫学指标、血常规指标、血气指标、凝血指标、肿瘤指标以及生化指标;

7、步骤二、对于特征数据:舍弃特征数据缺失过多的特征,并采用knn算法填补保留下来的特征的缺失值,获得临床特征数据;

8、对于ct图像数据:提取包含纤维化特征的影像特征,进一步包括以下步骤:

9、步骤201:对所获得的所有ct图像进行重采样后,设置离散化体素强度值,并进行z-score的标准化处理。采用u-net网络对ct图像进行肺部区域分割,获得肺部区域分割图像;

10、步骤202:对肺部区域分割图像预处理和重采样后,使用基于python语言的pyradiomics库提取影像组学特征,使用lasso回归方法从中筛选出对诊断贡献较大的影像组学特征;

11、步骤203:提取纤维化特征:即使用基于深度学习算法(卷积神经网络)对纤维化区域自动提取,并利用深度信念网络dbn进行优化。对肺部区域分割图像中的纤维化区域进行分割后,计算分割得到的纤维化区域面积与肺部总面积之比,并进行不同层面积的累计加和,获得纤维化特征一,并进一步计算左肺与右肺的纤维化比例作为纤维化特征二,不同肺叶和不同肺段的纤维化比例作为纤维化特征三,纤维化特征一、纤维化特征二以及纤维化特征三共同作为最终的纤维化特征;

12、步骤204:将步骤202筛选得到的影像组学特征以及步骤203获得的纤维化特征共同组成影像特征;

13、步骤三、将步骤二获得的临床特征数据以及对应的影像特征数据拼接后,形成同时体现临床信息与影像学信息的模型输入特征,基于模型输入特征构建训练数据集;

14、步骤四、采用n种不同的机器学习算法分布构建n个ipf临床预后模型,n≥2,将训练数据集拆分为训练集和测试集后,用训练集分别拟合n个ipf临床预后模型,并用测试集分别评估n个ipf临床预后模型的模型性能;所采用的n种不同的机器学习算法包括:

15、cox比例风险回归模型:先使用单因素cox比例风险模型回归模型研究协变量x与生存函数之间的关系,筛选并保留hr>1.25和hr<0.75的特征;再根据筛选后的特征,使用多因素cox比例风险回归模型实现对患者风险率函数h(t,x)=h0(t)*f(x)的估计,其中:t表示时刻;x表示包含患者各种风险因素的协变量;h0(t)表示t时刻的基准风险率函数,h0(t)=λ;f(x)=exp(β1x1+β2x2+…+βmxm),x1,x2,...,xm表示m个特征,β1,β2,...,βm表示权重;

16、随机生存森林模型:通过训练大量生存树,以表决的形式,从个体树中加权选举出最终的结果;

17、梯度提升模型:通过组合多个弱学习器,来构建预测模型,该梯度提升模型的训练包括以下步骤:

18、步骤401:初始化一个弱学习器,被定义为基础学习器;

19、步骤402:用上一步获得的弱学习器,并计算预测值与真实值之间的残差;

20、步骤403:对于训练集中的每个样本,根据其残差大小调整样本的权重,其中,误差较大的样本将获得更高的权重,而误差较小的样本权重降低;

21、步骤404:由更新后的训练集训练得到新的弱学习器;

22、步骤405:将当前一轮迭代得到的新的弱学习器与上一轮迭代得到的弱学习器进行加权累积,形成一个更新的弱学习器,返回步骤402,进行下一轮迭代,直至损失函数拟合,其第m轮迭代的损失函数表示为其中,fm-1(xi)是前m-1轮迭代得到的学习器的预测值,hm(xi)是当前第m轮迭代训练得到的新的弱学习器的预测值,yi是样本xi的真实目标值,n是样本数量,η是学习率;

23、极端梯度提升模型:在梯度提升模型的方法基础上,引入正则化参数,能够更加精确地近似了损失函数,并且引入二阶导数信息来近似损失函数,通过使用二阶导数可以更好地估计预测值和目标值之间的差异;

24、神经网络模型:在神经网络模型中,先将临床特征数据和降维后的影像特征数据分别进行包含attention机制的多层感知机前向传播,前向传播两层,两个隐藏层的隐藏单元数分别为64、128个;前向传播后,将两个重构的向量拼接,并将生存时间本文档来自技高网...

【技术保护点】

1.一种基于多模态数据与机器学习算法构建IPF临床预后模型的方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于多模态数据与机器学习算法构建IPF临床预后模型的方法,其特征在于,所述基本信息包括性别、年龄、身高、体重、吸烟指数、相关暴露史、合并诊断、确诊时间以及死亡时间,其中,吸烟指数为每天抽烟的支数*抽烟的年数。

3.如权利要求1所述的一种基于多模态数据与机器学习算法构建IPF临床预后模型的方法,其特征在于,步骤1中,在收集数据时,根据患者的所述风湿免疫学指标再次判断当前患者是否患IPF,若未患IPF,则当前患者的所有数据均不纳入训练数据集中。

4.如权利要求1所述的一种基于多模态数据与机器学习算法构建IPF临床预后模型的方法,其特征在于,步骤1中,收集IPF患者的特征数据以及CT图像数据时,记录对应的时间,仅将间隔时间不超出上下一个月的特征数据以及CT图像数据纳入训练数据集中。

5.如权利要求1所述的一种基于多模态数据与机器学习算法构建IPF临床预后模型的方法,其特征在于,步骤201中,采用U-net网络进行肺部区域分割。

6.如权利要求1所述的一种基于多模态数据与机器学习算法构建IPF临床预后模型的方法,其特征在于,步骤201中,进行肺部区域分割之前,对所获得的所有CT图像进行重采样后,设置离散化体素强度值,并进行Z-score的标准化处理。

7.如权利要求1所述的一种基于多模态数据与机器学习算法构建IPF临床预后模型的方法,其特征在于步骤202中,使用LASSO回归方法来进行影像组学特征的筛选。

8.如权利要求1所述的一种基于多模态数据与机器学习算法构建IPF临床预后模型的方法,其特征在于,步骤3中,将步骤2获得的临床特征数据以及对应的影像特征数据组织成矩阵形式后,再将两个矩阵进行横向拼接,从而得到模型输入特征的特征矩阵。

9.如权利要求1所述的一种基于多模态数据与机器学习算法构建IPF临床预后模型的方法,其特征在于,步骤203中,所述纤维化区域自动提取模型采用卷积神经网络进行深度特征的提取,并利用深度信念网络DBN进行优化。

10.如权利要求1所述的一种基于多模态数据与机器学习算法构建IPF临床预后模型的方法,其特征在于,步骤4中,所采用的N种不同的机器学习算法包括:

...

【技术特征摘要】

1.一种基于多模态数据与机器学习算法构建ipf临床预后模型的方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于多模态数据与机器学习算法构建ipf临床预后模型的方法,其特征在于,所述基本信息包括性别、年龄、身高、体重、吸烟指数、相关暴露史、合并诊断、确诊时间以及死亡时间,其中,吸烟指数为每天抽烟的支数*抽烟的年数。

3.如权利要求1所述的一种基于多模态数据与机器学习算法构建ipf临床预后模型的方法,其特征在于,步骤1中,在收集数据时,根据患者的所述风湿免疫学指标再次判断当前患者是否患ipf,若未患ipf,则当前患者的所有数据均不纳入训练数据集中。

4.如权利要求1所述的一种基于多模态数据与机器学习算法构建ipf临床预后模型的方法,其特征在于,步骤1中,收集ipf患者的特征数据以及ct图像数据时,记录对应的时间,仅将间隔时间不超出上下一个月的特征数据以及ct图像数据纳入训练数据集中。

5.如权利要求1所述的一种基于多模态数据与机器学习算法构建ipf临床预后模型的方法,其特征在于,步骤201中,采用u-net网络进行肺部区域分割。

6...

【专利技术属性】
技术研发人员:陈泽瑜栗海文林政林子涵张皓云张琦李锋孙建奇
申请(专利权)人:上海市胸科医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1