一种基于多模态数据融合的恶性肝肿瘤分类方法技术

技术编号:30828060 阅读:122 留言:0更新日期:2021-11-18 12:32
本发明专利技术涉及一种基于多模态数据融合的恶性肝肿瘤分类方法,通过对非结构化多期CT影像数据的规范化预处理,对结构化的信息进行离散化处理,构建基于卷积神经网络的空间特征提取模块,以及基于门控循环神经网络的时序信息编码模块,并通过多模态数据融合模块,结合非结构化的影像数据与结构化的信息,最终得到深度学习恶性肝肿瘤分类。与现有技术相比,本发明专利技术在卷积神经网络的基础上,引入门控循环神经网络,有效挖掘多期造影增强CT的空间时序特征,并使用多模态数据融合将影像特征与临床数据结合,能够显著提高区分肝细胞癌(HCC),肝内胆管癌(ICC)和转移性肝癌的准确度。管癌(ICC)和转移性肝癌的准确度。管癌(ICC)和转移性肝癌的准确度。

【技术实现步骤摘要】
一种基于多模态数据融合的恶性肝肿瘤分类方法


[0001]本专利技术涉及肝肿瘤图像分析
,尤其是涉及一种基于多模态数据融合的恶性肝肿瘤分类方法。

技术介绍

[0002]根据全球癌症统计数据显示,肝癌是全球第六大最常诊断的癌症,也是第三大癌症死亡原因。五年相对生存率仅为18.3%,大量的肝脏恶性肿瘤为原发性肿瘤,包括肝细胞癌(HCC)和肝内胆管癌(ICC)。不同类型的肝脏恶性肿瘤治疗方案都有所不同,因此在术前诊断其具体类型至关重要。然而,在临床上很容易误诊。而且,长期的随访也常给患者带来恐慌和焦虑。目前亟需发展一种可靠且实用的无创影像方法准确地区分不同类别的恶性肝肿瘤,以指导临床管理策略。
[0003]多期造影增强CT(CECT)提供了患者肝脏的完整图像描述,反映了不同肝肿瘤的血液供变化,是诊断肝肿瘤的主要工具。但利用CT提供的肝脏完整图像来区分恶性肿瘤的方式诊断往往耗时费力,对于农村或偏远地区的医院来说难度更大。近年来,基于深度学习模型的分类方法也有所应用,采用的技术主要利用CT或MRI信息,对良性和恶性肿瘤的图像进行分类,但尚未有结合临床信息与CT影像的分类模型,也没有对多期CT影像的分类时考虑多期影像之间的时序关系的分类技术,导致分类的准确度较低。

技术实现思路

[0004]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多模态数据融合的恶性肝肿瘤分类方法,利用基于卷积神经网络的空间特征提取算法获得单期影像特征,基于循环神经网络的时序特征编码方法挖掘多期影像的空间特征,运用多模态融合模块结合结构化与非结构化信息,能够显著提高恶性肝肿瘤分类的准确度。
[0005]本专利技术的目的可以通过以下技术方案来实现:
[0006]一种基于多模态数据融合的恶性肝肿瘤分类方法,该方法包括如下步骤:
[0007]S1、数据集获取:
[0008]收集收集病理确诊的HCC、ICC和转移性肝癌患者术前临床信息及CECT图像,并将采集的样本数据划分训练集样本和测试集样本;
[0009]所述CECT图像采用64通道MDCT扫描仪进行CECT扫描,切片厚度为5mm,重建间隔为1mm,各图像包括平扫期、动脉期和门静脉期。
[0010]S2、CECT图像预处理:
[0011]从图像存档和通信系统导出包括平扫期、动脉期和门脉期的CECT图像,对CECT图像进行预处理形成训练影像库;
[0012]选取3D CECT图像中沿z轴肿瘤面积最大的2D切片作为后续模型的输入;将原始DICOM格式图像的CECT图像的HU值范围限定在窗口宽度为400,窗口水平为40,以降低来自不相关器官的噪声。
[0013]进一步地,选取平扫期作为参考,利用仿射配准算法对其他期的CECT图像进行配准,并通过线性插值将所有图像大小调整至224
×
224像素,以适应模型的输入。
[0014]S3、临床数据编码:
[0015]对样本的年龄、性别、血小板、总胆红素、甲胎蛋白、糖类抗原19

9、癌胚抗原、糖类抗原125和乙型肝炎表面抗原进行数据编码;
[0016]具体地,将样本的年龄分为五个区间,随后用四个二元变量将其编码成哑变量;将样本的性别利用一个二元变量进行表示;将血小板、总胆红素、甲胎蛋白、糖类抗原19

9、癌胚抗原、糖类抗原125和乙型肝炎表面抗原数据作为患者术前的血液生化指标,根据是否正常或缺失转换为分类变量并编码为哑变量。
[0017]S4、模型架构:
[0018]基于空间特征提取

时序特征编码

特征集成

分类器模块化设计思想,构建一个深度学习模型;所述深度学习模型包括:
[0019]空间特征提取模块,该模块为全卷积网络,通过采用卷积层提取CECT图像的详细空间特征;
[0020]时序特征编码模块,采用RNN挖掘不同期CECT之间的变化模式;
[0021]特征集成模块,将时序特征编码模块的输出与编码后的临床数据进行融合;
[0022]分类器模块,将特征集成模块的输出通过softmax激活函数,实现对肝脏恶性肿瘤的分类。
[0023]所述深度学习模型将预处理后的多期CECT图像和相应的编码临床数据作为输入,并最终输出每种类型的肝脏恶性肿瘤的可能性分值;空间特征提取模块利用在ImageNet上预训练的VGG16卷积层提取CECT图像的空间特征,并运用核大小为7
×
7的可训练卷积层输出长度为128维的特征;再通过时序特征编码模块利用RNN挖掘肝肿瘤在不同期CECT中的变化模式,利用GRU捕捉时序多期影像中的依赖关系,构建具有一层特征维度为32的GRU的RNN;随后,在特征集成模块中,将时序特征编码模块的输出与编码后的临床数据哑变量连接,融合成52维的特征;最后,在分类器模块中,将特征集成模块的输出通过softmax函数进行激活,得到每一类的概率数值,概率数值最大的为预测类别,进而实现肝脏恶性肿瘤的分类任务。
[0024]S5、模型训练:
[0025]对CECT图像预处理后的图像进行动态数据增强,以确保图像中肿瘤位置的一致性;基于训练影像库及编码后的临床信息进行模型训练;
[0026]对CECT图像预处理后的图像进行动态数据增强的具体内容为:
[0027]对CECT图像预处理后的图像随机旋转10度以内,上下位置进行10%以内的平移,左右位置进行10%以内的平移,整幅图像也随机进行10%以内的缩放;同一患者的多期CECT采用相同的增强模式,以确保图像中肿瘤位置的一致性,临床数据保持不变。
[0028]S6、模型处理及预估:
[0029]将预处理后的多期CECECT图像和相应的编码临床数据输入训练后的深度学习模型,输出每种类型的肝脏恶性肿瘤的可能性分值,并基于准确度、微平均AUC和宏平均AUC对输出结果进行评估。
[0030]本步骤采用准确度、敏感性、特异性、阳性预测值、阴性预测值、F1评分和ROC曲线
下方的面积大小综合评估模型的输出结果。
[0031]进一步地,准确性、敏感性、特异性、PPV和NPV的95%置信区间采用Clopper

Pearson方法计算,ROC曲线下方的面积大小的95%的CI采用DeLong方法计算。
[0032]本专利技术提供的基于多模态数据融合的恶性肝肿瘤分类方法,相较于现有技术至少包括如下有益效果:
[0033]本专利技术采用结构化信息与非结构化影像信息的多模态数据融合,即使用多模态数据融合将影像特征与临床数据结合,利用CNN对影像空间特征进行提取,进一步通过RNN对时序的多期影像特征编码,并在卷积神经网络的基础上,利用门控循环单元(GRU)捕捉时序多期影像中的依赖关系,通过特征集成模块输出恶性肝肿瘤分类评分,可显著提高分类准确度;和传统方法仅运用卷积神经网络提取影像空间特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态数据融合的恶性肝肿瘤分类方法,其特征在于,包括下列步骤:1)数据集获取:收集收集病理确诊的HCC、ICC和转移性肝癌患者术前临床信息及CECT图像,并将采集的样本数据划分训练集样本和测试集样本;2)CECT图像预处理:从图像存档和通信系统导出包括平扫期、动脉期和门脉期的CECT图像,对CECT图像进行预处理形成训练影像库;3)临床数据编码:对样本的年龄、性别、血小板、总胆红素、甲胎蛋白、糖类抗原19

9、癌胚抗原、糖类抗原125和乙型肝炎表面抗原进行数据编码;4)模型架构:基于空间特征提取

时序特征编码

特征集成

分类器模块化设计思想,构建一个深度学习模型;5)模型训练:对CECT图像预处理后的图像进行动态数据增强,以确保图像中肿瘤位置的一致性;基于训练影像库及编码后的临床信息进行模型训练;6)模型处理及预估:将预处理后的多期CECECT图像和相应的编码临床数据输入训练后的深度学习模型,输出每种类型的肝脏恶性肿瘤的可能性分值,并基于准确度、微平均AUC和宏平均AUC对输出结果进行评估。2.根据权利要求1所述的基于多模态数据融合的恶性肝肿瘤分类方法,其特征在于,步骤1)中,所述CECT图像采用64通道MDCT扫描仪进行CECT扫描,切片厚度为5mm,重建间隔为1mm,各图像包括平扫期、动脉期和门静脉期。3.根据权利要求1所述的基于多模态数据融合的恶性肝肿瘤分类方法,其特征在于,步骤2)中,选取3D CECT图像中沿z轴肿瘤面积最大的2D切片作为后续模型的输入;将原始DICOM格式图像的CECT图像的HU值范围限定在窗口宽度为400,窗口水平为40,以降低来自不相关器官的噪声。4.根据权利要求3所述的基于多模态数据融合的恶性肝肿瘤分类方法,其特征在于,步骤2)中,选取平扫期作为参考,利用仿射配准算法对其他期的CECT图像进行配准,并通过线性插值将所有图像大小调整至224
×
224像素,以适应模型的输入。5.根据权利要求1所述的基于多模态数据融合的恶性肝肿瘤分类方法,其特征在于,步骤3)的具体内容为:将样本的年龄分为五个区间,随后用四个二元变量将其编码成哑变量;将样本的性别利用一个二元变量进行表示;将血小板、总胆红素、甲胎蛋白、糖类抗原19

9、癌胚抗原、糖类抗原125和乙型肝炎表面抗原数据作为患者术前的血液生...

【专利技术属性】
技术研发人员:俞章盛高瑞恬顾劲杨赵帅魏婷周杰
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1