基于多模态深度学习的病理分类方法及系统技术方案

技术编号:22239182 阅读:78 留言:0更新日期:2019-10-09 18:56
本发明专利技术提出一种基于多模态深度学习的病理分类方法及系统,包括:从电子病历中提取出预先选择的属性作为结构化数据的特征表示向量,将特征表示向量平均扩增后再按照预设比例随机丢弃,丢弃的部分被替换为数字0,作为电子病历中结构化数据的病历特征向量;获取与电子病历对应的组织病理学图像,将卷积神经网络的各卷积层的特征图进行全局平均池化后拼接成一维向量,作为组织病理学图像的一种丰富的图像特征向量;将图像特征向量和病历特征向量拼接在一起,得到多模态融合向量,然后将多模态融合向量输入至全连接层,得到二值化的病理分类结果。本发明专利技术解决了单模态的特征表示来进行病理良恶性分类的准确率不高的技术问题。

Pathological Classification Method and System Based on Multimodal Deep Learning

【技术实现步骤摘要】
基于多模态深度学习的病理分类方法及系统
本专利技术涉及计算机技术中的计算机视觉和图像处理领域,特别是涉及一种基于多模态深度学习的病理分类方法及系统。
技术介绍
癌症是一个重要的世界范围内的公共健康问题。在所有的癌症类型中,乳腺癌是女性第二大常见癌症。此外,与其他类型的癌症相比,乳腺癌的死亡率非常高。虽然医学科学飞速发展,但是病理图像分析仍然是乳腺癌诊断中应用最广泛的方法。然而,组织病理学图像的复杂性和工作量的急剧增加使得这项任务非常耗时,而且其结果易受到病理学家的主观性的影响。面对这一难题,发展准确的乳腺癌自动诊断方法是这一领域非常迫切需求。近年来,深度学习方法在计算机视觉和图像处理领域取得了长足的进步和显著的成绩。这也启发了许多专家将该技术应用于病理图像分析。尽管如此,仅凭单模态的病理图像数据对乳腺癌进行良恶性分类的准确性并不能满足临床实践的需要。虽然仅利用病理图像无法获得较高的分类准确度,但是病理图像提供了一个丰富的环境和EMR中结构化数据的融合,使得新的信息可以被获取和量化。尤其是原始病理图像是高维度的信息,它的获取需要更少的人力,但它包含了大量潜在的未被发现的信息。临床医生从电子病历(EMR)中提取的结构化的临床信息的特征维度较低,但是,这些临床信息为诊断提供了更多的指导。
技术实现思路
针对上述现有技术的不足,本专利技术提出了一种基于多模态深度学习的乳腺癌分类方法,解决了现有技术中根据单模态的特征表示来进行乳腺癌良恶性分类的准确率不高的技术问题。针对现有技术的不足,本专利技术提出一种基于多模态深度学习的病理分类方法,其中包括:步骤1、从电子病历中提取出预先选择的属性作为结构化数据的特征表示向量,将该特征表示向量平均扩增后再按照预设比例随机丢弃,丢弃的部分被替换为数字0,作为电子病历中结构化数据的病历特征向量;步骤2、获取与该电子病历对应的组织病理学图像,将卷积神经网络的各卷积层的特征图进行全局平均池化后拼接成一维向量,作为该组织病理学图像的一种丰富的图像特征向量;步骤3、将该图像特征向量和该病历特征向量拼接在一起,得到多模态融合向量,然后将该多模态融合向量输入至全连接层,得到二值化的病理分类结果。所述的基于多模态深度学习的病理分类方法,其中该步骤1包括:从该电子病历中提取出29个在医学理论上与乳腺癌的诊断密切相关的属性组成特征向量,再把从临床电子病历中提取的29维向量平均扩增一预设比例,然后按照一预设百分比随机丢弃,丢弃的部分被替换为数字0。所述的基于多模态深度学习的病理分类方法,其中该步骤2包括:利用卷积神经网络的第三、第四和第五层卷积层,提取得到第三、第四和第五卷积层的特征图,然后使用全局平均池化操作将第三、第四和第五卷积层的特征图进行压缩后,拼接成该组织病理图像的特征表示向量。所述的基于多模态深度学习的病理分类方法,其中步骤3中该全连接层为三个完整的连接层,分别有500,100和2个节点。本专利技术还提出了一种基于多模态深度学习的病理分类系统,其中包括:模块1、从电子病历中提取出预先选择的属性作为结构化数据的特征表示向量,将该特征表示向量平均扩增后再按照预设比例随机丢弃,丢弃的部分被替换为数字0,作为电子病历中结构化数据的病历特征向量;模块2、获取与该电子病历对应的组织病理学图像,将卷积神经网络的各卷积层的特征图进行全局平均池化后拼接成一维向量,作为该组织病理学图像的一种丰富的图像特征向量;模块3、将该图像特征向量和该病历特征向量拼接在一起,得到多模态融合向量,然后将该多模态融合向量输入至全连接层,得到二值化的病理分类结果。所述的基于多模态深度学习的病理分类系统,其中该模块1包括:从该电子病历中提取出29个在医学理论上与乳腺癌的诊断密切相关的属性组成特征向量,再把从临床电子病历中提取的29维向量平均扩增一预设比例,然后按照一预设百分比随机丢弃,丢弃的部分被替换为数字0。所述的基于多模态深度学习的病理分类系统,其中该模块2包括:利用卷积神经网络的第三、第四和第五层卷积层,提取得到第三、第四和第五卷积层的特征图,然后使用全局平均池化操作将第三、第四和第五卷积层的特征图进行压缩后,拼接成该组织病理图像的特征表示向量。所述的基于多模态深度学习的病理分类系统,其中模块3中该全连接层为三个完整的连接层,分别有500,100和2个节点。本专利技术还提出了一种存储介质,用于存储执行所述基于多模态深度学习的病理分类方法的程序。与现有技术相比,本专利技术具有以下的有益效果:(1)首次集成多模态数据来诊断乳腺癌,而且基于深度学习的多模态融合方法的准确率显著优于仅使用任何单一模态信息的方法;(2)为了使病理图像与EMR中结构化数据更加充分地融合,本专利技术提出了一种从多个卷积层中提取病理图像的更加丰富的特征表示的方法,可以保留更加完整的图像信息,特别是在高层卷积中损失的局部纹理和细节信息;(3)为了在数据融合前不丢失各个模态的信息,本专利技术采用了一种低维数据扩增的方法,而不是数据融合前就将高维数据压缩为低维数据。这样,在信息融合之前的每一个模态都有足够的信息,这为更加充分的信息融合提供了前提;(4)提出了一种在模型的训练过程中随机丢弃结构化数据的策略。该策略使得模型对EMR中缺少部分结构化数据的情况具有更好的泛化能力,同时,也降低了整个模型的过拟合的风险。附图说明图1为实施数据融合的结构示意图;图2为多模态数据融合的方法细节示意图;图3为使用的病理图片数据集的描述示意图。具体实施方式本申请提出一种数据融合的方法来模拟病理诊断任务。从多模态数据融合的角度,尝试将电子病历EMR中的病理图像与结构化数据相结合,进一步提高乳腺癌诊断的准确性。这也符合病理学家阅读病理图像进行诊断时的实际情况。病理学家在阅读病理图像时,会反复的参考患者EMR中的相关临床结构化信息,以此作为先验,直至做出最后的诊断。其中,通过与病理学家的讨论和查阅乳腺癌相关的医学文献,从临床电子病历中提取出29个具有代表性的属性。这些属性在医学理论上与乳腺癌的诊断密切相关,而且,这29个属性都是常规的临床指标,可以从现有的医院信息系统的数据库中直接取得。目前为止,几乎没有使用多模态数据对乳腺癌进行分类的方法,但是多模态融合方法在医学的其他领域,例如文本、影像等领域已取得良好效果。虽然他们的融合方法比传统的方法取得了更好的效果,但是它仍然有一些问题,如图像的特征表示不够丰富、信息融合的不够充分、尤其是在信息融合前就损失了高维的信息,和实际场景中经常遇到的部分缺失数据的问题。本专利技术提出了如下的技术方案:一种基于多模态数据融合的乳腺癌分类方法,包括:步骤1:首先进行了数据增强。除了将整幅图的大小调整到224*224像素,还随机从2048*1536的原始图像中提取了40、20、10和5个大小分别为224*224、512*512、1024*1024和1536*1536的图片块。同时,我们也对图像进行了常规的数据增强,如随机翻转、旋转、亮度等;步骤2:在结构化数据方面,通过与病理学家的讨论和查阅乳腺癌相关的医学文献,从临床电子病历中提取由29个具有代表性的特征组成的特征向量,这些特征在医学理论上与乳腺癌的诊断密切相关;步骤3:在病理图像方面,从VGG16卷积神经网络中提取第三、第四、第本文档来自技高网...

【技术保护点】
1.一种基于多模态深度学习的病理分类方法,其特征在于,包括:步骤1、从电子病历中提取出预先选择的属性作为结构化数据的特征表示向量,将该特征表示向量平均扩增后再按照预设比例随机丢弃,丢弃的部分被替换为数字0,作为电子病历中结构化数据的病历特征向量;步骤2、获取与该电子病历对应的组织病理学图像,将卷积神经网络的各卷积层的特征图进行全局平均池化后拼接成一维向量,作为该组织病理学图像的一种丰富的图像特征向量;步骤3、将该图像特征向量和该病历特征向量拼接在一起,得到多模态融合向量,然后将该多模态融合向量输入至全连接层,得到二值化的病理分类结果。

【技术特征摘要】
1.一种基于多模态深度学习的病理分类方法,其特征在于,包括:步骤1、从电子病历中提取出预先选择的属性作为结构化数据的特征表示向量,将该特征表示向量平均扩增后再按照预设比例随机丢弃,丢弃的部分被替换为数字0,作为电子病历中结构化数据的病历特征向量;步骤2、获取与该电子病历对应的组织病理学图像,将卷积神经网络的各卷积层的特征图进行全局平均池化后拼接成一维向量,作为该组织病理学图像的一种丰富的图像特征向量;步骤3、将该图像特征向量和该病历特征向量拼接在一起,得到多模态融合向量,然后将该多模态融合向量输入至全连接层,得到二值化的病理分类结果。2.如权利要求1所述的基于多模态深度学习的病理分类方法,其特征在于,该步骤1包括:从该电子病历中提取出29个在医学理论上与乳腺癌的诊断密切相关的属性组成特征向量,再把从临床电子病历中提取的29维向量平均扩增一预设比例,然后按照一预设百分比随机丢弃,丢弃的部分被替换为数字0。3.如权利要求1所述的基于多模态深度学习的病理分类方法,其特征在于,该步骤2包括:利用卷积神经网络的第三、第四和第五层卷积层,提取得到第三、第四和第五卷积层的特征图,然后使用全局平均池化操作将第三、第四和第五卷积层的特征图进行压缩后,拼接成该组织病理图像的特征表示向量。4.如权利要求1所述的基于多模态深度学习的病理分类方法,其特征在于,步骤3中该全连接层为三个完整的连接层,分别有500,100和2个节点。...

【专利技术属性】
技术研发人员:张法颜锐谭光明任菲刘志勇刘玉东张云峰
申请(专利权)人:中国科学院计算技术研究所北京腾茂盛达科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1