System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于细粒度硬区域挖掘用于医学图像文本对齐的算法制造技术_技高网

一种基于细粒度硬区域挖掘用于医学图像文本对齐的算法制造技术

技术编号:41403415 阅读:3 留言:0更新日期:2024-05-20 19:28
本发明专利技术公开了一种基于细粒度硬区域挖掘用于医学图像文本对齐的算法,与现有的跨模态单一匹配不同,本发明专利技术利用所有正区域来扩展跨模态对齐范围,使模型能够学习更鲁棒的图像表示。本发明专利技术还能够逐渐消除硬区域的模糊语义,并通过更多地关注硬区域的跨模态对齐来对更清晰划分的边界进行建模。此外,本发明专利技术通过消除报告中的语法差异来减轻图像文本对的早期对齐困难。综合实验证明了本发明专利技术在下游医学图像理解任务中的有效性和鲁棒性。

【技术实现步骤摘要】

本专利技术涉及人工智能的医学多模态学习,具体涉及一种基于细粒度硬区域挖掘策略的医学图像文本对齐算法。


技术介绍

1、近几十年来,当大规模带标签的数据集可用时,深度学习技术显着提高了医学图像的理解。然而,组装如此大的带注释数据既昂贵又耗时。作为替代方案,直接从带有医学图像的放射学报告中学习图像表征逐渐成为医学图像理解模型的主流范式,这无需任何额外的手动注释,其目的是从医生的详细病历中学习泛化的医学视觉表征,然后将学习到的表征转移到下游任务中。放射学报告包含丰富的高级语义信息,这对于学习医学图像语义至关重要。然而,与自然图像不同,考虑到病理通常只占据整个医学图像的一小部分这一限制,因此在医学领域进行跨模态全局对齐的同时,会更加关注跨模态图像文本对的细粒度对齐,这对于实现医疗精准定位病灶区域、辅助医生诊断病情至关重要。为了解决这个问题,最近已经有许多工作致力于研究更优的跨模态细粒度对齐方法。然而医学图像局部区域与报告中的句子之间没有明确的标签约束匹配,因此直接计算多模态数据之间的余弦相似度来约束局部对齐并不是最优的。受在自然语言处理(nlp)中交叉注意力的启发,许多工作在跨模态局部匹配时已经开始利用图像的跨模态文本特征与图像自身来计算软匹配,并取得了卓越的表现。

2、尽管这些方法都取得了良好的性能,但是现有的方法在跨模态细粒度对齐时忽略了对硬区域的处理,如图1所示,模型无法关注硬区域(红框)和锚点区域(黄框)之间的模糊语义区分,导致医疗诊断时对病灶区域的定位偏移。就视觉而言,比如以病灶区域为锚点区域,与病灶区域极其相似或者极其不相似的区域对于模型是容易判断的,相反模型难以理解那些在潜在空间中位于区域类边界的硬区域,很容易将这些区域误认为是病灶区域,干扰病情诊断。同时,现有的方法在跨模态细粒度对齐时,只将跨模态文本特征对应的锚点区域视为正区域(绿框),那些与锚点区域极度相似的区域被粗略地认定为负区域(蓝框),这会导致检测到不完整的病灶区域。这些问题都不利于医学多模态学习向下游医疗病情诊断任务的落地实施。

3、有鉴于此,提供一种基于硬区域挖掘的用于病灶区域精准定位的多模态细粒度对齐算法,已是一个很重要的问题。


技术实现思路

1、本专利技术的目的是提供一种基于细粒度硬区域挖掘的医学多模态图像文本对齐算法。本专利技术针对处理硬区域和锚点区域的模糊语义,首先利用原始图像与增强图像的区域相似度来划分正区域、硬区域和负区域。在这之后,本专利技术设计了跨模态多正区域对齐和硬区域对齐两种细粒度对齐方法,以迫使模型在保护学习到的良好语义结构的同时,利用放射学报告学习区分硬区域和锚点区域的模糊语义,建模更具有判别性的视觉表征。随后使用预训练好的图像编码器微调各种医学下游任务,尤其是在密集预测任务中证明了本专利技术的有效性和鲁棒性。

2、本专利技术的目的是这样实现的:

3、一种基于细粒度硬区域挖掘用于医学图像文本对齐的算法,包括以下步骤:

4、步骤1:经过高斯模糊,得到原始图像的增强图像,以用于挖掘硬区域,利用图像编码器和文本编码器提取图像表征和文本表征;

5、步骤2:设计关键语义提取kse算法,基于可学习查询向量学习句子中的关键语义,忽略句子中不重要的语法差异,从而解决因相同语义的图像对应的放射学报告句子却存在很大差异导致的图像文本对难以对齐的问题;

6、步骤3:设计一种硬区域挖掘策略用于生成图像挖掘图,划分锚点区域的正区域、硬区域和负区域,利用捕捉到的正区域和硬区域优化跨模态细粒度对齐,增强本专利技术的图像局部定位能力;

7、步骤4:设计多正区域对齐算法,利用步骤3中的挖掘图中的正区域生成一个形状和挖掘图相同的语义掩码,作为跨模态细粒度对齐的目标,而不是现有技术中的单位矩阵,使得图像编码器可以通过,同时将锚点区域的跨模态文本特征与锚点区域所有的正区域对齐,从而保护模型学习到的良好语义结构。对于视觉而言,本专利技术利用图像和文本作为查询和键,得到跨模态句子表征,生成原始图像到跨模态句子表征的相似度矩阵。

8、步骤5:本专利技术的对齐目标是在原始图像到跨模态句子表征的相似度矩阵与sm之间实现对齐的同时乘rw权重矩阵。通过增大硬区域与跨模态文本特征的对齐损失权重,使得图像编码器重点关注硬区域的局部语义,学习区分硬区域与锚点区域之间的模糊语义,有利于更加精准地定位病灶区域。本专利技术结合实例级图像文本对齐、关键语义提取kse算法预训练图像编码器和文本编码器,步骤5利用步骤4生成的语义掩码作为本专利技术跨模态细粒度对齐目标,结合相对权重矩阵计算损失。

9、步骤6:将步骤5预训练完成后的图像编码器用于下游医学图像分类、分割和检测任务,测试本专利技术学习到的图像编码器对于医学图像信息的语义理解能力,即步骤6利用之前步骤训练好的图像编码器作为下游的骨干模型并冻结,仅微调下游任务头,测试本专利技术预训练好的图像编码器在下游医学图像任务中的表现。

10、所述步骤1中的具体操作如下:对图像和放射学报告进行预处理(随机裁剪和正则化),过滤掉不足3个单词标记的文本报告,最终得到大约217k图像文本对。每一个图像文本对包括原始图像、经过高斯模糊的增强图像和只包含放射学报告中发现和印象部分的文本报告,并使用resnet-50作为图像编码器,bioclinicalbert作为文本编码器进行预训练。

11、所述步骤2中的具体操作如下:利用k个可学习的查询向量与句子表征计算余弦相似度作为权重,加权查询得到加权查询特征。为了使查询能够代表句子特征,利用l1损失对两者进行约束,并使用查询学习到的特征代替原始的句子特征,从而忽略句子中不重要的语法差异。(放射学报告存在很强的专家性,同时放射学报告中常常存在缩写和医学专用术语,导致相同疾病语义的图像有时会存在差异很大的报告,不利于训练前期对齐图像文本对);l1损失代表平均绝对值误差损失。

12、所述步骤3中的具体操作如下:对于视觉而言,本专利技术假设原始图像的病灶区域为锚点区域,增强图像的所有图像区域作为候选区域。本专利技术计算锚点区域与所有候选区域的余弦相似度得分,生成一个的原始图像到增强图像的挖掘图iim∈rn×n。并定义阈值{tdown,tup},如果介于tdown和tup之间,则认为图像的第k个区域是第j个区域的硬区域,如果大于tup代表是图像的第k个区域是第j个区域的正区域,否则小于tdown则是负区域。

13、所述步骤4中的具体操作如下:生成一个形状和iim相同的语义掩码sm∈rn×n。如果大于tup则否则为了使锚点区域的跨模态文本表征与其严格对齐,设置对角线位置使用sm作为本专利技术跨模态细粒度对齐的目标。使用图像表征与句子表征分别作为查询和键,得到各自的跨模态嵌入。针对视觉而言,首先基于交叉注意力得到视觉的跨模态句子表征oi={oi,1,oi,2,...,oi,n}。例如,计算到oi,1相似度得分

14、所述步骤5中的具体操作如下:利用iim生成一个相对权重矩阵rw∈rn×n,如果表示的增强图像的第本文档来自技高网...

【技术保护点】

1.一种基于细粒度硬区域挖掘用于医学图像文本对齐的算法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于细粒度硬区域挖掘用于医学图像文本对齐的算法,其特征在于:所述步骤2中的具体操作如下:引入了K个可学习的查询向量,计算查询与文本之间的余弦相似度作为权重,加权查询特征作为查询从文本中学习到的语义特征,基于L1损失实现查询特征和原始文本特征的对齐;L1损失代表平均绝对值误差损失。

3.根据权利要求1所述的基于细粒度硬区域挖掘用于医学图像文本对齐的算法,其特征在于:所述步骤3中的具体操作如下:对于包含N个区域的第i张图像,利用原始图像的第j个区域作为锚点区域,计算与增强图像的第k个候选区域之间的余弦相似度得分,生成一个的原始图像到增强图像的挖掘图IIM∈RN×N;定义阈值{tdown,tup},如果介于tdown和tup之间,则认为图像的第k个区域是第j个区域的硬区域,如果大于tup代表是图像的第k个区域是第j个区域的正区域,否则小于tdown则是负区域。

4.根据权利要求1所述的基于细粒度硬区域挖掘用于医学图像文本对齐的算法,其特征在于:所述步骤4中的具体操作如下:生成一个形状和IIM相同的语义掩码SM∈RN×N;如果大于tup则否则为了使锚点区域的跨模态文本表征与其严格对齐,设置对角线位置使用SM作为跨模态细粒度对齐的目标;对于视觉而言,利用图像和文本作为查询和键,得到跨模态句子表征,计算原始图像到跨模态句子表征的相似度矩阵。

5.根据权利要求1所述的基于细粒度硬区域挖掘用于医学图像文本对齐的算法,其特征在于:所述步骤5中的具体操作如下:利用IIM生成一个相对权重矩阵RW∈RN×N,如果表示的增强图像的第k个区域为锚点区域的硬区域,则否则如果为正区域或者负区域,则RWij,k=1;对齐目标是在原始图像到跨模态句子表征的相似度矩阵与SM之间实现对齐的同时相乘RW权重矩阵;通过在计算硬区域与文本的跨模态细粒度对齐损失时赋予其更大的权重,迫使模型学习区分硬区域和锚点区域之间的差异,建模更具有判别性的语义结构。

...

【技术特征摘要】

1.一种基于细粒度硬区域挖掘用于医学图像文本对齐的算法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于细粒度硬区域挖掘用于医学图像文本对齐的算法,其特征在于:所述步骤2中的具体操作如下:引入了k个可学习的查询向量,计算查询与文本之间的余弦相似度作为权重,加权查询特征作为查询从文本中学习到的语义特征,基于l1损失实现查询特征和原始文本特征的对齐;l1损失代表平均绝对值误差损失。

3.根据权利要求1所述的基于细粒度硬区域挖掘用于医学图像文本对齐的算法,其特征在于:所述步骤3中的具体操作如下:对于包含n个区域的第i张图像,利用原始图像的第j个区域作为锚点区域,计算与增强图像的第k个候选区域之间的余弦相似度得分,生成一个的原始图像到增强图像的挖掘图iim∈rn×n;定义阈值{tdown,tup},如果介于tdown和tup之间,则认为图像的第k个区域是第j个区域的硬区域,如果大于tup代表是图像的第k个区域是第j个区域的正区域,否则小于tdown则是负区域...

【专利技术属性】
技术研发人员:乔丽红程龙舒禹程栾晓肖斌
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1