当前位置: 首页 > 专利查询>同济大学专利>正文

一种图像报告生成方法及模型训练方法技术

技术编号:41455456 阅读:19 留言:0更新日期:2024-05-28 20:42
本发明专利技术涉及一种基于多模态识别的图像报告生成模型的训练方法,包括以下步骤:获取图像数据和与所述图像数据相匹配的文本数据;将所述图像数据输入所述图像编码器,将所述文本数据输入所述文本编码器和所述跨模态文本编码器,进行对比学习训练和匹配训练;基于所述图像数据和所述文本数据构建掩码图像数据和掩码文本数据,进行多模态掩码图像建模训练和多模态掩码语言建模训练;将所述文本数据中的字符按预设规则进行移位获得处理文本数据;将所述处理文本数据输入所述跨模态文本解码器,进行自回归生成训练。本发明专利技术能够提高训练效率,提升图像报告生成系统对相关数据的细粒度语义理解,增加报告的准确性。

【技术实现步骤摘要】

本专利技术涉及计算机视觉和自然语言处理,特别是涉及一种图像报告生成方法及模型训练方法


技术介绍

1、医疗报告包含专业医生对医疗图像的文本描述,在医疗诊断中起着至关重要的作用。但是,医疗报告的编写是一个非常耗费人工精力的过程,即使是一个专业的医生也需要5-10分钟来针对一张医疗图像编写报告。因此,利用计算机技术来实现医疗报告的自动生成可以大大减少这项工作的人力和物力需求。近年来随着深度学习尤其使各种神经网络的应用和发展,使ai自动生成报告的相关技术取得了显著进展,但现有方法仍存在一些问题和缺点:

2、1.细粒度特征的提取困难:医疗图像往往包含复杂的生物学细节和微妙的异常,这些细粒度的特征对于准确诊断至关重要,但现有的模型往往难以充分捕捉和理解这些信息;

3、2.报告的准确性不足:自动生成的报告难以针对特定患者的独特情况提供准确的信息。此外,报告中往往缺乏足够的细节,这对于临床决策来说至关重要;

4、3.跨模态理解的挑战:图像和文本属于不同的数据模态,它们之间的映射和对应关系复杂。现有模型在将视觉特征有效转化为准确、有意义本文档来自技高网...

【技术保护点】

1.一种基于多模态识别的图像报告生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的训练方法,其特征在于,所述图像编码器包括自注意力层和前馈传播层,所述跨模态图像编码器通过在所述图像编码器的自注意力层和前馈传播层之间置入第二交叉注意力层构建得到,所述第二交叉注意力层与所述文本编码器的输出连接,且所述跨模态图像编码器与所述图像编码器共享网络参数。

3.根据权利要求1所述的训练方法,其特征在于,所述文本编码器包括自注意力层和前馈传播层,所述跨模态文本编码器通过在所述文本编码器的自注意力层和前馈传播层之间置入第一交叉注意力层构建得到,所述第一交叉注意力层与所述...

【技术特征摘要】

1.一种基于多模态识别的图像报告生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的训练方法,其特征在于,所述图像编码器包括自注意力层和前馈传播层,所述跨模态图像编码器通过在所述图像编码器的自注意力层和前馈传播层之间置入第二交叉注意力层构建得到,所述第二交叉注意力层与所述文本编码器的输出连接,且所述跨模态图像编码器与所述图像编码器共享网络参数。

3.根据权利要求1所述的训练方法,其特征在于,所述文本编码器包括自注意力层和前馈传播层,所述跨模态文本编码器通过在所述文本编码器的自注意力层和前馈传播层之间置入第一交叉注意力层构建得到,所述第一交叉注意力层与所述图像编码器的输出连接,且所述跨模态文本编码器与所述文本编码器共享网络参数。

4.根据权利要求3所述的训练方法,其特征在于,所述跨模态文本解码器通过采用因果自注意力层替换所述跨模态文本编码器的自注意力层构建得到,且所述跨模态文本解码器与所述跨模态文本编码器共享...

【专利技术属性】
技术研发人员:郝泳涛尹恒
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1