一种多场景全域图像一致性报告生成方法及框架结构技术

技术编号：44645101 阅读：20 留言：0更新日期：2025-03-17 18:35

本发明专利技术公开了一种多场景全域图像一致性报告生成方法及框架结构，所述框架结构包括视觉特征编码模块、文本语义编码模块、多场景视觉‑文本对齐模块、多场景主题感知模块、报告生成模型管道，本发明专利技术利用视觉特征编码模块、文本语义编码模块分别提取图像特征和文本特征，经多场景视觉‑文本对齐模块将多尺度文本特征与其对应的多尺度图像特征的对齐，再经多场景主题感知模块提高了多场景图像和文本的描述对应性，最后由报告生成模型管道生成一致性报告，解决了多场景图像与报告文本的对应场景描述准确性低、连贯性差，以及生成报告不准确的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像描述与多模态，更具体地，涉及一种多场景全域图像一致性报告生成方法及框架结构。

技术介绍

1、随着医疗技术的不断进步，尤其是内窥镜技术的广泛应用，诸如胃镜、肠镜、鼻内镜等内窥镜检查产生的医学影像数量急剧增加。这些影像在疾病的诊断、治疗方案的制定以及患者管理等方面扮演着至关重要的角色。然而，传统上，这些医学影像的分析和诊断工作依赖于医生的专业知识和临床经验，这不仅对医生的技能水平提出了高要求，而且诊断过程耗时费力，难以满足当前医疗体系下日益增长的诊断需求。以内窥镜为例的多场景全域图像报告生成来说，其检查过程中产生的原始图像往往缺乏明确的标注或提示信息，医生需要依靠肉眼观察来识别病变，长时间的工作容易引发视觉疲劳和精神分散，从而影响诊断的准确性和效率。随着深度学习技术在医学图像处理领域的应用，能够为医生提供客观、准确的诊断依据，但是存在特征提取局限、算法效率低下以及多场景图像和对应报告文本的不对应问题需要改善。

2、在cn118470481a智能内窥镜图像特征处理方法及装置中通过深度学习技术自动提取和融合局部与全...

【技术保护点】

1.一种多场景全域图像一致性报告生成方法，其特征在于，步骤包括：

2.根据权利要求1所述多场景全域图像一致性报告生成方法，其特征在于，步骤S21中还包括利用sin(α+β)＝sinαcosβ+cosαsinβ以及cos(α+β)＝cosαcosβ-sinαsinβ三角恒等式将p+k的位置向量表示为位置p位置向量的线性变换。

3.根据权利要求1所述多场景全域图像一致性报告生成方法，其特征在于，步骤S22中注意力机制第i个注意力头Aheadi的计算过程为：

4.根据权利要求1所述多场景全域图像一致性报告生成方法，其特征在于，步骤S23包括：

5...

【技术特征摘要】

1.一种多场景全域图像一致性报告生成方法，其特征在于，步骤包括：

2.根据权利要求1所述多场景全域图像一致性报告生成方法，其特征在于，步骤s21中还包括利用sin(α+β)＝sinαcosβ+cosαsinβ以及cos(α+β)＝cosαcosβ-sinαsinβ三角恒等式将p+k的位置向量表示为位置p位置向量的线性变换。

3.根据权利要求1所述多场景全域图像一致性报告生成方法，其特征在于，步骤s22中注意力机制第i个注意力头aheadi的计算过程为：

4.根据权利要求1所述多场景全域图像一致性报告生成方法，其特征在于，步骤s23包括：

5.根据权利要求1所述多场景全域图像一致性报告生成方法，其特征在于，步骤s23中第ith个图像-报告对的余弦相似度表示为：

6.根据权利要求1...

【专利技术属性】
技术研发人员：袁鑫攀，匡俊桦，金思铭，赵贵虎，王跃明，何频捷，
申请(专利权)人：湖南工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人