【技术实现步骤摘要】
本专利技术涉及图像描述与多模态,更具体地,涉及一种多场景全域图像一致性报告生成方法及框架结构。
技术介绍
1、随着医疗技术的不断进步,尤其是内窥镜技术的广泛应用,诸如胃镜、肠镜、鼻内镜等内窥镜检查产生的医学影像数量急剧增加。这些影像在疾病的诊断、治疗方案的制定以及患者管理等方面扮演着至关重要的角色。然而,传统上,这些医学影像的分析和诊断工作依赖于医生的专业知识和临床经验,这不仅对医生的技能水平提出了高要求,而且诊断过程耗时费力,难以满足当前医疗体系下日益增长的诊断需求。以内窥镜为例的多场景全域图像报告生成来说,其检查过程中产生的原始图像往往缺乏明确的标注或提示信息,医生需要依靠肉眼观察来识别病变,长时间的工作容易引发视觉疲劳和精神分散,从而影响诊断的准确性和效率。随着深度学习技术在医学图像处理领域的应用,能够为医生提供客观、准确的诊断依据,但是存在特征提取局限、算法效率低下以及多场景图像和对应报告文本的不对应问题需要改善。
2、在cn118470481a智能内窥镜图像特征处理方法及装置中通过深度学习技术自动提取和融合局部与全
...【技术保护点】
1.一种多场景全域图像一致性报告生成方法,其特征在于,步骤包括:
2.根据权利要求1所述多场景全域图像一致性报告生成方法,其特征在于,步骤S21中还包括利用sin(α+β)=sinαcosβ+cosαsinβ以及cos(α+β)=cosαcosβ-sinαsinβ三角恒等式将p+k的位置向量表示为位置p位置向量的线性变换。
3.根据权利要求1所述多场景全域图像一致性报告生成方法,其特征在于,步骤S22中注意力机制第i个注意力头Aheadi的计算过程为:
4.根据权利要求1所述多场景全域图像一致性报告生成方法,其特征在于,步骤S23包
5...
【技术特征摘要】
1.一种多场景全域图像一致性报告生成方法,其特征在于,步骤包括:
2.根据权利要求1所述多场景全域图像一致性报告生成方法,其特征在于,步骤s21中还包括利用sin(α+β)=sinαcosβ+cosαsinβ以及cos(α+β)=cosαcosβ-sinαsinβ三角恒等式将p+k的位置向量表示为位置p位置向量的线性变换。
3.根据权利要求1所述多场景全域图像一致性报告生成方法,其特征在于,步骤s22中注意力机制第i个注意力头aheadi的计算过程为:
4.根据权利要求1所述多场景全域图像一致性报告生成方法,其特征在于,步骤s23包括:
5.根据权利要求1所述多场景全域图像一致性报告生成方法,其特征在于,步骤s23中第ith个图像-报告对的余弦相似度表示为:
6.根据权利要求1...
【专利技术属性】
技术研发人员:袁鑫攀,匡俊桦,金思铭,赵贵虎,王跃明,何频捷,
申请(专利权)人:湖南工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。