基于OCR和MLLM的医疗表单数据识别方法及系统技术方案

技术编号:44715807 阅读:19 留言:0更新日期:2025-03-21 17:45
本发明专利技术公开了一种基于OCR和MLLM的医疗表单数据识别方法及系统,该方法包括:接收原始图像数据,通过自适应对比度增强、区域重要性加权和多分辨率优化,生成优化图像序列;基于优化图像序列进行特征提取,构建文本‑空间注意力图,实现文本识别;对优化图像序列和文本识别结果进行视觉编码和文本编码,通过特征对齐得到统一特征表示;基于统一特征表示构建信息层次图,进行关系推理,结合专业知识验证得到结构化特征信息;对结构化特征信息进行数据校验,得到规范化数据。本发明专利技术实现了医疗表单的高效识别和准确结构化,提升了医疗数据的数字化效率。

【技术实现步骤摘要】

本专利技术属于数据识别领域,尤其是一种基于ocr和mllm的医疗表单数据识别方法及系统。


技术介绍

1、医疗表单数据的智能识别和结构化是医疗信息化建设的重要基础。大量的检验报告、处方单、病历等医疗表单包含了患者的关键健康信息,将这些非结构化的表单数据转换为标准化的电子信息,对于提升医疗效率、支持临床决策、促进医疗大数据分析具有重要意义。自动化的表单数据识别技术可以减少人工录入工作量,降低数据错误率,加速医疗数据的数字化进程,为智慧医疗的发展提供数据支撑。

2、目前,医疗表单数据识别主要采用传统ocr技术与规则模板相结合的方法。典型的处理流程包括图像预处理、文本检测、字符识别和模板匹配等步骤。部分研究通过引入深度学习技术提升了文字识别的准确率,如采用cnn进行特征提取,使用lstm进行序列建模,或利用transformer增强对长文本的处理能力。在表单结构分析方面,主要依靠预定义的版面分析规则和固定的表格解析模板,通过边缘检测、连通域分析等计算机视觉技术实现表格线条的识别和单元格的划分。

3、然而,现有技术在处理医疗表单时仍面临诸多挑本文档来自技高网...

【技术保护点】

1.基于OCR和MLLM的医疗表单数据识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于OCR和MLLM的医疗表单数据识别方法,其特征在于,步骤S1进一步为:

3.根据权利要求2所述的基于OCR和MLLM的医疗表单数据识别方法,其特征在于,步骤S2进一步为:

4.根据权利要求3所述的基于OCR和MLLM的医疗表单数据识别方法,其特征在于,步骤S3进一步为:

5.根据权利要求4所述的基于OCR和MLLM的医疗表单数据识别方法,其特征在于,步骤S4进一步为:

6.根据权利要求5所述的基于OCR和MLLM的医疗表单数据...

【技术特征摘要】

1.基于ocr和mllm的医疗表单数据识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于ocr和mllm的医疗表单数据识别方法,其特征在于,步骤s1进一步为:

3.根据权利要求2所述的基于ocr和mllm的医疗表单数据识别方法,其特征在于,步骤s2进一步为:

4.根据权利要求3所述的基于ocr和mllm的医疗表单数据识别方法,其特征在于,步骤s3进一步为:

5.根据权利要求4所述的基于ocr和mllm的医疗表单数据识别方法,其特征在于,步骤s4进一步为:

...

【专利技术属性】
技术研发人员:吴浩然郑克超徐波
申请(专利权)人:中科南京人工智能创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1