一种图片型医疗检查报告文字提取方法技术

技术编号：39781672 阅读：11 留言：0更新日期：2023-12-22 02:25

本发明专利技术涉及一种图片型医疗检查报告文字提取方法

全部详细技术资料下载

【技术实现步骤摘要】
一种图片型医疗检查报告文字提取方法

[0001]本专利技术涉及医疗检查报告文字提取方法，特别是涉及一种图片型医疗检查报告文字提取方法
。

技术介绍

[0002]在申请远程会诊时，检查报告通常使用手机进行拍照，并将拍照结果上传，作为会诊申请材料
。
提取图片检查报告内容，将内容数字化存储很有意义
。
随着高端硬件和深度学习算法的出现，在文本检查与文本识别领域，
OCR(Optical Character Recognition)
技术得到广泛应用，在医学领域，
OCR
技术，已有使用深度学习方法来提高识别扫描医学检查报告应用
。
版面分析常用来获取图片排版信息，确认版面中位置信息，提升观看阅读体验
。
但是，没有研究人员将识别检查报告版面，获取报告内容作为一个顺序化流程，来将图片形式检查报告数字化
。
[0003]因此，为了方便远程会诊，方便展示医疗检查报告图片，报告图片数字化存储为文本文档，去除报告中不相关内容，如，患者姓名
、
检查设备编号等，训练适合医疗检查报告图片的版面分析模型，对报告图片进行版面分析
、
文本检测
、
文本识别
、
数字化文档存储，并将上述操作组成一个顺序化流程，这就是本次涉及需要完成的内容
。

技术实现思路

[0004]鉴于此，本专利技术要解决的技术问题是，将图片医疗检查报告版面分析与文...

【技术保护点】

【技术特征摘要】
1.
一种图片型医疗检查报告文字提取方法，其特征在于，所述方法包括：
A
，获取图片信息，图片信息内容为医疗检查报告文字内容；
B
，提取图片型医疗检查报告文字内容与文字布局；
C
，将所述文字内容数字化存储为文本文件，基于
B
所述文字内容与文字布局，将结果存储为文本文件；
D
，将上述过程顺序化：基于
A、B、C
所述，将上述步骤组成顺序化调用
。2.
根据权利1要求所述的一种图片型医疗检查报告文字提取方法，所述数字化医疗检查报告图片，提取图片型医疗检查报告文字内容与文字布局，具体包括：
B1
，训练版面分析模型：训练适合图片型医疗检查报告进行版面分析的模型；在训练版面分析模型时，计算
varifocal
损失来解决分类预测和质量预测；在回归步骤，同时计算
GIoU
损失和
Distribution Focal
损失
。
计算公式如下所示；
loss
＝
loss
vfl
+2*loss
giou
+0.25*soss
dfl
B2
，调用版面分析模型：对于输入图片型医疗检查报告，调用所述
B1
版面分析模型，获得图片报告信息数据；
B3
，调用文本检测模型：基于
B2
所述图片报告信息数据，调用文本检测模型，获得文本框列表，在文本检测模型训练阶段，
DML
损失函数采用如下计算方法：文本检测整体损失函数由
GT
损失
、DML
损失
、Distill
损失三部分组成，总体损失函数计算公式如下式所示：
Loss

【专利技术属性】
技术研发人员：任晓阳，窦东伟，王振博，黄国书，宋晓琴，蒋川，
申请(专利权)人：郑州大学第一附属医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人