一种图片型医疗检查报告文字提取方法技术

技术编号:39781672 阅读:11 留言:0更新日期:2023-12-22 02:25
本发明专利技术涉及一种图片型医疗检查报告文字提取方法

【技术实现步骤摘要】
一种图片型医疗检查报告文字提取方法


[0001]本专利技术涉及医疗检查报告文字提取方法,特别是涉及一种图片型医疗检查报告文字提取方法


技术介绍

[0002]在申请远程会诊时,检查报告通常使用手机进行拍照,并将拍照结果上传,作为会诊申请材料

提取图片检查报告内容,将内容数字化存储很有意义

随着高端硬件和深度学习算法的出现,在文本检查与文本识别领域,
OCR(Optical Character Recognition)
技术得到广泛应用,在医学领域,
OCR
技术,已有使用深度学习方法来提高识别扫描医学检查报告应用

版面分析常用来获取图片排版信息,确认版面中位置信息,提升观看阅读体验

但是,没有研究人员将识别检查报告版面,获取报告内容作为一个顺序化流程,来将图片形式检查报告数字化

[0003]因此,为了方便远程会诊,方便展示医疗检查报告图片,报告图片数字化存储为文本文档,去除报告中不相关内容,如,患者姓名

检查设备编号等,训练适合医疗检查报告图片的版面分析模型,对报告图片进行版面分析

文本检测

文本识别

数字化文档存储,并将上述操作组成一个顺序化流程,这就是本次涉及需要完成的内容


技术实现思路

[0004]鉴于此,本专利技术要解决的技术问题是,将图片医疗检查报告版面分析与文本检测和文本识别结合一起,在准确识别医疗检查报告版面同时,还能够别不同区域文字内容

[0005]为了解决上述技术问题,本专利技术提出一种图片型医疗检查报告文字提取方法,包括以下方法:
[0006]训练版面分析模型:训练适合医疗检查报告图片进行版面分析的模型;
[0007]为了解决上述问题进行图片型医疗检测报告数据集数据标注,标注“诊断意见”、“印象”关键内容,不标注“患者姓名”、“检查设备编号”等内容

[0008]在训练版面分析模型时,计算
varifocal
损失来解决分类预测和质量预测;在回归步骤,同时计算
GIoU
损失和
Distribution Focal
损失

计算公式如下所示

[0009]loss

loss
vfl
+2*loss
giou
+0.25*loss
dfl
[0010]调用版面分析模型:对于输入医疗检查报告图片,调用上述版面分析模型,获得图片型医疗检查报告文本版面数据;
[0011]调用文本检测模型:基于上述图片型医疗检查报告文本版面数据,调用文本检测模型,获得文本框列表

在文本检测模型训练阶段,
DML
损失函数采用如下计算方法:
[0012][0013]文本检测整体损失函数由
GT
损失
、DML
损失
、Distill
损失三部分组成,总体损失函数计算公式如下式所示:
[0014]Loss
total

Loss
gt
+Loss
dml
+Loss
distill
[0015]调用文本识别模型:基于上述文本框列表数据,调用文本识别模型,获得图片型医疗检查报告文字

引入特征图监督机制,使用
L2
损失来计算特征图损失,具体计算方法如下式所示:
[0016]Loss
feat

L2(S
bout

T
bout
)
[0017]整体损失计算方法如下所示:
[0018]Loss
total

Loss
ctc
+Loss
dml
+Loss
feat
[0019]调整文字版面布局:基于上述图片型医疗检查报告文字,对版面布局进行调整;
[0020]将结果存储为文本文件:基于上述版面布局调整后结果,将图片型医疗检查报告文字输出到文本文件

[0021]进一步的,所述一种图片型医疗检查报告文字提取方法,其特征在于:所述图片信息获取方式包括使用手机拍摄的打印医疗检查报告照片和医院内部检查报告系统截图

[0022]进一步的,所述一种图片型医疗检查报告文字提取方法,其特征在于:所述训练图片型医疗检查报告版面分析模型包括,使用图片版面标注工具,对训练数据进行标注

[0023]进一步的,所述一种图片型医疗检查报告文字提取方法,其特征在于:所述提取的信息数据包括图片报告版面区域列表信息

[0024]根据下面参考附图对图片型医疗检查报告的详细说明,本专利技术的其他特征及方面变得清楚

附图说明
[0025]包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本专利技术的图片型医疗检查报告数据集标注,图片型医疗检查报告版面分析模型架构图,文本检测和文本识别框架,并且用于解释本专利技术的原理

[0026]图1示出本专利技术一种图片型医疗检查报告文字提取方法整体流程图;
[0027]图2示出图片型医疗检查报告数据集数据标注过程;
[0028]图3示出图片型医疗检查报告数据集,图片划分

图片标注

转换标注过程;
[0029]图4示出训练图片型医疗检查报告版面分析模型架构图;
[0030]图5示出图片型医疗检查报告版面分析模型训练流程;
[0031]图6示出文本检测模型架构图;
[0032]图7示出文本识别阶段架构图;
[0033]图8示出图片型医疗检查报告文字提取顺序化过程图

具体实施方式
[0034]以下将参考附图详细说明本专利技术的技术方案进行清楚

完整的描述,显然,所描述的实施仅仅是本专利技术一部分实施例,而不是全部的实施例

[0035]请参阅图1,本申请提供了一种图片型医疗检查报告文字提取方法

本专利技术针对图片型医疗检查报告文字提取为出发点

[0036]如图2示出图片型医疗检查报告数据集数据标注过程

因为图片型医疗检查报告版面分析预训练模型是基于中文
CDLA
数据集,本专利技术在标注版面分析模型时,指定一个符

CDLA
数据集的数据标签文件

使用
LabelMe
进行图片数据标注

[0037]如图3示出图片型医疗检查报告数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种图片型医疗检查报告文字提取方法,其特征在于,所述方法包括:
A
,获取图片信息,图片信息内容为医疗检查报告文字内容;
B
,提取图片型医疗检查报告文字内容与文字布局;
C
,将所述文字内容数字化存储为文本文件,基于
B
所述文字内容与文字布局,将结果存储为文本文件;
D
,将上述过程顺序化:基于
A、B、C
所述,将上述步骤组成顺序化调用
。2.
根据权利1要求所述的一种图片型医疗检查报告文字提取方法,所述数字化医疗检查报告图片,提取图片型医疗检查报告文字内容与文字布局,具体包括:
B1
,训练版面分析模型:训练适合图片型医疗检查报告进行版面分析的模型;在训练版面分析模型时,计算
varifocal
损失来解决分类预测和质量预测;在回归步骤,同时计算
GIoU
损失和
Distribution Focal
损失

计算公式如下所示;
loss

loss
vfl
+2*loss
giou
+0.25*soss
dfl
B2
,调用版面分析模型:对于输入图片型医疗检查报告,调用所述
B1
版面分析模型,获得图片报告信息数据;
B3
,调用文本检测模型:基于
B2
所述图片报告信息数据,调用文本检测模型,获得文本框列表,在文本检测模型训练阶段,
DML
损失函数采用如下计算方法:文本检测整体损失函数由
GT
损失
、DML
损失
、Distill
损失三部分组成,总体损失函数计算公式如下式所示:
Loss

【专利技术属性】
技术研发人员:任晓阳窦东伟王振博黄国书宋晓琴蒋川
申请(专利权)人:郑州大学第一附属医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1