【技术实现步骤摘要】
一种图片型医疗检查报告文字提取方法
[0001]本专利技术涉及医疗检查报告文字提取方法,特别是涉及一种图片型医疗检查报告文字提取方法
。
技术介绍
[0002]在申请远程会诊时,检查报告通常使用手机进行拍照,并将拍照结果上传,作为会诊申请材料
。
提取图片检查报告内容,将内容数字化存储很有意义
。
随着高端硬件和深度学习算法的出现,在文本检查与文本识别领域,
OCR(Optical Character Recognition)
技术得到广泛应用,在医学领域,
OCR
技术,已有使用深度学习方法来提高识别扫描医学检查报告应用
。
版面分析常用来获取图片排版信息,确认版面中位置信息,提升观看阅读体验
。
但是,没有研究人员将识别检查报告版面,获取报告内容作为一个顺序化流程,来将图片形式检查报告数字化
。
[0003]因此,为了方便远程会诊,方便展示医疗检查报告图片,报告图片数字化存储为文本文档,去除报告中不相关内容,如,患者姓名
、
检查设备编号等,训练适合医疗检查报告图片的版面分析模型,对报告图片进行版面分析
、
文本检测
、
文本识别
、
数字化文档存储,并将上述操作组成一个顺序化流程,这就是本次涉及需要完成的内容
。
技术实现思路
[0004]鉴于此,本专利技术要解决的技术问题是,将图片医疗检查报告版面分析与文 ...
【技术保护点】
【技术特征摘要】
1.
一种图片型医疗检查报告文字提取方法,其特征在于,所述方法包括:
A
,获取图片信息,图片信息内容为医疗检查报告文字内容;
B
,提取图片型医疗检查报告文字内容与文字布局;
C
,将所述文字内容数字化存储为文本文件,基于
B
所述文字内容与文字布局,将结果存储为文本文件;
D
,将上述过程顺序化:基于
A、B、C
所述,将上述步骤组成顺序化调用
。2.
根据权利1要求所述的一种图片型医疗检查报告文字提取方法,所述数字化医疗检查报告图片,提取图片型医疗检查报告文字内容与文字布局,具体包括:
B1
,训练版面分析模型:训练适合图片型医疗检查报告进行版面分析的模型;在训练版面分析模型时,计算
varifocal
损失来解决分类预测和质量预测;在回归步骤,同时计算
GIoU
损失和
Distribution Focal
损失
。
计算公式如下所示;
loss
=
loss
vfl
+2*loss
giou
+0.25*soss
dfl
B2
,调用版面分析模型:对于输入图片型医疗检查报告,调用所述
B1
版面分析模型,获得图片报告信息数据;
B3
,调用文本检测模型:基于
B2
所述图片报告信息数据,调用文本检测模型,获得文本框列表,在文本检测模型训练阶段,
DML
损失函数采用如下计算方法:文本检测整体损失函数由
GT
损失
、DML
损失
、Distill
损失三部分组成,总体损失函数计算公式如下式所示:
Loss
【专利技术属性】
技术研发人员:任晓阳,窦东伟,王振博,黄国书,宋晓琴,蒋川,
申请(专利权)人:郑州大学第一附属医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。