医疗报告结构化识别模型训练方法、系统、设备及存储介质技术方案

技术编号:39195411 阅读:10 留言:0更新日期:2023-10-27 08:42
本发明专利技术提供医疗报告结构化识别模型训练方法、系统、设备及存储介质,其中方法包括:获取医疗报告图像;获取医疗报告图像中的文本检测框及其坐标点;对文本检测框进行倾斜矫正;对同行文本检测框进行合并;标注出文本检测框所在位置和文本类别;标注出各个文本检测框之间的关系;利用标注后的医疗报告图像构建数据集,输入医疗报告结构化识别模型进行训练;所述医疗报告结构化识别模型接收图像、文本以及布局作为输入,基于transformer机制执行文本理解任务。本发明专利技术针对医疗场景制作针对医疗报告的数据集,增强不同场景下的泛化性,将倾斜、模糊的文本合并成有序的多行文本,将其作为新模态,提供有序信息的特征输入,提高预测精度。提高预测精度。提高预测精度。

【技术实现步骤摘要】
医疗报告结构化识别模型训练方法、系统、设备及存储介质


[0001]本专利技术涉及深度学习领域,具体涉及光学字符识别
,提供医疗报告结构化识别模型训练方法、系统、设备及存储介质。

技术介绍

[0002]在医疗领域,对于纸质医疗报告的OCR(光学字符识别)信息提取是一个受到重点关注的问题。传统OCR技术通过图像预处理、版面划分(直线检测、倾斜检测)、字符定位切分、字符识别、版面恢复、后处理、校对等流程直接提取出图像中的文字,在理想环境下的印刷体识别上取得了比较准确的效果。然而,在面对复杂环境场景如光照、模糊、文字形状扭曲等情况时,传统方法往往识别精度不高。目前,随着深度学习算法特别是计算机视觉领域算法的发展,该问题得到了有效解决。相比传统OCR方法的手工提取特征,基于深度学习的OCR技术使用深度学习算法模型提取图像特征,从而自动检测出文本的内容和所处位置,在面对复杂场景和困难样本时具有更好的预测效果。
[0003]然而,对于医疗报告的信息提取来说,基于深度学习的常规OCR方法如CRNN等方法并不足以满足用户的需求。在医疗报告的信息提取任务中,最终的目标是得到一个结构化的对象,该对象包括报告中的各种字段,比如姓名、年龄、检查项目等。常规的OCR模型只能得到图像中存在的文本内容以及该文本所在的位置,这些结果还需要经过一些后处理方法包括文本合并、模式匹配等方法才可以提取出对象的信息。由于不同医院的医疗报告格式存在的差异,后处理过程十分繁琐,对于每家医院的每种报告都需要不同匹配规则,对于新类型的报告也不具备泛化性。因此,有学者提出了LayoutXLM模型,旨在解决这一问题。该模型结合图像、文本、布局多个模态对文档图像进行结构化识别,依靠强大的神经网络直接得到图像的结构化识别结果,省去了繁琐的后处理流程,实现了通用的文档结构化识别功能。
[0004]虽然LayoutXLM模型实现了通用的文档结构化识别功能并且表现良好,但是在面对现实场景时,存在一定的缺陷。该模型只考虑了规范的文档图片的识别,即扫描生成的平整文档图片。但是在诸多现实任务场景中,需要预测的文档图片往往不太规范。在医疗报告识别的现实场景中,许多的医疗报告使用拍摄设备进行采集。而拍摄的报告图片存在几个问题。首先,拍摄的图片角度各异。通常拍摄出的文档图片做不到绝对的平整,会存在文字倾斜的情况,对文档的结构化识别造成影响。其次,拍摄的文档纸张本身会存在扭曲的情况,这一情况在医疗检查报告单上尤其普遍。这会使得OCR模型预测的文本检测框出现不同程度的偏移、不同角度的倾斜等情况。此外,与扫描图像不同,拍摄的图片可能会存在模糊、光照影响等图片质量问题,极大影响模型预测精度。模型在面对上述的情况时,泛化性较差,识别精度受到了较大影响。

技术实现思路

[0005]为了解决医疗报告光学字符识别
样本处理困难、模型泛化性差的问题,本专利技术提供医疗报告结构化识别模型训练方法、系统、设备及存储介质,其中医疗报告结构
化识别模型训练方法包括:
[0006]获取医疗报告图像;
[0007]获取医疗报告图像中的文本检测框及其坐标点;
[0008]对文本检测框进行倾斜矫正;
[0009]对同行文本检测框进行合并;
[0010]标注出文本检测框所在位置和文本类别;
[0011]标注出各个文本检测框之间的关系;
[0012]利用标注后的医疗报告图像构建数据集,输入医疗报告结构化识别模型进行训练;
[0013]所述医疗报告结构化识别模型接收图像、文本以及布局作为输入,基于transformer机制执行文本理解任务。
[0014]收集来自不同医院的各类医疗报告图片,包括门诊病历、入院记录、医疗影像检查报告、手术记录、检验报告、处方报告、出院报告。每类报告收集100张。报告中既有扫描图像,也有拍摄的图像,比例为1:1。
[0015]还可以对训练集进行数据增强操作,如小角度旋转、加高斯模糊等。
[0016]进一步,所述医疗报告结构化识别模型基于LayoutXLM模型,使用空间自注意力机制。
[0017]医疗报告结构化识别模型基于LayoutXLM模型,使用空间自注意力机制,接受来自三种不同模态的信息,包括文本、布局和图像,分别使用文本嵌入、布局嵌入和视觉嵌入层进行编码。输入嵌入由文本和图像嵌入拼接起来,再加上布局嵌入,输入具有自注意力机制的多模态transformer进行编码。最后,输出上下文表示可用于文本理解任务。
[0018]将所述OCR矫正结果加入到训练数据中,即增加一组矫正模态信息,此时LayoutXLM模型的输入包含:图像、文本和布局以及矫正后的文本和布局。增加了矫正模态信息的训练数据分别使用文本嵌入、布局嵌入和视觉嵌入层进行编码。输入嵌入由文本和图像嵌入拼接起来,再加上布局嵌入,输入transformer进行编码,最后输出用于文本理解任务。
[0019]transformer是一个利用注意力机制来提高模型训练速度的模型,主要由Encoder编码器和Decoder解码器组成,Encoder编码器对输入的文本数据的进行编码,随后将编码的数据输入Decoder解码器进行解码。编码器和解码器又各自包括若干编码器和若干解码器,每个编码器结构是自注意力机制和前馈神经网络。
[0020]自注意力机制对每一个输入的向量,我们需要构建自注意力机制self

attention的输入。transformer将输入向量乘上若干矩阵,得到新的向量,这样可以增加更多的参数,提高模型效果。随后进行注意力得分的计算,将计算结果进行softmax运算,将分数标准化,随后将所述新的向量乘上softmax的结果,保持我们需要关注的值不变,过滤掉不相关的值,再根据权重将各个向量相加。
[0021]进一步,所述对文本检测框进行倾斜矫正包括:
[0022]设文本检测框的左上角、右上角、右下角以及左下角坐标点依次为A=[x0,y0],B=[x1,y1],C=[x2,y2],D=[x3,y3],计算向量AB与单位向量[1,0]的夹角θ;
[0023]计算所有文本检测框的夹角θ的平均值θavg;
[0024]根据X=xcos(θ)+y sin(θ),Y=ycos(θ)

x sin(θ)纠正文本检测框坐标,纠正后的文本检测框坐标为[X
i
,Y
i
]=[x
i
cosθ
avg
+y
i
sinθ
avg
,y
i
cosθ
avg

x
i
sinθ
avg
]。
[0025]进一步,所述对同行文本检测框进行合并包括:
[0026]A
i
和D
i
表示第i个文本检测框的左上角点和左下角点,计算所有文本检测框的A
i
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗报告结构化识别模型训练方法,其特征在于,包括:获取医疗报告图像;获取医疗报告图像中的文本检测框及其坐标点;对文本检测框进行倾斜矫正;对同行文本检测框进行合并;标注出文本检测框所在位置和文本类别;标注出各个文本检测框之间的关系;利用标注后的医疗报告图像构建数据集,输入医疗报告结构化识别模型进行训练;所述医疗报告结构化识别模型接收图像、文本以及布局作为输入,基于transformer机制执行文本理解任务。2.根据权利要求1所述的医疗报告结构化识别模型训练方法,其特征在于,所述对文本检测框进行倾斜矫正包括:设文本检测框的左上角、右上角、右下角以及左下角坐标点依次为A=[x0,y0],B=[x1,y1],C=[x2,y2],D=[x3,y3],计算向量AB与单位向量[1,0]的夹角θ;计算所有文本检测框的夹角θ的平均值θavg;根据X=xcos(θ)+y sin(θ),Y=ycos(θ)

x sin(θ)纠正文本检测框坐标,纠正后的文本检测框坐标为[X
i
,Y
i
]=[x
i
cosθ
avg
+y
i
sinθ
avg
,y
i
cosθ
avg

x
i
sinθ
avg
]。3.根据权利要求2所述的医疗报告结构化识别模型训练方法,其特征在于,所述对同行文本检测框进行合并包括:A
i
和D
i
表示第i个文本检测框的左上角点和左下角点,计算所有文本检测框的A
i
和D
i
的欧氏距离取最小值作为检测阈值;[x0,y0]表示点A的坐标,[x1,y1]表示点B的坐标,遍历比较x0,若x0
i
<x0
j
,且两框之间的高度差绝对值小于检测阈值,|y1
i

y0
j
|<检测阈值,则在索引图中连接A
i
和A
j
对应的文本检测框;遍历索引图,将连接的文本检测框汇聚成一行;从左到右对每一行的索引进行排序;从上到下对所有行的索引进行排序;得到合并后的文本检测框以及相应的文本。4.根据权利要求1所述的医疗报告结构化识别模型训练方法,其特征在于,所述医疗报告结构化识别模型基于LayoutXLM模型,使用空间自注意力机制。5.根据权利要求1所述的医疗报告结构化识别模型训练方法,其特征在于,所述文本类别包括other和/或question和/或answer和/或name和/或result和/或unit和/或range和/或method。6.一种医疗报告结构化识别模型训练系统,其特征在于,包括:医疗报告获取...

【专利技术属性】
技术研发人员:高唯唯文景涛曾婷欧阳滨滨林梓陆陈益祥蔡德贵匡思羽柳子用
申请(专利权)人:联通广东产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1