一种权威机构体检报告自动识别方法及系统技术方案

技术编号:35915485 阅读:21 留言:0更新日期:2022-12-10 10:57
本发明专利技术公开了一种权威机构体检报告自动识别方法及系统,包括:创建体检报告模板库,获取体检报告制作相应JSON格式的体检报告模板,将所述体检报告模板存入体检报告模板库中;构建并训练OCR识别模型;对所述体检报告进行OCR识别和版面分析,得到OCR识别结果;将所述OCR识别结果与JSON格式的体检报告模板结合进行结构化处理得到体检报告文本;系统包括:注册登录模块、模型构建模块、识别分析模块和结构化处理模块。本发明专利技术简化了制作模板的难度,不再死板化的固定字段在图像中的位置,采用配置JSON格式的模板进行动态定位,适合更多更复杂的情况,能实现对表格及分页情况的处理效率更高,文本结构化识别效果更好。文本结构化识别效果更好。文本结构化识别效果更好。

【技术实现步骤摘要】
一种权威机构体检报告自动识别方法及系统


[0001]本专利技术涉及图像识别和自然语言处理领域,特别是涉及一种权威机构体检报告自动识别方法及系统。

技术介绍

[0002]随着电子化信息数据的迅猛增长,海量的图像证件,票据,凭证,表格数据以及PDF数据需要提取相关信息,人工录入耗时长,成本高,使用OCR将会极大的提高处理效率。
[0003]传统深度学习 OCR 的训练过程包含两个模型:文字检测模型和文本识别模型;在推理阶段,将这两个模型组合起来构建成整套的图文识别系统。文本检测算法有DB、EAST、SAST 等等,文本识别算法有CRNN、RARE、StarNet、Rosetta、SRN 等算法。近几年,出现了端到端的图文检测与识别网络:在训练阶段,该模型的输入包含待训练图像、图像中的文本内容以及文本对应的坐标;在推理阶段,原始图片经过端到端模型直接预测出文本内容信息。端到端的方法主要有FOTS (Fast Oriented Text Spotting)、STN

OCR等。
[0004]公布号为CN 110543844 A,名称为一种政务元数据PDF文件的元数据抽取方法的专利文献,使用OCR文字识别引擎,识别PDF文件中的内容,通过对政务元数据信息的模板匹配方法,抽取出元数据的字段和属性值等重要的信息,录入到系统,提高了抽取效率,但是只适用与提取简单的信息,不适合处理复杂的表格。公布号为CN 113326797 A,名称为一种PDF文档提取的表格信息转换为结构化知识的方法的专利文献,将PDF页转化为图片并使用图像处理算法寻找所有闭合矩形框;对闭合矩形框区域进行位置分析以及OCR识别得出完整表格信息,能对表格内容进行结构化处理,但是只固、定字段在图像中的位置,不能进行动态定位。

技术实现思路

[0005]为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种权威机构体检报告自动识别方法,其特征在于,所述包括:S1.创建体检报告模板库,获取体检报告制作相应JSON格式的体检报告模板,将所述体检报告模板存入体检报告模板库中;S2.构建并训练OCR识别模型;S3.将所述体检报告输入所述OCR识别模型后进行版面分析,得到OCR识别结果;S4.将所述OCR识别结果与所述JSON格式的体检报告模板结合进行结构化处理得到体检报告文本。
[0006]进一步的,所述体检报告是通过权威体检机构获取到的或者用户主动上传的;所述JSON格式的体检报告模板主要包括:体检机构名称;所述体检机构名称包括:体检机构标识、列定位关键字、版面分析参数、识别检查项目和未定义检查项目,其中,所述版面分析参数包括:字符水平间距、词组水平间距和行垂直间距;所述识别检查项目包括检查项目名称,其中,所述检查项目名称包括:加强定位符、匹配验证和检查项目子项,其中,
所述匹配验证包括:拆分关键字和关键字匹配次数;所述检查项目子项包括:子项和未定义子项,所述子项包括:子项加强定位符和子项匹配验证;所述子项匹配验证包括:子项拆分关键字、子项关键字匹配次数、单位和参考范围。
[0007]进一步的,所述S2,包括:S2

1.采用可微二值化DB算法构建文本检测模型;其中,所述采用可微二值化DB算法构建文本检测模型,包括:S2
‑1‑
1.将图片输入到金字塔结构的骨架网络中;S2
‑1‑
2.金字塔结构的特征被采样到相同的尺度并且串联起来生成融合后的特征,所述特征用于预测概率图和阈值图;S2
‑1‑
3.利用可微分二值化算法将概率图和阈值图计算为近似二值图;S2

2.采用CRNN算法构建文本识别模型;其中,所述采用CRNN算法构建文本识别模型,包括:S2
‑2‑
1.CRNN卷积层由标准的CNN模型中的卷积层和最大池化层组成,自动提取出输入图像的特征序列;S2
‑2‑
2.CRNN的循环层由一个双向LSTM循环神经网络构成,预测特征序列中的每一个特征向量的真实结果的概率列表,循环层的误差被反向传播,最后会转换成特征序列,再把特征序列反馈到卷积层;S2
‑2‑
3.在双向LSTM网络的最后连接上一个CTC模型,CTC一般连接在RNN网络的最后一层用于序列学习和训练,对于一段长度为T的序列来说,每个样本点t在RNN网络的最后一层都会输出一个Softmax向量,表示该样本点的预测概率,所有样本点的这些概率传输给CTC模型后,输出最可能的标签,再经过去除空格和去重操作,得到最终的序列标签;S2

3.获取文本检测数据集和文本识别数据集,将所述文本检测数据集和文本识别数据集分为训练集和测试集,所述训练集和测试集分别用于训练和测试;S2

4.使用所述文本检测数据集训练并测试文本检测模型;S2

5.使用所述文本识别数据集训练并测试文本识别模型;S2

6.训练并测试后得到的文本检测模型和文本识别模型构成OCR识别模型。
[0008]进一步的,所述获取文本检测数据集和文本识别数据集是从互联网上获取到的公开数据集;所述文本检测数据集,包括英文数据集ICDAR2015和中文数据集LSVT街景数据集;所述文本识别数据集,包括英文数据集MJSynth和SynthText合成数据,中文数据集LSVT街景数据集。
[0009]进一步的,所述S3,包括:S3

1.将所述体检报告的PDF文件转换成指定分辨率的图片列表;S3

2.依次将所述图片列表中的图片输入所述文本检测模型,得到所述图片上所有文本框box的位置坐标;S3

3.依次将所述文本框box输入所述文本识别模型,得到所述文本框box对应的文字内容;S3

4.将全部所述文本框box按相邻位置进行聚类合并得到元box列表;S3

5.对所述元box列表中的元box进行重排版得到OCR识别结果。
[0010]进一步的,所述S3

4,包括:S3
‑4‑
1.遍历全部所述文本框box,对所述文本框box先对x坐标进行升序排序再对y坐标进行升序排序,得到排序后的文本框box;S3
‑4‑
2.依次取出所述排序后的文本框box,得到所述文本框box的右邻域的文本框box和下邻域的文本框box;S3
‑4‑
3.设置版面分析参数作为阈值,判断所述文本框box与右邻域的文本框box和下邻域的文本框box之间的距离是否大于等于阈值,若是,将所述文本框box与右邻域的文本框box和下邻域的文本框box进行合并生成元box,转S3
‑4‑
2;若否,则所述文本框box直接生成元box,转S3
‑4‑
4;S3
‑4‑
4.创建元box列表,将所述元box存储于元box列表中。
[0011]进一步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种权威机构体检报告自动识别方法,其特征在于,包括:S1.创建体检报告模板库,获取体检报告制作相应JSON格式的体检报告模板,将所述体检报告模板存入体检报告模板库中;S2.构建并训练OCR识别模型;S3.将所述体检报告输入所述OCR识别模型后进行版面分析,得到OCR识别结果;S4.将所述OCR识别结果与所述JSON格式的体检报告模板结合进行结构化处理得到体检报告文本。2.如权利要求1所述的一种权威机构体检报告自动识别方法,其特征在于,所述体检报告是通过权威体检机构获取到的或者用户主动上传的;所述JSON格式的体检报告模板主要包括:体检机构名称;所述体检机构名称包括:体检机构标识、列定位关键字、版面分析参数、识别检查项目和未定义检查项目,其中,所述版面分析参数包括:字符水平间距、词组水平间距和行垂直间距;所述识别检查项目包括检查项目名称,其中,所述检查项目名称包括:加强定位符、匹配验证和检查项目子项,其中,所述匹配验证包括:拆分关键字和关键字匹配次数;所述检查项目子项包括:子项和未定义子项,所述子项包括:子项加强定位符和子项匹配验证;所述子项匹配验证包括:子项拆分关键字、子项关键字匹配次数、单位和参考范围。3.如权利要求1所述的一种权威机构体检报告自动识别方法,其特征在于,所述S2,包括:S2

1.采用可微二值化DB算法构建文本检测模型;S2

2.采用CRNN算法构建文本识别模型;S2

3.获取文本检测数据集和文本识别数据集,将所述文本检测数据集和文本识别数据集分为训练集和测试集,所述训练集和测试集分别用于训练和测试;S2

4.使用所述文本检测数据集训练并测试文本检测模型;S2

5.使用所述文本识别数据集训练并测试文本识别模型;S2

6.训练并测试后得到的文本检测模型和文本识别模型构成OCR识别模型。4.如权利要求3所述的一种权威机构体检报告自动识别方法,其特征在于,所述获取文本检测数据集和文本识别数据集是从互联网上获取到的公开数据集;所述文本检测数据集,包括英文数据集ICDAR2015和中文数据集LSVT街景数据集;所述文本识别数据集,包括英文数据集MJSynth和SynthText合成数据,中文数据集LSVT街景数据集。5.如权利要求1或3所述的一种权威机构体检报告自动识别方法,其特征在于,所述S3,包括:S3

1.将所述体检报告的PDF文件转换成指定分辨率的图片列表;S3

2.依次将所述图片列表中的图片输入所述文本检测模型,得到所述图片上所有文本框box的位置坐标;S3

3.依次将所述文本框box输入所述文本识别模型,得到所述文本框box对应的文字内容;S3

4.将全部所述文本框box按相邻位置进行聚类合并得到元box列表;S3

5.对所述元box列表中的元box进行重排版得到OCR识别结果。
6.如权利要求2或5所述的一种权威机构体检报告自动识别方法,其特征在于,所述S3

4,包括:S3
‑4‑
1.遍历全部所述文本框box,对所述文本框box先对x坐标进行升序排序再对y坐标进行升序排序,得到排序后的文本框box;S3
‑4‑
2.依次取出所述排序后的文本框box,得到所述文本框box的右邻域的文本框box和下邻域的文本框box;S3
‑4‑
3.设置版面分析参数作为阈值,判断所述文本框box与右邻域的文本框box和下邻域的文本框box之间的距离是否大于等于阈值,若是,将所述文本框box与右邻域的文本框box和下邻域的文本框box进行合并生成元box,转S3
‑4‑
2;若否,则所述文本框box直接生成元box,转S3
‑4‑
4;S3
‑4‑
4.创建元box列表,将所述元box存储于元box列表中。7.如权利要求2或5所述的一种权威机构体检报告自动识别方法,其特征在于,所述S3

5,包括:S3
‑5‑
1.遍历同一张图片上全部所述元box列表中的元box,对所述元box先对x坐标进行升序排序再对y坐标进行升序排序,得到排序后的元box;S3
‑5‑
2.遍历所述排序后的元box,定义行列表,依次取出所述元box,判断行列表是否为空,若是,将所述元box加入到所述行列表中,转S3
‑5‑
1;若否,转S3
‑5‑

【专利技术属性】
技术研发人员:赵伟吉龙李瑞瑞马勇
申请(专利权)人:北京富通智康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1