一种医疗单证结构化知识提取的文本检测与识别方法技术

技术编号：25600192 阅读：17 留言：0更新日期：2020-09-11 23:57

本发明专利技术公开了一种医疗单证结构化知识提取的文本检测与识别方法，属于医疗单证信息提取技术领域，目的在于解决现有医疗单证信息处理效率低、智能化程度低的问题。其包括以下步骤：(1)图像识别：对医疗单证图像进行OCR识别；(2)模板匹配：将识别的图像匹配对应模板；(3)文本检测：通过文本检测获取文本在图中的位置信息；(4)错位调整：利用文本间的空间和语义关系，将错位文字调整正确；(5)文本识别：通过OCR识别文本，转换成文本数据；(6)结果校验：基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验；(7)结构化输出：将识别校验后的文本内容结构化，输出为可编辑的数据。本发明专利技术适用于医疗单证文本检测与识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种医疗单证结构化知识提取的文本检测与识别方法
本专利技术属于医疗单证信息提取
，具体涉及一种医疗单证结构化知识提取的文本检测与识别方法。
技术介绍
医院门诊和住院费用结算时中存在大量的纸质医疗票据，这些医疗票据是医院和社区门诊用于结算费用的统计信息。然而长期以来，由于医院和社区门诊的医疗票据管理工作的手段落后，造成了一系列麻烦和问题，一直困扰着医院的管理人员。在医疗票据信息的处理工作方面，绝大多数医院和几乎所有社区门诊仍停留在“人工分散处理、纸质的库房保存、人工的查询更新”的阶段，这成为了阻碍医疗产业信息化发展的一大根源。因此，为了解决这一薄弱环节，提供一种“集中、统一、高效、规范”的医疗票据信息处理方法，已经成为了医院亟待解决的问题。
技术实现思路
本专利技术的目的在于：提供一种医疗单证结构化知识提取的文本检测与识别方法，解决现有医疗单证信息处理效率低、智能化程度低的问题。本专利技术采用的技术方案如下：一种医疗单证结构化知识提取的文本检测与识别方法，包括以下步骤：(1)图像识别：对预处理后的医疗单证图像进行OCR识别；(2)模板匹配：从模板数据库中匹配进行识别的医疗单证图像对应模板；(3)文本检测：通过基于深度学习的文本检测获取到每个文本在图中的位置信息；(4)错位调整：基于深度学习GCN技术，利用文本间的空间和语义关系，实现自动将打印错位的文字调整至正确位置；(5)文本识别：通过基于深度学习的OCR识别模型将检测出的文本进行识别，...

【技术保护点】
1.一种医疗单证结构化知识提取的文本检测与识别方法，其特征在于，包括以下步骤：/n(1)图像识别：对预处理后的医疗单证图像进行OCR识别；/n(2)模板匹配：从模板数据库中匹配进行识别的医疗单证图像对应模板；/n(3)文本检测：通过基于深度学习的文本检测获取到每个文本在图中的位置信息；/n(4)错位调整：基于深度学习GCN技术，利用文本间的空间和语义关系，实现自动将打印错位的文字调整至正确位置；/n(5)文本识别：通过基于深度学习的OCR识别模型将检测出的文本进行识别，转换成文本数据，为文本数据的结构化抽取提供基本数据；/n(6)结果校验：识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验；/n(7)结构化输出：将识别校验后的文本信息内容结构化，基于模板和用户的定制化需求，输出为计算机可编辑的数据。/n

【技术特征摘要】
1.一种医疗单证结构化知识提取的文本检测与识别方法，其特征在于，包括以下步骤：
(1)图像识别：对预处理后的医疗单证图像进行OCR识别；
(2)模板匹配：从模板数据库中匹配进行识别的医疗单证图像对应模板；
(3)文本检测：通过基于深度学习的文本检测获取到每个文本在图中的位置信息；
(4)错位调整：基于深度学习GCN技术，利用文本间的空间和语义关系，实现自动将打印错位的文字调整至正确位置；
(5)文本识别：通过基于深度学习的OCR识别模型将检测出的文本进行识别，转换成文本数据，为文本...

【专利技术属性】
技术研发人员：向飞，王一哲，罗璟诣，向宇，王刚，唐书毅，黄驰，曾欢，
申请(专利权)人：成都知识视觉科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人