一种医疗单证结构化知识提取的文本检测与识别方法技术

技术编号:25600192 阅读:17 留言:0更新日期:2020-09-11 23:57
本发明专利技术公开了一种医疗单证结构化知识提取的文本检测与识别方法,属于医疗单证信息提取技术领域,目的在于解决现有医疗单证信息处理效率低、智能化程度低的问题。其包括以下步骤:(1)图像识别:对医疗单证图像进行OCR识别;(2)模板匹配:将识别的图像匹配对应模板;(3)文本检测:通过文本检测获取文本在图中的位置信息;(4)错位调整:利用文本间的空间和语义关系,将错位文字调整正确;(5)文本识别:通过OCR识别文本,转换成文本数据;(6)结果校验:基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;(7)结构化输出:将识别校验后的文本内容结构化,输出为可编辑的数据。本发明专利技术适用于医疗单证文本检测与识别。

【技术实现步骤摘要】
一种医疗单证结构化知识提取的文本检测与识别方法
本专利技术属于医疗单证信息提取
,具体涉及一种医疗单证结构化知识提取的文本检测与识别方法。
技术介绍
医院门诊和住院费用结算时中存在大量的纸质医疗票据,这些医疗票据是医院和社区门诊用于结算费用的统计信息。然而长期以来,由于医院和社区门诊的医疗票据管理工作的手段落后,造成了一系列麻烦和问题,一直困扰着医院的管理人员。在医疗票据信息的处理工作方面,绝大多数医院和几乎所有社区门诊仍停留在“人工分散处理、纸质的库房保存、人工的查询更新”的阶段,这成为了阻碍医疗产业信息化发展的一大根源。因此,为了解决这一薄弱环节,提供一种“集中、统一、高效、规范”的医疗票据信息处理方法,已经成为了医院亟待解决的问题。
技术实现思路
本专利技术的目的在于:提供一种医疗单证结构化知识提取的文本检测与识别方法,解决现有医疗单证信息处理效率低、智能化程度低的问题。本专利技术采用的技术方案如下:一种医疗单证结构化知识提取的文本检测与识别方法,包括以下步骤:(1)图像识别:对预处理后的医疗单证图像进行OCR识别;(2)模板匹配:从模板数据库中匹配进行识别的医疗单证图像对应模板;(3)文本检测:通过基于深度学习的文本检测获取到每个文本在图中的位置信息;(4)错位调整:基于深度学习GCN技术,利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;(5)文本识别:通过基于深度学习的OCR识别模型将检测出的文本进行识别,转换成文本数据,为文本数据的结构化抽取提供基本数据;(6)结果校验:识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;(7)结构化输出:将识别校验后的文本信息内容结构化,基于模板和用户的定制化需求,输出为计算机可编辑的数据。进一步地,所述步骤6中基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1、本专利技术中,识别系统基于深度学习模型,实现毫秒级的文本图像序列化自动检测和精准识别,并能用利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;同时通过结构化输出将识别的文本信息从无关联的文本内信息结构化成有关系的信息,识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验,经过校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级,大大提升了文本信息的识别准确度,提高了医疗单证信息处理效率,同时能够根据用户定制化需求输出可编辑数据,提高信息利用效率,使得信息处理更加智能化。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。一种医疗单证结构化知识提取的文本检测与识别方法,包括以下步骤:(1)图像识别:对预处理后的医疗单证图像进行OCR识别;(2)模板匹配:从模板数据库中匹配进行识别的医疗单证图像对应模板;(3)文本检测:通过基于深度学习的文本检测获取到每个文本在图中的位置信息;(4)错位调整:基于深度学习GCN技术,利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;(5)文本识别:通过基于深度学习的OCR识别模型将检测出的文本进行识别,转换成文本数据,为文本数据的结构化抽取提供基本数据;(6)结果校验:识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;(7)结构化输出:将识别校验后的文本信息内容结构化,基于模板和用户的定制化需求,输出为计算机可编辑的数据。进一步地,所述步骤6中基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级。本专利技术在实施过程中,识别系统基于深度学习模型,实现毫秒级的文本图像序列化自动检测和精准识别,并能用利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;同时通过结构化输出将识别的文本信息从无关联的文本内信息结构化成有关系的信息,识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验,经过校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级,大大提升了文本信息的识别准确度,提高了医疗单证信息处理效率,同时能够根据用户定制化需求输出可编辑数据,提高信息利用效率,使得信息处理更加智能化。实施例1一种医疗单证结构化知识提取的文本检测与识别方法,包括以下步骤:(1)图像识别:对预处理后的医疗单证图像进行OCR识别;(2)模板匹配:从模板数据库中匹配进行识别的医疗单证图像对应模板;(3)文本检测:通过基于深度学习的文本检测获取到每个文本在图中的位置信息;(4)错位调整:基于深度学习GCN技术,利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;(5)文本识别:通过基于深度学习的OCR识别模型将检测出的文本进行识别,转换成文本数据,为文本数据的结构化抽取提供基本数据;(6)结果校验:识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;(7)结构化输出:将识别校验后的文本信息内容结构化,基于模板和用户的定制化需求,输出为计算机可编辑的数据。实施例2在实施例1的基础上,所述步骤6中基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级。以上所述仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种医疗单证结构化知识提取的文本检测与识别方法,其特征在于,包括以下步骤:/n(1)图像识别:对预处理后的医疗单证图像进行OCR识别;/n(2)模板匹配:从模板数据库中匹配进行识别的医疗单证图像对应模板;/n(3)文本检测:通过基于深度学习的文本检测获取到每个文本在图中的位置信息;/n(4)错位调整:基于深度学习GCN技术,利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;/n(5)文本识别:通过基于深度学习的OCR识别模型将检测出的文本进行识别,转换成文本数据,为文本数据的结构化抽取提供基本数据;/n(6)结果校验:识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;/n(7)结构化输出:将识别校验后的文本信息内容结构化,基于模板和用户的定制化需求,输出为计算机可编辑的数据。/n

【技术特征摘要】
1.一种医疗单证结构化知识提取的文本检测与识别方法,其特征在于,包括以下步骤:
(1)图像识别:对预处理后的医疗单证图像进行OCR识别;
(2)模板匹配:从模板数据库中匹配进行识别的医疗单证图像对应模板;
(3)文本检测:通过基于深度学习的文本检测获取到每个文本在图中的位置信息;
(4)错位调整:基于深度学习GCN技术,利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;
(5)文本识别:通过基于深度学习的OCR识别模型将检测出的文本进行识别,转换成文本数据,为文本...

【专利技术属性】
技术研发人员:向飞王一哲罗璟诣向宇王刚唐书毅黄驰曾欢
申请(专利权)人:成都知识视觉科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1