对医疗票据中关键信息的识别方法、系统、设备和介质技术方案

技术编号:34053442 阅读:15 留言:0更新日期:2022-07-06 16:23
本申请涉及一种对医疗票据中关键信息的识别方法、系统、装置和介质,该方法包括获取医疗票据图片,通过深度学习算法将医疗票据图片中的文字内容的方向旋转至预设文字方向,对旋转后的医疗票据图片进行OCR处理,通过格式塔模式匹配算法将OCR处理结果中的文字内容与预设的项目名称字典进行匹配,并根据匹配结果确定项目名称,根据项目名称对应的坐标值确定该项目名称对应的检验结果,通过匈牙利算法将项目名称与其对应的检验结果进行结构化处理,以将项目名称与其对应的检验结果进行关联,对关联后的项目名称进行标准化处理,得到项目名称对应的标准项目名称,本申请既能降低了开发成本,还提高了通用性同时还提高了识别关键信息的速度。的速度。的速度。

Identification methods, systems, equipment and media of key information in medical bills

【技术实现步骤摘要】
对医疗票据中关键信息的识别方法、系统、设备和介质


[0001]本申请涉及医疗
,特别是涉及一种对医疗票据中关键信息的识别方法、系统、电子设备和存储介质。

技术介绍

[0002]目前,针对仅经过OCR(Optical Character Recognition,光学字符识别)对医疗票据关键信息提取的文本信息是一种非结构化的信息,导致无法对通过简单的OCR对关键信息间的对应关系进行匹配,不方便医生阅读,从而使医生需要花费大量的时间和精力自己去查找关键信息,进而导致医生的诊疗效率较低。
[0003]对于医生无法需要花费大量的时间和精力自己去查找医疗票据的关键信息,进而导致医生的诊疗效率较低的问题,主要有两种解决方法:第一种是采用规则的方法,其根据文本坐标间的相对关系作为预定义的规则,但当图片发生倾斜或形变时就会失效,实用性低,第二种是采用模板匹配的方法进行关键信息的匹配,通过提前定义某种样式的模板,之后将OCR的结果与其进行对齐从而得到文本间的相对关系,虽然,可以提取都到文本间的相对关系,但是需要针对每种不同样式的医疗票据进行模板的制定,如此,不仅导致开发成本巨大,而且通用性较低。

技术实现思路

[0004]本申请实施例提供了一种对医疗票据中关键信息的识别方法、系统、电子设备和存储介质,以至少解决相关技术中对医疗票据中关键信息的识别的速度低,进而导致医生的诊疗效率较低问题。
[0005]第一方面,本申请实施例提供了一种对医疗票据中关键信息的识别方法,所述方法包括以下步骤:获取医疗票据图片;通过深度学习算法将所述医疗票据图片中的文字内容的方向旋转至预设文字方向,得到旋转后的医疗票据图片;对旋转后的医疗票据图片进行OCR处理,得到OCR处理结果;通过格式塔模式匹配算法将所述OCR处理结果中的文字内容与预设的项目名称字典进行匹配,并根据匹配结果确定项目名称;根据所述项目名称对应的坐标值确定该项目名称对应的检验结果;通过匈牙利算法将所述项目名称与其对应的检验结果进行结构化处理,以将所述项目名称与其对应的检验结果进行关联;对关联后的项目名称进行标准化处理,得到项目名称对应的标准项目名称。
[0006]在其中一些实施例中,在所述深度学习算法为4分类模型的情况下,所述通过深度学习算法将所述医疗票据图片旋转至水平方向,得到旋转后的医疗票据图片包括:通过所述4分类模型判断所述医疗票据图片上文字内容的方向;
若所述文字内容的方向与预设文字方向不一致,旋转该医疗票据图片,使该医疗票据图片上文字内容的方向与预设文字方向一致,得到旋转后的医疗票据图片。
[0007]在其中一些实施例中,所述预设文字方向至少包括与水平方向成0度、90度、180度或270度的方向。
[0008]在其中一些实施例中,所述预设的项目名称字典的各行设有不同的检查项目名称,且所述预设的项目名称字典中各行的第一位置为每一检查项目对应的标准项目名称的情况下,所述对关联后的项目名称进行标准化处理,得到项目名称对应的标准项目名称包括:获取各项目名称对应的标准项目名称;若各关联后的项目名称与其对应的标准项目名称不一致时,将关联后的项目名称替换为其对应的标准项目名称。
[0009]在其中一些实施例中,所述预设的项目名称字典中各行的其他位置至少还写有每行检查项目所对应的简称、别名和全称。
[0010]在其中一些实施例中,所述根据项目名称对应的坐标值确定该项目名称对应的检验结果包括:根据所述项目名称的纵坐标确定该项目名称对应的检验结果的横坐标的区间范围;基于所述OCR筛选出该横坐标的区间范围中所有的文本框;判断各文本框中的内容是否为数字;若否,过滤当前文本框;获取过滤后的文本框,将过滤后的文本框中的数字作为该项目名称对应的检验结果。
[0011]在其中一些实施例中,所述对旋转后的医疗票据图片进行OCR处理,得到OCR处理结果之后,所述方法还包括:通过字符搜索算法对所述OCR处理进行分类,并根据分类结果确定该医疗票据的类型。
[0012]第二方面,本申请实施例提供了一种对医疗票据中关键信息的识别系统,所述系统包括:获取模块,用于获取医疗票据图片;旋转模块,用于通过深度学习算法将所述医疗票据图片中的文字内容的方向旋转至预设文字方向,得到旋转后的医疗票据图片;OCR处理模块,用于对旋转后的医疗票据图片进行OCR处理,得到OCR处理结果;确定项目名称模块,用于通过格式塔模式匹配算法将所述OCR处理结果中的文字内容与预设的项目名称字典进行匹配,并根据匹配结果确定项目名称;确定检验结果模块,用于根据所述项目名称对应的坐标值确定该项目名称对应的检验结果;结构化处理模块,用于通过匈牙利算法将所述项目名称与其对应的检验结果进行结构化处理,以将所述项目名称与其对应的检验结果进行关联;标准化处理模块,用于对关联后的项目名称进行标准化处理,得到项目名称对应
的标准项目名称。
[0013]第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。
[0014]第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的方法。
[0015]相比于相关技术,本实施例无需针对每种不同样式的医疗票据专门制定模板,首先,获取医疗票据图片,然后,考虑到获取的医疗票据图片中的文字内容的方向可以是任一方向的,而OCR对于不同文字内容的图片识别速度不同,为了避免当图片发生倾斜或形变时就会造成OCR识别失效,进而影响医生诊疗效率的速度,所以,通过深度学习算法将医疗票据图片中的文字内容的方向旋转至预设文字方向,得到旋转后的医疗票据图片,旋转后的医疗票据图片更有利于OCR识别,然后,对旋转后的医疗票据图片进行OCR处理,得到OCR处理结果,接着,又考虑到大部分医疗票据呈现表格化或结构化,而相关技术的技术方案中仅通过OCR对获取的医疗票据处理得到的文本信息是一种非结构化的信息,即无序的信息,不仅不利于医生提取关键信息(即项目名称以其对应的检验结果),而且还需要使医生花费大量的时间才能提取关键信息,进而,通过格式塔模式匹配算法将OCR处理结果中的文字内容与预设的项目名称字典进行匹配,并根据匹配结果确定项目名称;由于格式塔模式匹配算法相较于其他传统的匹配算法的匹配速度更快,从而可以更快度的确定项目名称,再接着,根据项目名称对应的坐标值确定该项目名称对应的检验结果,通过匈牙利算法将项目名称与其对应的检验结果进行结构化处理,以将项目名称与其对应的检验结果进行关联;将项目名称与其对应的检验结果形成关联信息,不仅减少了人工成本,还可以方便医生查看关键信息,提高了实用性;最后,对关联后的项目名称进行标准化处理,得到项目名称对应的标准项目名称。以将项目名称统一成标准项目名称,相较于之前因不同医院对同一检查项目名称的不同,给医生造成阅读障碍的情况,本实施例更方便医生阅读,更利于提高了医生的诊疗效率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对医疗票据中关键信息的识别方法,其特征在于,所述方法包括:获取医疗票据图片;通过深度学习算法将所述医疗票据图片中的文字内容的方向旋转至预设文字方向,得到旋转后的医疗票据图片;对旋转后的医疗票据图片进行OCR处理,得到OCR处理结果;通过格式塔模式匹配算法将所述OCR处理结果中的文字内容与预设的项目名称字典进行匹配,并根据匹配结果确定项目名称;根据所述项目名称对应的坐标值确定该项目名称对应的检验结果;通过匈牙利算法将所述项目名称与其对应的检验结果进行结构化处理,以将所述项目名称与其对应的检验结果进行关联;对关联后的项目名称进行标准化处理,得到项目名称对应的标准项目名称。2.根据权利要求1所述的方法,其特征在于,在所述深度学习算法为4分类模型的情况下,所述通过深度学习算法将所述医疗票据图片旋转至水平方向,得到旋转后的医疗票据图片包括:通过所述4分类模型判断所述医疗票据图片上文字内容的方向;若所述文字内容的方向与预设文字方向不一致,旋转该医疗票据图片,使该医疗票据图片上文字内容的方向与预设文字方向一致,得到旋转后的医疗票据图片。3.根据权利要求2所述的方法,其特征在于,所述预设文字方向至少包括与水平方向成0度、90度、180度或270度的方向。4.根据权利要求1所述的方法,其特征在于,所述预设的项目名称字典的各行设有不同的检查项目名称,且所述预设的项目名称字典中各行的第一位置为每一检查项目对应的标准项目名称的情况下,所述对关联后的项目名称进行标准化处理,得到项目名称对应的标准项目名称包括:获取各项目名称对应的标准项目名称;若各关联后的项目名称与其对应的标准项目名称不一致时,将关联后的项目名称替换为其对应的标准项目名称。5.根据权利要求4所述的方法,其特征在于,所述预设的项目名称字典中各行的其他位置至少还写有每行检查项目所对应的简称、别名和全称。6.根...

【专利技术属性】
技术研发人员:张靖张伟崔涛贺扬
申请(专利权)人:杭州咏柳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1