处理文档图片的方法、计算设备和计算机可读存储介质技术

技术编号:34628150 阅读:17 留言:0更新日期:2022-08-20 09:37
本公开提供了一种处理文档图片的方法、计算设备和计算机可读存储介质。该方法包括:对所述文档图片进行光学字符识别以检测所述文档图片中的多个文本条,其中每个文本条包含一个或多个文本字符;基于所述多个文本条的位置坐标将所述多个文本条划分为多个文本行,其中每个文本行包括至少一个文本条;利用命名实体识别模型对每个文本条进行实体识别,以检测其中的关键点位;响应于在一个文本条中检测到至少两个关键点位,基于每个关键点位的位置信息将所述文本条截断为至少两个文本块;以及对于每个关键点位所位于的文本块所位于的文本行,确定所述文本行的下一文本行中与所述文本块相关联的关联文本条以将所确定的关联文本条与所述文本块进行合并。与所述文本块进行合并。与所述文本块进行合并。

【技术实现步骤摘要】
处理文档图片的方法、计算设备和计算机可读存储介质


[0001]本公开概括而言涉及图像处理领域,更具体地,涉及一种处理文档图片的方法、计算设备和计算机可读存储介质。

技术介绍

[0002]在许多应用领域中,出于对文档的数字化归档需求,需要将纸质文件扫描为文档图片并对其进行数字化存储。例如,医疗行业中涉及大量的图片信息,如挂号单、化验单、处方单、门诊诊疗手册、住院病历、医生对患者病情的讨论记录等。这些信息大多存在于各类医院信息系统中,其中一些文档以图片或者纸质版形式供使用者读取。然而,这样的形式不利于对这些文档中的信息进行提取和总结,因此存在将这些图片文档规范化整理并保存的需求,可以供患者跟踪、医务工作者进行科研教学、统计总结等使用。
[0003]解决这一问题的早期办法是通过人工进行将其书写成电子版或对数据进行处理,但是这种方式非常耗费时间且工作内容重复枯燥,人力成本显著增加。
[0004]此外,当前已经使用了各种各样的光学字符识别算法来对图片中的文本区域进行切分,并对切分出的文本条进行文字识别,但是这些识别算法也仅仅是单纯地从中识别出每个文本条的内容,并且根据坐标将它们进行拼接,并不能对这些文本条中的字符进行进一步的理解和处理,从而容易产生文本条错位的问题,导致拼接后的文本内容错乱,不能准确地体现文本信息,影响文本的准确阅读和使用。
[0005]例如,图1A示出了一个示例性文档图片100,图1B示出了根据现有技术对图1A的文档图片100进行识别的局部示意图。如图1B中所示,在该文档图片100中,拼接后的文本条101和102事实上是将左右两栏的内容拼接在了一起,从而每个文本条中的内容错乱,无法准确理解和使用。

技术实现思路

[0006]针对上述问题,本公开提供了一种处理文档图片,尤其是形式多样的医疗文档图片的方案,其一方面基于文档图片的格式特点对其进行几何学处理,另一方面利用深度学习模型对文档图片中的内容进行识别,从而融合地实现文档图片的高效准确处理。
[0007]根据本公开的一个方面,提供了一种处理文档图片的方法。该方法包括:对所述文档图片进行光学字符识别以检测所述文档图片中的多个文本条,其中每个文本条包含一个或多个文本字符;基于所述多个文本条的位置坐标将所述多个文本条划分为多个文本行,其中每个文本行包括至少一个文本条;利用命名实体识别模型对每个文本条进行实体识别,以检测其中的关键点位;响应于在一个文本条中检测到至少两个关键点位,基于每个关键点位的位置信息将所述文本条截断为至少两个文本块;以及对于每个关键点位所位于的文本块所位于的文本行,确定所述文本行的下一文本行中与所述文本块相关联的关联文本条以将所确定的关联文本条与所述文本块进行合并。
[0008]根据本公开的另一个方面,提供了一种计算设备。该计算设备包括:至少一个处理
器;以及至少一个存储器,该至少一个存储器被耦合到该至少一个处理器并且存储用于由该至少一个处理器执行的指令,该指令当由该至少一个处理器执行时,使得该计算设备执行根据上述方法的步骤。
[0009]根据本公开的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序代码,该计算机程序代码在被运行时执行如上所述的方法。
[0010]在一些实施例中,对所述文档图片进行光学字符识别以检测所述文档图片中的多个文本条包括:对所述文档图片进行光学字符识别以检测所述文档图片中的多个原始文本条,其中每个原始文本条是由四个顶点构成的四边形;以及将每个原始文本条转换为矩形形状的文本条,其中所述文本条的方向为所述原始文本条的相对的两条短边的中点连线的方向。
[0011]在一些实施例中,将每个原始文本条转换为矩形形状的文本条包括:确定所述原始文本条的第一边、第二边、第三边和第四边,其中第一边和第三边是短边;连接所述第一边和第三边的中点以产生第一线段;在所述第一线段的中点产生所述第一线段的中垂线,所述中垂线与所述第二边和第四边的交点产生第二线段;分别在所述中垂线与所述第二边和第四边的交点,沿着所述第一线段的方向产生第一直线和第二直线;分别在所述第一边和第三边的中点,沿着所述第二线段的方向产生第三直线和第四直线;以及由所述第一直线、第二直线、第三直线和第四直线的交点构成所述矩形形状的文本条。
[0012]在一些实施例中,基于所述多个文本条的位置坐标将所述多个文本条划分为多个文本行包括:基于所述多个文本条中的任意两个文本条之间的夹角确定属于同一文本行的候选文本条;以及基于所述候选文本条中的两个相邻候选文本条的短边的交并比确定所述两个相邻候选文本条属于同一文本行。
[0013]在一些实施例中,基于所述多个文本条中的任意两个文本条之间的夹角确定属于同一文本行的候选文本条包括:确定每个文本条的方向,其中所述文本条的方向是所述文本条的短边中点的连线方向;基于所述文本条的方向确定所述文本条的第一斜率;基于所述文本条的中心点和另一文本条的中心点确定所述文本条和所述另一文本条之间的第二斜率;基于所述第一斜率和所述第二斜率确定所述文本条和所述另一文本条之间的夹角;确定所述夹角是否大于预定角度阈值;响应于确定所述夹角大于所述预定角度阈值,确定所述文本条和所述另一文本条不是属于同一文本行的候选文本条;以及响应于确定所述夹角小于或等于所述预定角度阈值,确定所述文本条和所述另一文本条是属于同一文本行的候选文本条。
[0014]在一些实施例中,基于所述候选文本条中的两个相邻候选文本条的短边的交并比确定所述两个相邻候选文本条属于同一文本行包括:从所述候选文本条中选择两个相邻的第一候选文本条和第二候选文本条;将所述第一候选文本条的长边延伸以与所述第二候选文本条的相邻短边或该相邻短边的延长线分别相交于第一交点和第二交点;基于所述相邻短边的两个端点和所述第一交点、第二交点之间的距离确定所述两个相邻候选文本条的短边的交并比;确定所述交并比是否小于或等于预定交并比阈值;响应于确定所述交并比小于或等于所述预定交并比阈值,确定所述两个相邻候选文本条属于同一文本行。
[0015]在一些实施例中,利用命名实体识别模型对每个文本条进行实体识别,以检测其中的关键点位包括:在所述命名实体识别模型的输入层,识别所述文本条所包含的文本字
符串;在所述命名实体识别模型的词向量层,将所述文本字符串转换为词向量;在所述命名实体识别模型的双向长短期记忆层,利用前向长短期记忆模型对所述词向量进行处理以产生第一长短期向量,利用后向长短期记忆模型对所述第一长短期向量进行处理以产生第二长短期向量,并且对所述第一长短期向量和所述第二长短期向量进行交叉归一化以产生输出向量;在所述命名实体识别模型的条件随机场层,对所述输出向量进行解码以获得所述文本条中的所有实体名称;以及从所述文本条中的所有实体名称中检测出预定的关键点位。
[0016]在一些实施例中,对于每个关键点位所位于的文本块所位于的文本行,确定所述文本行的下一文本行中与所述文本块相关联的关联文本条以将所确定的关联文本条与所述文本块进行合并包括:对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理文档图片的方法,包括:对所述文档图片进行光学字符识别以检测所述文档图片中的多个文本条,其中每个文本条包含一个或多个文本字符;基于所述多个文本条的位置坐标将所述多个文本条划分为多个文本行,其中每个文本行包括至少一个文本条;利用命名实体识别模型对每个文本条进行实体识别,以检测其中的关键点位;响应于在一个文本条中检测到至少两个关键点位,基于每个关键点位的位置信息将所述文本条截断为至少两个文本块;以及对于每个关键点位所位于的文本块所位于的文本行,确定所述文本行的下一文本行中与所述文本块相关联的关联文本条以将所确定的关联文本条与所述文本块进行合并。2.如权利要求1所述的方法,其中对所述文档图片进行光学字符识别以检测所述文档图片中的多个文本条包括:对所述文档图片进行光学字符识别以检测所述文档图片中的多个原始文本条,其中每个原始文本条是由四个顶点构成的四边形;以及将每个原始文本条转换为矩形形状的文本条,其中所述文本条的方向为所述原始文本条的相对的两条短边的中点连线的方向。3.如权利要求2所述的方法,其中将每个原始文本条转换为矩形形状的文本条包括:确定所述原始文本条的第一边、第二边、第三边和第四边,其中第一边和第三边是短边;连接所述第一边和第三边的中点以产生第一线段;在所述第一线段的中点产生所述第一线段的中垂线,所述中垂线与所述第二边和第四边的交点产生第二线段;分别在所述中垂线与所述第二边和第四边的交点,沿着所述第一线段的方向产生第一直线和第二直线;分别在所述第一边和第三边的中点,沿着所述第二线段的方向产生第三直线和第四直线;以及由所述第一直线、第二直线、第三直线和第四直线的交点构成所述矩形形状的文本条。4.如权利要求1所述的方法,其中基于所述多个文本条的位置坐标将所述多个文本条划分为多个文本行包括:基于所述多个文本条中的任意两个文本条之间的夹角确定属于同一文本行的候选文本条;以及基于所述候选文本条中的两个相邻候选文本条的短边的交并比确定所述两个相邻候选文本条属于同一文本行。5.如权利要求4所述的方法,其中基于所述多个文本条中的任意两个文本条之间的夹角确定属于同一文本行的候选文本条包括:确定每个文本条的方向,其中所述文本条的方向是所述文本条的短边中点的连线方向;基于所述文本条的方向确定所述文本条的第一斜率;基于所述文本条的中心点和另一文本条的中心点确定所述文本条和所述另一文本条
之间的第二斜率;基于所述第一斜率和所述第二斜率确定所述文本条和所述另一文本条之间的夹角;确定所述夹角是否大于预定角度阈值;响应于确定所述夹角大于所述预定角度阈值,确定所述文本条和所述另一文本条不是属于同一文本行的候选文本条;以及响应于确定所述夹角小于或等于所述预定角度阈值,确定所述文本条和所述另一文本条是属于同一文本行的候选文本条。6.如权利要求4或5所述的方法,其中基于所述候选文本条中的两个相邻候选文本条的短边的交并比确定所述两个相邻候选文本条属于同一文本行包括:从所述候选文本条中选择两个相邻的第一候选文本条和第二候选文本条;将所述第一候选文本条的长边延伸以与所述第二候选文本条...

【专利技术属性】
技术研发人员:王磊
申请(专利权)人:北京欧应信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1