处理文档图片的方法、计算设备和计算机可读存储介质技术

技术编号：34628150 阅读：17 留言：0更新日期：2022-08-20 09:37

本公开提供了一种处理文档图片的方法、计算设备和计算机可读存储介质。该方法包括：对所述文档图片进行光学字符识别以检测所述文档图片中的多个文本条，其中每个文本条包含一个或多个文本字符；基于所述多个文本条的位置坐标将所述多个文本条划分为多个文本行，其中每个文本行包括至少一个文本条；利用命名实体识别模型对每个文本条进行实体识别，以检测其中的关键点位；响应于在一个文本条中检测到至少两个关键点位，基于每个关键点位的位置信息将所述文本条截断为至少两个文本块；以及对于每个关键点位所位于的文本块所位于的文本行，确定所述文本行的下一文本行中与所述文本块相关联的关联文本条以将所确定的关联文本条与所述文本块进行合并。与所述文本块进行合并。与所述文本块进行合并。

全部详细技术资料下载

【技术实现步骤摘要】
处理文档图片的方法、计算设备和计算机可读存储介质

[0001]本公开概括而言涉及图像处理领域，更具体地，涉及一种处理文档图片的方法、计算设备和计算机可读存储介质。

技术介绍

[0002]在许多应用领域中，出于对文档的数字化归档需求，需要将纸质文件扫描为文档图片并对其进行数字化存储。例如，医疗行业中涉及大量的图片信息，如挂号单、化验单、处方单、门诊诊疗手册、住院病历、医生对患者病情的讨论记录等。这些信息大多存在于各类医院信息系统中，其中一些文档以图片或者纸质版形式供使用者读取。然而，这样的形式不利于对这些文档中的信息进行提取和总结，因此存在将这些图片文档规范化整理并保存的需求，可以供患者跟踪、医务工作者进行科研教学、统计总结等使用。
[0003]解决这一问题的早期办法是通过人工进行将其书写成电子版或对数据进行处理，但是这种方式非常耗费时间且工作内容重复枯燥，人力成本显著增加。
[0004]此外，当前已经使用了各种各样的光学字符识别算法来对图片中的文本区域进行切分，并对切分出的文本条进行文字识别，但是这些识别算法也仅仅是单纯地从中识别出每个文本条的内容，并且根据坐标将它们进行拼接，并不能对这些文本条中的字符进行进一步的理解和处理，从而容易产生文本条错位的问题，导致拼接后的文本内容错乱，不能准确地体现文本信息，影响文本的准确阅读和使用。
[0005]例如，图1A示出了一个示例性文档图片100，图1B示出了根据现有技术对图1A的文档图片100进行识别的局部示意图。如图1B中所示，在该文档图片100中，...

【技术保护点】

【技术特征摘要】
1.一种处理文档图片的方法，包括：对所述文档图片进行光学字符识别以检测所述文档图片中的多个文本条，其中每个文本条包含一个或多个文本字符；基于所述多个文本条的位置坐标将所述多个文本条划分为多个文本行，其中每个文本行包括至少一个文本条；利用命名实体识别模型对每个文本条进行实体识别，以检测其中的关键点位；响应于在一个文本条中检测到至少两个关键点位，基于每个关键点位的位置信息将所述文本条截断为至少两个文本块；以及对于每个关键点位所位于的文本块所位于的文本行，确定所述文本行的下一文本行中与所述文本块相关联的关联文本条以将所确定的关联文本条与所述文本块进行合并。2.如权利要求1所述的方法，其中对所述文档图片进行光学字符识别以检测所述文档图片中的多个文本条包括：对所述文档图片进行光学字符识别以检测所述文档图片中的多个原始文本条，其中每个原始文本条是由四个顶点构成的四边形；以及将每个原始文本条转换为矩形形状的文本条，其中所述文本条的方向为所述原始文本条的相对的两条短边的中点连线的方向。3.如权利要求2所述的方法，其中将每个原始文本条转换为矩形形状的文本条包括：确定所述原始文本条的第一边、第二边、第三边和第四边，其中第一边和第三边是短边；连接所述第一边和第三边的中点以产生第一线段；在所述第一线段的中点产生所述第一线段的中垂线，所述中垂线与所述第二边和第四边的交点产生第二线段；分别在所述中垂线与所述第二边和第四边的交点，沿着所述第一线段的方向产生第一直线和第二直线；分别在所述第一边和第三边的中点，沿着所述第二线段的方向产生第三直线和第四直线；以及由所述第一直线、第二直线、第三直线和第四直线的交点构成所述矩形形状的文本条。4.如权利要求1所述的方法，其中基于所述多个文本条的位置坐标将所述多个文本条划分为多个文本行包括：基于所述多个文本条中的任意两个文本条之间的夹角确定属于同一文本行的候选文本条；以及基于所述候选文本条中的两个相邻候选文本条的短边的交并比确定所述两个相邻候选文本条属于同一文本行。5.如权利要求4所述的方法，其中基于所述多个文本条中的任意两个文本条之间的夹角确定属于同一文本行的候选文本条包括：确定每个文本条的方向，其中所述文本条的方向是所述文本条的短边中点的连线方向；基于所述文本条的方向确定所述文本条的第一斜率；基于所述文本条的中心点和另一文本条的中心点确定所述文本条和所述另一文本条
之间的第二斜率；基于所述第一斜率和所述第二斜率确定所述文本条和所述另一文本条之间的夹角；确定所述夹角是否大于预定角度阈值；响应于确定所述夹角大于所述预定角度阈值，确定所述文本条和所述另一文本条不是属于同一文本行的候选文本条；以及响应于确定所述夹角小于或等于所述预定角度阈值，确定所述文本条和所述另一文本条是属于同一文本行的候选文本条。6.如权利要求4或5所述的方法，其中基于所述候选文本条中的两个相邻候选文本条的短边的交并比确定所述两个相邻候选文本条属于同一文本行包括：从所述候选文本条中选择两个相邻的第一候选文本条和第二候选文本条；将所述第一候选文本条的长边延伸以与所述第二候选文本条...

【专利技术属性】
技术研发人员：王磊，
申请(专利权)人：北京欧应信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人