图像处理方法及装置制造方法及图纸

技术编号：23432014 阅读：49 留言：0更新日期：2020-02-25 13:14

本公开实施例提供了一种图像处理方法、装置、介质及电子设备，属于计算机技术领域。该图像处理方法包括：获取文本框图片及位于所述文本框图片内的文本框；延长所述文本框的第一边和相对的第二边，获得所述文本框在第一方向轴上的第一投影线段；将所述文本框垂直投影至第二方向轴上，获得第二投影线段；对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集；根据所述第一投影线段所属的聚类子集，确定所述文本框的行号；根据所述文本框的行号及其第二投影线段确定所述文本框的列号。本公开实施例的技术方案能够基于双向投影和行聚类的方式，确定文本框的行、列排序，提高行列排序的识别准确性。

Image processing method and device

全部详细技术资料下载

【技术实现步骤摘要】
图像处理方法及装置
本公开涉及计算机
，具体而言，涉及一种图像处理方法、装置、计算机可读介质及电子设备。
技术介绍
现有的OCR(OpticalCharacterRecognition，光学字符识别)识别系统工作流程如下：输入待识别的图像，然后进行文本行定位检测，裁剪出文本框图片，再对裁剪出的文本框图片进行字符识别，最后综合识别出的所有文本行信息，根据文本框的行、列信息进行信息结构化输出，得到最终的识别结果。其中根据文本框的行、列信息进行信息结构化输出是整个系统处理过程中非常重要的环节。识别出所有文本行信息后，如何准确、高效地根据文本框的行、列信息进行文本信息结构化的输出，直接影响到最终的OCR信息识别结果。对于有一定倾斜角度的OCR图片，简单根据每个文本框中心的横、纵坐标位置确定该文本框的行号、列号会引入较多误差，从而会大大降低结构化输出信息的正确率。因此，需要一种新的图像处理方法、装置、计算机可读介质及电子设备。需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解...

【技术保护点】
1.一种图像处理方法，其特征在于，包括：/n获取文本框图片及位于所述文本框图片内的文本框；/n延长所述文本框的第一边和相对的第二边，获得所述文本框在第一方向轴上的第一投影线段；/n将所述文本框垂直投影至第二方向轴上，获得第二投影线段；/n对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集；/n根据所述第一投影线段所属的聚类子集，确定所述文本框的行号；/n根据所述文本框的行号及其第二投影线段确定所述文本框的列号。/n

【技术特征摘要】
1.一种图像处理方法，其特征在于，包括：
获取文本框图片及位于所述文本框图片内的文本框；
延长所述文本框的第一边和相对的第二边，获得所述文本框在第一方向轴上的第一投影线段；
将所述文本框垂直投影至第二方向轴上，获得第二投影线段；
对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集；
根据所述第一投影线段所属的聚类子集，确定所述文本框的行号；
根据所述文本框的行号及其第二投影线段确定所述文本框的列号。

2.根据权利要求1所述的方法，其特征在于，对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集，包括：
根据所述文本框图片的宽度和所述文本框的顶点坐标，获得所述第一投影线段在所述第一方向轴上的第一起点坐标和第一终点坐标；
根据所述第一起点坐标的大小对所述第一投影线段进行升序排列；
对排列后的第一投影线段进行处理，生成所述聚类集。

3.根据权利要求2所述的方法，其特征在于，对排列后的第一投影线段进行处理，生成所述聚类集，包括：
初始时设定所述聚类集为空，并设定一个为空的聚类列表；
依次对排列后的每条第一投影线段进行如下处理：
若所述聚类列表为空，则将所述第一投影线段加到所述聚类列表的末尾；
若所述聚类列表不为空，且所述第一投影线段的第一起点坐标处于所述聚类列表中的第一个元素的第一起点坐标和第一终点坐标之间，则将所述第一投影线段加到所述聚类列表的末尾。

4.根据权利要求3所述的方法，其特征在于，依次对排列后的每条第一投影线段还进行如下处理：
若所述聚类列表不为空，且所述第一投影线段的第一起点坐标不处于所述聚类列表中的第一个元素的第一起点坐标和第一终点坐标之间，则将所述聚类列表中的元素加到所述聚类集中作为一个聚类子集，并重新设定所述聚类列表为空，再将所述第一投影线段加到所述聚类列表的末尾。

5.根据权利要求1所述的方法，其特征在于，根据所述文本框的行号及其第二投影线段确定所述文本框的列号，包...

【专利技术属性】
技术研发人员：王洁，刘设伟，王亚领，
申请(专利权)人：泰康保险集团股份有限公司，泰康在线财产保险股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人