一种文字方向混排的自动化OCR识别方法技术

技术编号:25990446 阅读:28 留言:0更新日期:2020-10-20 18:58
本发明专利技术属于OCR识别技术领域,提供了一种文字方向混排的自动化OCR识别方法,包括:S101:识别原始文件各顶点坐标;S102:识别出文字区域以及文字区域初始坐标和对角坐标;S103:对识别出的文字区域进行色彩填充;S104:对旋转后的文件进行OCR识别,记录识别的文字,识别出旋转后的文字区域以及旋转后文字区域初始坐标和对角坐标;S105:判断旋转次数N是否达到最大值(360/A);S106:输出识别的文字,通过原始文件的各顶点坐标绘制原始文件文本区域矩形框,并还原文字在原始文件中的位置。本发明专利技术的一种文字方向混排的自动化OCR识别方法,具有大幅度减少由于OCR模型的限制导致的漏识。

【技术实现步骤摘要】
一种文字方向混排的自动化OCR识别方法
本专利技术涉及OCR识别
,具体涉及一种文字方向混排的自动化OCR识别方法。
技术介绍
近几年,随着大数据技术与人工智能技术的飞速发展,OCR识别技术也得到了长足进步。基于大数据样本与人工智能技术的基础上,OCR识别,特别是印刷体材料的OCR识别,正常的印刷体文字识别率已经非常接近于100%。但是,在真正的工程应用领域或一些特定的场景下,对OCR的识别也提出了一些挑战。例如,手机拍摄或扫描仪扫描时,方向没控制好,造成图片整体旋转90度,在文字进行大幅度的倾斜情况下,例如,倾斜的角度有90度,180度或270度等就需要特殊的处理,否则,侧向卧倒或倒立的文字很难通过OCR正确识别。目前常见的处理方法包括:增加各个方向的文字样本,另外,训练90度,180度和270度等不同的样本模型,识别的时候,用不同的模型来进行处理,这种方法带来的问题是:1、前期需要构建大量的样本,成本比较高;2、如果针对不同的文字方向训练得到不同的模型,在进行OCR识别的时候,就需要选择不同的模型进行识别文字,选择不同模型进行识别的过程将引起延时较大的问题;3、如果把所有方向的文字都训练到一个模型中去,则会造成模型极为庞大,系统的OCR识别效率大幅度下降。
技术实现思路
针对现有技术中的缺陷,本专利技术提供的一种文字方向混排的自动化OCR识别方法,针对混排的原始文件而言,具有大幅度减少由于OCR模型的限制导致的漏识。为了解决上述技术问题,本专利技术提供以下技术方案:一种文字方向混排的自动化OCR识别方法,包括以下步骤:S101:识别原始文件各顶点坐标,设定原始文件的旋转单位A,初始化原始文件的旋转次数N=0,旋转次数N={1,2,...,(360/A)};S102:识别出文字区域以及文字区域初始坐标(X0,Y0)和对角坐标(X1,Y1),并记录识别的文字;S103:对识别出的文字区域进行色彩填充,并对原始文件进行A角度旋转,旋转次数N加1,记录原始文件的累计旋转角度为A*N;S104:对旋转后的文件进行OCR识别,记录识别的文字,识别出旋转后的文字区域以及旋转后文字区域初始坐标(M0N,N0N)和对角坐标(M1N,N1N);S105:判断旋转次数N是否达到最大值(360/A),如果是,进行步骤S106;否则,重复进行步骤S103;S106:输出识别的文字,通过原始文件的各顶点坐标绘制原始文件文本区域矩形框,并根据原始文件的不同旋转单位A*N、以及不同旋转单位A*N相对应的初始坐标(M0N,N0N)和对角坐标(M1N,N1N)还原文字在原始文件中的位置。进一步地,所述步骤S106中根据原始文件的不同旋转单位A*N、以及不同旋转单位A*N相对应的初始坐标(M0N,N0N)和对角坐标(M1N,N1N)还原文字在原始文件中位置,包括以下步骤:S10601:根据原始文件的不同旋转单位A*N建立旋转后初始坐标(M0N,N0N)与初始坐标(X0,Y0)之间的函数关系S1和S2,其中(M0N,N0N)=S1(X0)和(M0N,N0N)=S2(Y0),以及旋转后对角坐标(M1N,N1N)与对角坐标(X1,Y1)之间的函数关系S3和S4,其中(M1N,N1N)=S3(X1)和(M1N,N1N)=S4(Y1);S10602:将函数关系S1和S2进行逆变换得到X0和Y0,其中,X0=S1-1(M0N,N0N)和Y0=S2-1(M0N,N0N);将函数关系S3和S4进行逆变换得到X1和Y1,其中,X1=S3-1(M1N,N1N)和Y1=S4-1(M1N,N1N)。进一步地,所述原始文件的旋转单位A为90度,当旋转角度为90度时,N01=S1(X0),M01=S2(Y0),N11=S3(X1),M11=S4(Y1),其中,S1=-1,S2=1,S3=-1,S4=1;当旋转角度为180度时,M02=S1(X0),N02=S2(Y0),M12=S3(X1),N12=S4(Y1),其中,S1=1,S2=-1,S3=1,S4=-1;当旋转角度为270度时,N03=S1(X0),M03=S2(Y0),N13=S3(X1),M13=S4(Y1),其中,S1=1,S2=-1,S3=1,S4=-1。进一步地,所述步骤S103中的A角度旋转包括顺时针旋转和逆时针旋转。进一步地,所述旋转后的文件、识别的文字和文字区域初始坐标(M0N,N0N)和对角坐标(M1N,N1N)均存储于磁盘文件系统或内存中。由上述技术方案可知,本专利技术的有益效果:通过对原始文件进行持续A角度旋转,同时,原始文件每旋转一次,通过OCR对原始文件进行一次识别,依次识别出原始文件旋转后正向的文字,直到原始文件完成360度旋转,OCR可以识别出原始文件中倾斜、反向的文字,无需新增文字样本、无需新增OCR识别模型、无需对新增文字样本和OCR识别模型进行训练,大幅度减少混排的原始文件在进行OCR识别时,由于模型的限制导致文字的漏识。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。图1为本专利技术中方法的流程图;图2为本专利技术原始文件的示意图;图3为本专利技术原始文件旋转90度的示意图;图4为本专利技术原始文件旋转180度的示意图;图5为本专利技术原始文件旋转270度的示意图;图6为本专利技术步骤S106中还原文字在原始文件中位置的流程图。具体实施方式下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只作为示例,而不能以此来限制本专利技术的保护范围。参阅图1-图5所示,本实施例提供的一种文字方向混排的自动化OCR识别方法,包括以下步骤:S101:识别原始文件各顶点坐标,设定原始文件的旋转单位A,初始化原始文件的旋转次数N=0,旋转次数N={1,2,...,(360/A)},原始文件为图片文件或PDF文件,如果是PDF文件,则需对PDF文件内容进行逐页处理,原始文件旋转为现有技术,故不赘述;S102:识别出文字区域以及文字区域初始坐标(X0,Y0)和对角坐标(X1,Y1),并记录识别的文字;S103:对识别出的文字区域进行色彩填充,并对原始文件进行A角度旋转,旋转次数N加1,记录原始文件的累计旋转角度为A*N,填充的色彩可选用黑色、白色或非文字图形;S104:对旋转后的文件进行OCR识别,记录识别的文字,识别出旋转后的文字区域以及旋转后文字区域初始坐标(M0N,N0N)和对角坐标(M1N,N1N);S105:判断旋转次数N是否达到最大值(360/A),如果是,进行步骤S106;否则,重复进行步骤S103;...

【技术保护点】
1.一种文字方向混排的自动化OCR识别方法,其特征在于,包括以下步骤:/nS101:识别原始文件各顶点坐标,设定原始文件的旋转单位A,初始化原始文件的旋转次数N=0,旋转次数N={1,2,...,(360/A)};/nS102:识别出文字区域以及文字区域初始坐标(X

【技术特征摘要】
1.一种文字方向混排的自动化OCR识别方法,其特征在于,包括以下步骤:
S101:识别原始文件各顶点坐标,设定原始文件的旋转单位A,初始化原始文件的旋转次数N=0,旋转次数N={1,2,...,(360/A)};
S102:识别出文字区域以及文字区域初始坐标(X0,Y0)和对角坐标(X1,Y1),并记录识别的文字;
S103:对识别出的文字区域进行色彩填充,并对原始文件进行A角度旋转,旋转次数N加1,记录原始文件的累计旋转角度为A*N;
S104:对旋转后的文件进行OCR识别,记录识别的文字,识别出旋转后的文字区域以及旋转后文字区域初始坐标(M0N,N0N)和对角坐标(M1N,N1N);
S105:判断旋转次数N是否达到最大值(360/A),如果是,进行步骤S106;否则,重复进行步骤S103;
S106:输出识别的文字,通过原始文件的各顶点坐标绘制原始文件文本区域矩形框,并根据原始文件的不同旋转单位A*N、以及不同旋转单位A*N相对应的初始坐标(M0N,N0N)和对角坐标(M1N,N1N)还原文字在原始文件中的位置。


2.根据权利要求1所述的一种文字方向混排的自动化OCR识别方法,其特征在于,所述步骤S106中根据原始文件的不同旋转单位A*N、以及不同旋转单位A*N相对应的初始坐标(M0N,N0N)和对角坐标(M1N,N1N)还原文字在原始文件中位置,包括以下步骤:
S10601:根据原始文件的不同旋转单位A*N建立旋转后初始坐标(M0N,N0N)与初始坐标(X0,Y0)之间的函数关系S1和S2,其中(M0N,N0N)=S1(X0)和(M0N,N0N)...

【专利技术属性】
技术研发人员:付艳
申请(专利权)人:冠群信息技术南京有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1