字符识别方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:21433521 阅读:17 留言:0更新日期:2019-06-22 12:19
本申请涉及一种字符识别方法、装置、设备及计算机可读介质。所述方法包括:获取目标文件的扫描文件,并对所述扫描文件进行图像处理;利用光学字符识别OCR技术对图像处理得到的目标图像进行字符识别,得到第一识别文本;其中,在利用所述OCR技术进行字符识别时,使用R1_PCA对所述目标图像中的字符特征进行降维。本申请通过在OCR文字识别特征降维中运用R1_PCA降维技术,使用R1_PCA与OCR技术相融合,可以在文字特征中存在噪声时,使用此降维方法可以减少噪声的干扰,从而提升OCR技术的准确性。

【技术实现步骤摘要】
字符识别方法、装置、设备及计算机可读介质
本申请涉及计算机
,尤其涉及一种字符识别方法、装置、设备及计算机可读介质。
技术介绍
随着人工智能的热度上升,图像识别这一领域也渐渐被人们所关注。光学字符识别(OpticalCharacterRecognition,OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。然而,传统利用OCR技术对字符识别时所使用的降维方法如PCA,LDA等,都是以L2范数的平方作为损失函数的距离度量,当特征中存在噪声时,PCA,LDA不具有鲁棒性,因为目标函数为误差平方和(L2范数)使得这些算法对异常值具有放大作用,微小的异常数据都可能使得估计子空间偏差较大,无法反映真实的状况。对样本中的异常值(噪声)敏感。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种字符识别方法、装置、设备及计算机可读介质。第一方面,本申请提供了一种字符识别方法,包括:获取目标文件的扫描文件,并对所述扫描文件进行图像处理;利用光学字符识别OCR技术对图像处理得到的目标图像进行字符识别,得到第一识别文本;其中,在利用所述OCR技术进行字符识别时,使用R1_PCA对所述目标图像中的字符特征进行降维。可选地,所述R1_PCA以R1范数的一次方作为损失函数的距离度量:其中,X∈Rm×n表示文字特征提取矩阵,U∈Rm×d表示投影轴,V=UTX表示降维后的文字特征矩阵。可选地,所述方法还包括:获取所述目标文件的PDF文件;识别所述PDF文件中的第二识别文本;将所述第二识别文本与所述第一识别文本比较,确定所述第一识别文本与所述第二识别文本之间的差异字符。可选地,所述方法还包括:在所述第一识别文本和所述第二识别文本中标注所述差异字符;和/或,利用所述第一识别文本中的差异字符替换所述第二识别文本中的差异字符;和/或,利用所述第二识别文本中的差异字符替换所述第一识别文本中的差异字符。第二方面,本申请还提供一种字符识别装置,包括:第一获取模块,用于获取目标文件的扫描文件,并对所述扫描文件进行图像处理;第一识别模块,用于利用光学字符识别OCR技术对图像处理得到的目标图像进行字符识别,得到第一识别文本;其中,在利用所述OCR技术进行字符识别时,使用R1_PCA对所述目标图像中的字符特征进行降维。可选地,所述R1_PCA以R1范数的一次方作为损失函数的距离度量:其中,X∈Rm×n表示文字特征提取矩阵,U∈Rm×d表示投影轴,V=UTX表示降维后的文字特征矩阵。可选地,所述装置还包括:第二获取模块,用于获取所述目标文件的PDF文件;第二识别模块,用于识别所述PDF文件中的第二识别文本;比较模块,用于将所述第二识别文本与所述第一识别文本比较,确定所述第一识别文本与所述第二识别文本之间的差异字符。可选地,所述装置还包括:标注模块,用于在所述第一识别文本和所述第二识别文本中标注所述差异字符;和/或,第一替换模块,用于利用所述第一识别文本中的差异字符替换所述第二识别文本中的差异字符;和/或,第二替换模块,用于利用所述第二识别文本中的差异字符替换所述第一识别文本中的差异字符。第三方面,本申请还提供了一种字符识别设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。第四方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行所述第一方面所述的方法。本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请通过在OCR文字识别特征降维中运用R1_PCA降维技术,使用R1_PCA与OCR技术相融合,可以在文字特征中存在噪声时,使用此降维方法可以减少噪声的干扰,从而提升OCR技术的准确性。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种字符识别方法的一种流程图;图2为本申请实施例提供的一种降维影响比对示意图;图3为本申请实施例提供的一种差异字符标注的示意图;图4为本申请实施例提供的一种字符识别装置的结构图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。由于利用OCR技术对字符识别时所使用的降维方法如PCA,LDA等,都是以L2范数的平方作为损失函数的距离度量,当特征中存在噪声时,PCA,LDA不具有鲁棒性,因为目标函数为误差平方和(L2范数)使得这些算法对异常值具有放大作用,微小的异常数据都可能使得估计子空间偏差较大,无法反映真实的状况。对样本中的异常值(噪声)敏感。为此,本申请实施例提供一种字符识别方法,如图1所示,所述方法可以包括以下步骤:步骤S101,获取目标文件的扫描文件,并对所述扫描文件进行图像处理;在本申请实施例中,目标文件示例性的可以为合同等纸件文件,目标文件的扫描文件即为将目标文件进行扫描后得到的文件。在实际应用中,图像处理是指在识别文字前,对原始图片进行预处理,以便后续的特征提取和学习。这个过程通常包含:灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤。灰度化,在RGB模型中,如果R=G=B时,则彩色表示一种灰度颜色,其中R=G=B的值叫灰度值,因此,灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值),灰度范围为0-255。说通俗一点,就是将一张彩色图片变为黑白图片。灰度化一般有分量法、最大值法、平均值法、加权平均法四种方法对彩色图像进行灰度化。二值化,一幅图像包括目标物体、背景还有噪声,要想从多值的数字图像中直接提取出目标物体,最常用的方法就是设定一个阈值T,用T将图像的数据分成两部分:大于T的像素群和小于T的像素群。这是研究灰度变换的最特殊的方法,称为图像的二值化。二值化的黑白图片不包含灰色,只有纯白和纯黑两种颜色。二值化里最重要的就是阈值的选取,一般分为固定阈值和自适应阈值。比较常用的二值化方法则有:双峰法、P参数法、迭代法和OTSU法等。图像降噪,现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,称为含噪图像或噪声图像。减少数字图像中噪声的过程称为图像降噪。图像中噪声的来源有许多种,这些噪声来源于图像采集、传输、压缩等各个方面。噪声的种类也各不相同,比如椒盐噪声,高斯噪声等,针对不同的噪声有不同的处理算法。在上一步得到的图像中可以看到很多零星的小黑点,这就是图像中的噪声,会极大干扰到我们程序对于图片的切割和识别,因此我们需要降噪处理。降本文档来自技高网...

【技术保护点】
1.一种字符识别方法,其特征在于,包括:获取目标文件的扫描文件,并对所述扫描文件进行图像处理;利用光学字符识别OCR技术对图像处理得到的目标图像进行字符识别,得到第一识别文本;其中,在利用所述OCR技术进行字符识别时,使用R1_PCA对所述目标图像中的字符特征进行降维。

【技术特征摘要】
1.一种字符识别方法,其特征在于,包括:获取目标文件的扫描文件,并对所述扫描文件进行图像处理;利用光学字符识别OCR技术对图像处理得到的目标图像进行字符识别,得到第一识别文本;其中,在利用所述OCR技术进行字符识别时,使用R1_PCA对所述目标图像中的字符特征进行降维。2.根据权利要求1所述的字符识别方法,其特征在于,所述R1_PCA以R1范数的一次方作为损失函数的距离度量:其中,X∈Rm×n表示文字特征提取矩阵,U∈Rm×d表示投影轴,V=UTX表示降维后的文字特征矩阵。3.根据权利要求1所述的字符识别方法,其特征在于,所述方法还包括:获取所述目标文件的PDF文件;识别所述PDF文件中的第二识别文本;将所述第二识别文本与所述第一识别文本比较,确定所述第一识别文本与所述第二识别文本之间的差异字符。4.根据权利要求3所述的字符识别方法,其特征在于,所述方法还包括:在所述第一识别文本和所述第二识别文本中标注所述差异字符;和/或,利用所述第一识别文本中的差异字符替换所述第二识别文本中的差异字符;和/或,利用所述第二识别文本中的差异字符替换所述第一识别文本中的差异字符。5.一种字符识别装置,其特征在于,包括:第一获取模块,用于获取目标文件的扫描文件,并对所述扫描文件进行图像处理;第一识别模块,用于利用光学字符识别OCR技术对图像处理得到的目标图像进行字符识别,得到第一识别文本;其中,在利用所...

【专利技术属性】
技术研发人员:张晴晴徐冉段由杨金富罗磊马光谦汪洋
申请(专利权)人:北京爱数智慧科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1