一种文字识别的修正方法以及终端技术

技术编号:15799258 阅读:178 留言:0更新日期:2017-07-11 13:23
本发明专利技术实施例公开了一种文字识别的修正方法以及终端,所述方法包括|:生成修正请求,修正请求包括待修正的文字,待修正的文字选自于利用光学字符识别技术识别预存图片上的图像文字而生成的文字识别结果;获取在预存图片中与待修正的文字相对应的图像文字的文字特征;将图像文字的文字特征与预存文字的文字特征进行对比来获取若干候选文字,若干候选文字的文字特征与相对应的图像文字的文字特征的相似度高于预设标准值;显示若干候选文字以供用户选择;若检测到用户从若干候选文字中选择了候选文字,将被选择的候选文字替换文字识别结果中的待修正的文字。本发明专利技术实施例通过上述方法可以减少用户的操作,提高修正的效率。

Method and terminal for correcting character recognition

The embodiment of the invention discloses a modified word recognition method and terminal, including | the method to generate correction request correction request includes Amendment to be written, to be amended text from the recognition by optical character recognition technology of stored images and text on the picture and text recognition results generated text feature image; the text in the picture stored in the text and the amendment to be corresponding to the text; text features and features of images and text of the text of the pre deposit are compared to obtain several candidate text text text similarity, characteristic features of some candidate text and the corresponding image characters is higher than the preset standard value; to display the number of candidate text for the user to choose; to detect if the user selects candidate text from several candidate text, the candidate text is selected to replace text recognition results Text to be corrected. The embodiment of the invention can reduce the operation of users and improve the correction efficiency through the method.

【技术实现步骤摘要】
一种文字识别的修正方法以及终端
本专利技术涉及电子
,尤其涉及一种文字识别的修正方法以及终端。
技术介绍
光学字符识别技术简称为OCR(OpticalCharacterRecognition)识别技术,是一种通过光学技术对文字进行识别的图像识别技术。光学字符识别技术现已被广泛地应用到自动识别技术研究的领域。例如建立网络图书馆时,将纸质书籍扫描后以文件的形式存入电子识别,再通过OCR文字识别后以文本文件的形式展示。由于OCR识别时经常出现识别错误的情况,尤其识别相似的文字时出现识别混淆的情况,且识别出错后,一般是依靠用户手动编辑修改,即用户在键盘中输入正确的文字,但是该修正方式需要用户繁琐的操作,而导致修正的效率低。
技术实现思路
本专利技术实施例提供一种文字识别的修正方法以及终端,可以减少用户的操作,提高修正的效率。第一方面,本专利技术实施例提供了一种文字识别的修正方法,方法包括:生成修正请求,修正请求包括待修正的文字,待修正的文字选自于利用光学字符识别技术识别预存图片上的图像文字而生成的文字识别结果;获取在预存图片中与待修正的文字相对应的图像文字的文字特征;将图像文字的文字特征与预存文字的文字特征进行对比来获取若干候选文字,若干候选文字的文字特征与相对应的图像文字的文字特征的相似度高于预设标准值;显示若干候选文字以供用户选择;若检测到用户从若干候选文字中选择了候选文字,将被选择的候选文字替换所述文字识别结果中的待修正的文字。另一方面,本专利技术实施例提供了一种终端,终端包括:导出单元、获取单元、对比单元、显示单元以及替换单元。其中,导出单元用于生成修正请求,修正请求包括待修正的文字,待修正的文字选自于利用光学字符识别技术识别预存图片上的图像文字而生成的文字识别结果;获取单元用于获取在预存图片中与待修正的文字相对应的图像文字的文字特征;对比单元用于将图像文字的文字特征与预存文字的文字特征进行对比来获取预存文字中的若干候选文字,若干候选文字的文字特征与相对应的图像文字的文字特征的相似度高于预存文字中剩余文字与相对应的图像文字的文字特征的相似度;显示单元用于显示若干候选文字,以供用户选择;替换单元用于若检测到用户从若干候选文字中选择了候选文字,将被选择的候选文字替换所述文字识别结果中的待修正的文字。本专利技术实施例所公开的一种文字识别的修正方法,通过修正请求获取到待修正的文字,再获取在预存图片中与待修正的文字相对应的图像文字的文字特征;并将图像文字的文字特征与预存文字的文字特征进行对比来获取若干候选文字;显示若干候选文字以供用户选择;再将被用户选择的候选文字替换所述文字识别结果中的待修正的文字。由于将显示候选文字供用户选择,因此用户不再需要键盘输入修正文字,减少了用户的修正操作,提高修正效率。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种文字识别的修正方法的示意流程图;图2a是本专利技术实施例提供的当前屏幕的第一种显示界面;图2b是本专利技术实施例提供的当前屏幕的第二种显示界面;图3a是本专利技术实施例提供的当前屏幕的第三种显示界面;图3b是本专利技术实施例提供的当前屏幕的第四种显示界面;图4是图1中的子流程的示意流程图;图5是本专利技术实施例提供的一种终端的第一实施例的示意性框图;图6是本专利技术实施例提供的图5中一种对比单元的示意性框图;图7是本专利技术实施例提供的一种终端的第二实施例的示意性框图;图8是本专利技术实施例提供的一种终端的第三实施例的示意框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或若干个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。本专利技术实施例提供的一种文字识别的修正方法运行于终端,终端包括但是不限制于任何一款可以与用户进行人机交互的电子设备,例如智能手机(如Android手机、ios手机、WindowsPhone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备等。以上电子设备仅是举例,而非穷举,本专利技术实施例提供的终端包括但是不限制于上述电子设备。但是需要说明的本专利技术实施例提供的终端具有光学字符识别(OpticalCharacterRecognition)功能,可以进行OCR识别。基于ORC识别技术进行识别时常常出现差错的原因,本专利技术实施例提供的一种文字识别的修正方法,可以修正ORC文字识别后的文字识别结果中的错误,减少用户修正操作,提高修正效率。请参看图1,是本专利技术实施例提供的一种文字识别的修正方法的示意流程图,如图所示,该方法包括S101~S105:S101,生成修正请求,修正请求包括待修正的文字。具体的,文字可以是汉字、字母或者数字,本专利技术对此不进行具体的限定。待修正的文字选自于利用光学字符识别技术识别预存图片上的图像文字而生成文字识别结果。即首先利用了OCR识别技术识别了预存图片上的图像文字而生成了文字识别结果并将文字识别结果显示于屏幕上,再从文字识别结果中选择待修正的文字而生成修正请求,选择待修正的文字的方式不限于根据用户操作进行选择或者自动选择的方式。S102,获取在预存图片中与待修正的文字相对应的图像文字的文字特征。具体的,由于待修正的文字选自于OCR识别预存图片的文字识别结果,而文字识别结果是与预存图片中的图像文字一一对应,因此预存图片中存在与待修正的文字相对应的图像文字。例如待修正的文字是“惊弓1鸟”,则相对应的图像文字是“惊弓之鸟”的图像文字。需要说明的是,文字的文字特征是OCR识别技术中的识别因子,文字特征包括但不限于笔画特征,笔画特征包括但不限于笔画的规则、笔画的相对位置以及笔画的区域分布等因子。还需要说明的是,获取的待修正文字可以是单个文字或者词组。若待修正的文字是单个文字,可以获取单个文字对应的图像文字的文字特征;若待修正的文字是词组,则获取词组对应的图像文字中每个文字的文字特征。S103,将图像文字的文字特征与预存文字的文字特征进行对比来获取若干候选文字,若干候选文字的文字特征与相对应的所述图像文字的文字特征的相似度高于预设标准值。具体的,由于OCR识别技术是根据文字的文字特征来识别文字。因此将获取的图像文字的文字特征和预存文字的文字特征可以查找出候选文字。候选文字应当理解为预存文字中与获取的图像文字较相似的文字,即文字特征的相似度高于预设标准值的预存文字。例如图像本文档来自技高网...
一种文字识别的修正方法以及终端

【技术保护点】
一种文字识别的修正方法,其特征在于,包括:生成修正请求,所述修正请求包括待修正的文字,所述待修正的文字选自于利用光学字符识别技术识别预存图片上的图像文字而生成的文字识别结果;获取在所述预存图片中与所述待修正的文字相对应的图像文字的文字特征;将所述图像文字的文字特征与预存文字的文字特征进行对比来获取若干候选文字,所述若干候选文字的文字特征与相对应的所述图像文字的文字特征的相似度高于预设标准值;显示所述若干候选文字以供用户选择;若检测到用户从所述若干候选文字中选择了候选文字,将被选择的候选文字替换所述文字识别结果中的待修正的文字。

【技术特征摘要】
1.一种文字识别的修正方法,其特征在于,包括:生成修正请求,所述修正请求包括待修正的文字,所述待修正的文字选自于利用光学字符识别技术识别预存图片上的图像文字而生成的文字识别结果;获取在所述预存图片中与所述待修正的文字相对应的图像文字的文字特征;将所述图像文字的文字特征与预存文字的文字特征进行对比来获取若干候选文字,所述若干候选文字的文字特征与相对应的所述图像文字的文字特征的相似度高于预设标准值;显示所述若干候选文字以供用户选择;若检测到用户从所述若干候选文字中选择了候选文字,将被选择的候选文字替换所述文字识别结果中的待修正的文字。2.根据权利要求1所述方法,其特征在于,所述生成修正请求包括:检测是否存在用户从所述文字识别结果中选择文字的操作;若存在选择文字的操作,生成修正请求,所述修正请求包括被选择的文字,所述被选择的文字为所述待修正的文字。3.根据权利要求1所述的方法,其特征在于,所述生成修正请求包括:检测所述文字识别结果中是否有预设的文字,所述预设的文字是预先设置的基于光学字符识别时出错频率高于特定值的文字;若有预设的文字,生成修正请求,所述修正请求包括所述预设的文字,所述预设的文字为所述待修正的文字。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据待修正文字的笔画数量划分若干等级,不同的等级对应的所述预设标准值不同;将所述图像文字的文字特征与预存文字的文字特征进行对比来获取若干候选文字之前,所述方法还包括:识别所述待修正的文字的笔画数量;根据笔画数量获取相对应的所述预设标准值。5.根据权利要求1所述的方法,其特征在于,若待修正的文字包括词组,所述将所述图像文字的文字特征与预存文字的文字特征进行对比来获取若干候选文字,包括:将待修正的文字中每个文字对应的所述图像文字的文字特征分别与预存文字的文字特征进行对比来获取所述每个文字对应的候选文字;根据所述待修正的文字中所述每个文字对应的候选文字进行组合以形成若干词组;获取所述若干词组中每个文字与相对应的图像文字的文字特征的相似度;计算出所述若干词组中每个词组的相似度,所述每个词组的相似度为获取的每个词组中每个文字与相对应的图像文字的文字特征的相似度的平均值;将所述若干词组中词组的相似度高于预设标准值的词组设置为所述候选文字。6.一种终端,其特征在于,所述终端包括:导出单元,用于生成修正请求,所述修正请求...

【专利技术属性】
技术研发人员:江克俊刘海强曹晓杰
申请(专利权)人:深圳市金立通信设备有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1