文本图片筛选方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38514370 阅读:17 留言:0更新日期:2023-08-19 16:57
本申请的实施方式提供了一种文本图片筛选方法、装置、电子设备及存储介质。该方法包括:获取源图片集合中每一文本图片及其对应的第一识别文本;基于每一文本图片,确定与每一文本图片对应的第二识别文本;将每一文本图片对应的第一识别文本和第二识别文本进行比对,以确定第一识别文本是否存在识别错误;响应于确定第一识别文本存在识别错误,将第一识别文本对应的文本图片从源图片集合中筛选出,以作为目标文本图片;以及收集筛选出的目标文本图片,以形成目标图片集合。本申请技术方案能够提升未能正确识别的文本图片的查找效率,降低查找未能正确识别的文本图片的人力成本。查找未能正确识别的文本图片的人力成本。查找未能正确识别的文本图片的人力成本。

【技术实现步骤摘要】
文本图片筛选方法、装置、电子设备及存储介质


[0001]本申请的实施方式一般地涉及数据处理领域。更具体地,本申请的实施方式涉及文本图片筛选方法、装置、电子设备及存储介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
[0003]当前词典笔所使用的文字识别(OCR,optical character recognition)算法的识别正确率大约在72%左右。换句话说,尽管有超过一半的文本图片能够被100%正确地识别,但也有接近四成的文本图片被错误地识别。鉴于这样的高错误率,当在文本图片数量庞大的情况之下,寻找和发现未能正确识别的文本图片将是一件困难的事情。
[0004]在现有解决方法中,主要是通过工作人员人工比对原始的文本图片和算法返回的文本识别结果,以判断原始的文本图片中的语句是否存在识别错误的问题。然而,通过人工比对的方式来寻找未能正确识别的文本图片不但人力消耗大,而且效率低下。
[0005]有鉴于此,亟需提出一种自动挖掘未能正确识别的文本图片的方法,以降低人力成本,提升未能正确识别的文本图片的查找效率。

技术实现思路

[0006]为克服相关技术中存在的问题,本申请的实施方式期望提供一种文本图片筛选方法、装置、电子设备及存储介质。该文本图片筛选方法能够提升未能正确识别的文本图片的查找效率,降低查找未能正确识别的文本图片的人力成本。
[0007]在本申请实施方式的第一方面中,提供了一种文本图片筛选方法,包括:获取源图片集合中每一文本图片及其对应的第一识别文本;基于每一文本图片,确定与每一文本图片对应的第二识别文本;将每一文本图片对应的第一识别文本和第二识别文本进行比对,以确定第一识别文本是否存在识别错误;响应于确定第一识别文本存在识别错误,将第一识别文本对应的文本图片从源图片集合中筛选出,以作为目标文本图片;以及收集筛选出的目标文本图片,以形成目标图片集合。
[0008]在一个实施例中,将每一文本图片对应的第一识别文本和第二识别文本进行比对,以确定第一识别文本是否存在识别错误包括:若同一文本图片对应的第一识别文本和第二识别文本一致,则确定第一识别文本不存在识别错误;若同一文本图片对应的第一识别文本和第二识别文本不一致,则确定当前的文本图片对应的第一识别文本和第二识别文本之间的相似度参数;基于相似度参数和预设相似度阈值确定第一识别文本是否存在识别错误。
[0009]在一个实施例中,基于相似度参数和预设相似度阈值确定第一识别文本是否存在
识别错误包括:若相似度参数大于或等于预设相似度阈值,则确定第一识别文本不存在识别错误;若相似度参数小于预设相似度阈值,则对当前的文本图片对应的第一识别文本进行语义理解判断;基于语义理解判断结果确定第一识别文本是否存在识别错误。
[0010]在一个实施例中,对当前的文本图片对应的第一识别文本进行语义理解判断包括:基于当前的文本图片和当前的文本图片对应的第一识别文本形成语义理解判断文本;基于语义理解判断文本以及预设语义模型确定语义理解判断结果。
[0011]在一个实施例中,基于语义理解判断结果确定第一识别文本是否存在识别错误包括:若语义理解判断结果为语义理解无误,则确定第一识别文本不存在识别错误;若语义理解判断结果为语义理解错误,则确定第一识别文本存在识别错误。
[0012]在一个实施例中,语义理解判断结果包括是否发生大小写错误事件、是否发生中英文标点错误事件、是否发生拼写错误事件以及是否发生语言错误事件;对当前的文本图片对应的第一识别文本进行语义理解判断包括:判断当前的文本图片对应的第一识别文本是否发生大小写错误事件、是否发生中英文标点错误事件、是否发生拼写错误事件以及是否发生语言错误事件。
[0013]在一个实施例中,基于语义理解判断结果确定第一识别文本是否存在识别错误包括:若当前的文本图片对应的第一识别文本中均未发生大小写错误事件、中英文标点错误事件、拼写错误事件以及语言错误事件之中的任意一种事件,则确定第一识别文本不存在识别错误;否则,确定第一识别文本存在识别错误。
[0014]在一个实施例中,获取源图片集合中每一文本图片及其对应的第一识别文本包括:获取源图片集合中的若干个文本识别日志图片;分别对每一文本识别日志图片进行分割处理和校正处理,得到每一文本图片;分别通过第一文字识别模型对每一文本图片进行文字识别,得到每一文本图片对应的第一识别文本。
[0015]在一个实施例中,基于每一文本图片,确定与每一文本图片对应的第二识别文本包括:分别通过第二文字识别模型对每一文本图片进行文字识别,得到每一文本图片对应的第二识别文本。
[0016]在本申请实施方式的第二方面中,提供了一种文本图片筛选装置,用于执行如第一方面中任一项所述的文本图片筛选方法,包括:
[0017]数据获取模块,用于获取源图片集合中每一文本图片及其对应的第一识别文本;
[0018]数据确定模块,用于基于每一文本图片,确定与每一文本图片对应的第二识别文本;
[0019]数据比对模块,用于将每一文本图片对应的第一识别文本和第二识别文本进行比对,以确定第一识别文本是否存在识别错误;
[0020]数据筛选模块,用于响应于确定第一识别文本存在识别错误,将第一识别文本对应的文本图片从源图片集合中筛选出,以作为目标文本图片;以及
[0021]数据收集模块,用于收集筛选出的目标文本图片,以形成目标图片集合。
[0022]本申请第三方面提供一种电子设备,包括:
[0023]处理器;以及
[0024]存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
[0025]本申请第四方面提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
[0026]本申请实施方式提供的文本图片筛选方法、装置、电子设备及存储介质,通过获取源图片集合中每一文本图片及其对应的第一识别文本,基于每一文本图片,确定与每一文本图片对应的第二识别文本。进而将每一文本图片对应的第一识别文本和第二识别文本进行比对,以确定第一识别文本是否存在识别错误。响应于确定第一识别文本存在识别错误,将第一识别文本对应的文本图片从源图片集合中筛选出,以作为目标文本图片,收集筛选出的目标文本图片,以形成目标图片集合。从而能够自动化地筛选出识别错误的文本图片,提升未能正确识别的文本图片的查找效率,降低查找未能正确识别的文本图片的人力成本。
附图说明
[0027]通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本图片筛选方法,其特征在于,包括:获取源图片集合中每一文本图片及其对应的第一识别文本;基于所述每一文本图片,确定与每一文本图片对应的第二识别文本;将每一文本图片对应的第一识别文本和第二识别文本进行比对,以确定所述第一识别文本是否存在识别错误;响应于确定所述第一识别文本存在所述识别错误,将所述第一识别文本对应的文本图片从所述源图片集合中筛选出,以作为目标文本图片;以及收集筛选出的所述目标文本图片,以形成目标图片集合。2.根据权利要求1所述的文本图片筛选方法,其特征在于,所述将每一文本图片对应的第一识别文本和第二识别文本进行比对,以确定所述第一识别文本是否存在识别错误包括:若同一文本图片对应的第一识别文本和第二识别文本一致,则确定所述第一识别文本不存在识别错误;若同一文本图片对应的第一识别文本和第二识别文本不一致,则确定当前的文本图片对应的第一识别文本和第二识别文本之间的相似度参数;基于所述相似度参数和预设相似度阈值确定所述第一识别文本是否存在识别错误。3.根据权利要求2所述的文本图片筛选方法,其特征在于,所述基于所述相似度参数和预设相似度阈值确定所述第一识别文本是否存在识别错误包括:若所述相似度参数大于或等于所述预设相似度阈值,则确定所述第一识别文本不存在识别错误;若所述相似度参数小于所述预设相似度阈值,则对当前的文本图片对应的第一识别文本进行语义理解判断;基于语义理解判断结果确定所述第一识别文本是否存在识别错误。4.根据权利要求3所述的文本图片筛选方法,其特征在于,所述对当前的文本图片对应的第一识别文本进行语义理解判断包括:基于当前的文本图片和当前的文本图片对应的第一识别文本形成语义理解判断文本;基于所述语义理解判断文本以及预设语义模型确定所述语义理解判断结果。5.根据权利要求4所述的文本图片筛选方法,其特征在于,所述基于语义理解判断结果确定所述第一识别文本是否存在识别错误包括:若所述语义理解判断结果为语义理解无误,则确定所述第一识别文本不存在识别错误;若所述语义理解判断结果为语义理解错误,则确定所述第一识别...

【专利技术属性】
技术研发人员:王丹
申请(专利权)人:网易有道信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1