一种光学字符识别重复检测方法和系统技术方案

技术编号:28560291 阅读:21 留言:0更新日期:2021-05-25 17:55
本发明专利技术提出一种光学字符识别重复检测方法和系统,其方法技术方案包括字符识别步骤,使用一光学字符识别工具对一多媒体文件进行识别;结果保存步骤,将对所述多媒体文件的识别文本信息进行保存;重复检测步骤,对所述多媒体文件进行识别前,查询是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本。本发明专利技术解决了现有技术方案在进行光学字符识别时导致任务堆积、实时性差的问题。

【技术实现步骤摘要】
一种光学字符识别重复检测方法和系统
本专利技术属于光学字符识别领域,尤其涉及一种光学字符识别重复检测方法和系统。
技术介绍
多媒体文件的OCR的应用在不同行业不同场景越来越普遍,但是多媒体文件的OCR应用会耗费大量的计算资源。在现有的OCR技术中,通常只是单纯的对每个多媒体文件应用不同的算法,但该方案存在对一个媒体文件进行多次计算的情况,从而造成计算资源的浪费。在大数据场景下,会涉及大量多媒体文件的OCR应用,采用上述方案会使得资源无法充分有效的利用,造成多媒体文件任务的堆积,降低整个系统的实时性。在另一技术方案中,会对多媒体计算的结果保存,并作重复验证,但是对于大数据的场景,验证步骤又会成为瓶颈,同样会导致任务堆积和实时性降低。
技术实现思路
本申请实施例提供了一种光学字符识别重复检测方法和系统,以至少解决现有技术方案在进行光学字符识别时导致任务堆积、实时性差的问题。第一方面,本申请实施例提供了一种光学字符识别重复检测方法,包括:字符识别步骤,使用一光学字符识别工具对一多媒体文件进行识别;结果保存步骤,将对所述多媒体文件的识别文本信息进行保存;重复检测步骤,对所述多媒体文件进行识别前,查询是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本。优选的,所述结果保存步骤包括:使用布隆过滤器对所述多媒体文件的识别文本信息进行保存。优选的,所述结果保存步骤包括:使用一自定义保存工具和一布隆过滤器对所述多媒体文件的识别文本信息进行保存。优选的,所述重复检测步骤包括:第一检测步骤,查询在所述自定义保存工具中是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本,若不存在,则使用所述光学字符识别工具对所述多媒体文件进行识别,并将对所述多媒体文件的识别文本信息保存至所述布隆过滤器。优选的,所述重复检测步骤还包括:第二检测步骤,查询在所述布隆过滤器中是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本,若不存在,则使用所述光学字符识别工具对所述多媒体文件进行识别,并将对所述多媒体文件的识别文本信息保存至所述自定义保存工具和所述布隆过滤器。第二方面,本申请实施例提供了一种光学字符识别重复检测系统,适用于上述一种光学字符识别重复检测方法,包括:字符识别单元,使用一光学字符识别工具对一多媒体文件进行识别;结果保存单元,将对所述多媒体文件的识别文本信息进行保存;重复检测单元,对所述多媒体文件进行识别前,查询是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本。在其中一些实施例中,所述结果保存单元包括:使用布隆过滤器对所述多媒体文件的识别文本信息进行保存。在其中一些实施例中,所述结果保存单元包括:使用一自定义保存工具和一布隆过滤器对所述多媒体文件的识别文本信息进行保存。在其中一些实施例中,所述重复检测单元包括:第一检测模块,查询在所述自定义保存工具中是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本,若不存在,则使用所述光学字符识别工具对所述多媒体文件进行识别,并将对所述多媒体文件的识别文本信息保存至所述布隆过滤器。在其中一些实施例中,所述重复检测单元还包括:第二检测模块,查询在所述布隆过滤器中是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本,若不存在,则使用所述光学字符识别工具对所述多媒体文件进行识别,并将对所述多媒体文件的识别文本信息保存至所述自定义保存工具和所述布隆过滤器。相比于相关技术,本申请实施例提供的一种光学字符识别重复检测方法能够进行高效精确的重复数据验证,避免相同多媒体任务的重复计算,同时适用于大数据的应用场影,在大量数据的场景下,检测步骤也不会成为新的瓶颈。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本专利技术的光学字符识别重复检测方法流程图;图2为图1中步骤S3的分步骤流程图;图3为本专利技术的光学字符识别重复检测系统的框架图;图4为本专利技术的电子设备的框架图;以上图中:1、字符识别单元;2、结果保存单元;3、重复检测单元;31、第一检测模块;32、第二检测模块;60、总线;61、处理器;62、存储器;63、通信接口。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的
技术实现思路
的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属
内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。以下,结合附图详细介绍本专利技术的实施例:图1为本专利技术的光学字符识别重复检测方法流程图,请参见图1,本专利技术光学字符识别重复检测方法包括如下步骤:S1:使用一光学字符识别工具对一多媒体文件进行识别。在具体实施中,使用一光学字符识别(OCR)工具,对批量的多媒体文件进行识别,所述的多媒体文件为图片或视频形式的文件,OCR工具会将所述多媒体文件中的文字信息进行识别,并输出文本形式的文字信息。S2:将对所述多媒体文件的识别文本信息进行保存。在具体实施中,为提高资源利用率,减少平均每个多媒体文件的平均处理时间,需要利用每个文件之前的处理结果,本申请实施例设计了一本文档来自技高网
...

【技术保护点】
1.一种光学字符识别重复检测方法,其特征在于,包括:/n字符识别步骤,使用一光学字符识别工具对一多媒体文件进行识别;/n结果保存步骤,将对所述多媒体文件的识别文本信息进行保存;/n重复检测步骤,对所述多媒体文件进行识别前,查询是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本。/n

【技术特征摘要】
1.一种光学字符识别重复检测方法,其特征在于,包括:
字符识别步骤,使用一光学字符识别工具对一多媒体文件进行识别;
结果保存步骤,将对所述多媒体文件的识别文本信息进行保存;
重复检测步骤,对所述多媒体文件进行识别前,查询是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本。


2.如权利要求1所述的光学字符识别重复检测方法,其特征在于,所述结果保存步骤包括:使用布隆过滤器对所述多媒体文件的识别文本信息进行保存。


3.如权利要求1所述的光学字符识别重复检测方法,其特征在于,所述结果保存步骤包括:使用一自定义保存工具和一布隆过滤器对所述多媒体文件的识别文本信息进行保存。


4.如权利要求3所述的光学字符识别重复检测方法,其特征在于,所述重复检测步骤包括:
第一检测步骤,查询在所述自定义保存工具中是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本,若不存在,则使用所述光学字符识别工具对所述多媒体文件进行识别,并将对所述多媒体文件的识别文本信息保存至所述布隆过滤器。


5.如权利要求4所述的光学字符识别重复检测方法,其特征在于,所述重复检测步骤还包括:
第二检测步骤,查询在所述布隆过滤器中是否存在所述多媒体文件的识别信息文本,若存在,则直接调用所述识别信息文本,若不存在,则使用所述光学字符识别工具对所述多媒体文件进行识别,并将对所述多媒体文件的识别文本信息保存至所述自定义保存工具和所述布隆过滤器。

【专利技术属性】
技术研发人员:崔大鹏
申请(专利权)人:北京秒针人工智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1