一种实时图像文字识别缓存加速系统技术方案

技术编号:19352679 阅读:33 留言:0更新日期:2018-11-07 17:41
本发明专利技术提供一种实时图像文字识别缓存加速系统,包括配置管理服务器、处理结果缓存服务器和若干个图像文字识别处理服务器,上述的三种服务器组成局域网。本发明专利技术的有益效果为:通过减少对重复文字图像的处理次数就能够极大的加快整个系统的图像文字识别匹配速度,系统中图像的文字识别匹配的结果保存在了处理结果缓存结构中,在对文字图像进行是否为垃圾彩信的判断时,不是直接采用图像文字识别匹配相关算法,而是先在处理结果缓存结构中查找该图像是否被处理过,在处理结果缓存结构中查找处理结果,要比对图像进行文字识别匹配速度快很多。

【技术实现步骤摘要】
一种实时图像文字识别缓存加速系统
本专利技术涉及计算机
,尤其涉及一种大数据量图像处理过程中的加速缓存系统。
技术介绍
目前,我国拥有数量庞大的移动用户群体,短彩信收发仍是其基本应用。但在收发的短彩信内容中,包含着大量的广告、暴力、色情和谣言等垃圾信息,为了提升用户体验,移动运营商和相关管理部门也依据垃圾短彩信管理办法先后出台了垃圾信息的分析、管理办法。短彩信垃圾内容的表现形式多以文字和图像为主,目前,对文字和普通图像进行垃圾内容处理已有很多成熟的方法。但在图像内容中,包含着大量的文字图像内容,由于其自身的特征不适于采取与普通图像处理相类似的特征提取与识别方法,通常需要首先进行文字图片判断,然后进行文字图像OCR(光学字符识别)处理,最后对识别的文字内容进行垃圾处理。其中,我们称文字图像判断和OCR处理为图像的文字识别过程,图像文字识别是高耗时操作,如何及时有效的完成实时图像文字识别仍具有很高的技术难度。但现有的加速缓存系统当前彩信数据量已经比较巨大,正常进行图像文字识别无法满足该数据量下的实时性要求,这就需要采用特殊的方法加快算法的执行速度的问题。
技术实现思路
为了解决上述技术问题,本专利技术提供一种实时图像文字识别缓存加速系统,以解决但现有的加速缓存系统当前彩信数据量已经比较巨大,正常进行图像文字识别无法满足该数据量下的实时性要求,这就需要采用特殊的方法加快算法的执行速度的问题。一种实时图像文字识别缓存加速系统,包括配置管理服务器、处理结果缓存服务器和若干个图像文字识别处理服务器,上述的三种服务器组成局域网,如下:(1)配置管理服务器,用于向图像文字识别服务器和处理结果缓存服务器发送垃圾彩信文字图像配置,配置内容包括垃圾文字图像MD特征和文字特征。(2)处理结果缓存服务器,分别接收来自配置管理服务器的垃圾彩信文字图像配置和来自图像文字识别服务器的相关图像垃圾识别处理结果信息,处理结果缓存服务器依据图像的垃圾识别处理结果和相关图像MD值,构造一个以图像MD为键,以垃圾识别结果、命中次数和最近命中时间为键值的处理结果快速查询缓存结构。(3)图像文字识别处理服务器,接收来自配置管理服务器的垃圾文字图像配置,接收来自处理结果缓存服务器的彩信图像数据,并依据垃圾图像MD特征和文字特征对其进行文字图像识别匹配处理,并将处理结果发送给处理结果缓存服务器。所述配置管理服务器包括配置管理单元和配置推送单元,如下:(1)配置管理单元,用于完成配置的管理,包括新增、修改、删除操作。(2)配置推送单元,用于将更新后的配置信息向局域网中的处理结果缓存服务器和图像文字识别服务器进行配置推送。所述处理结果缓存服务器包括配置接收单元、配置更新单元、处理结果查找单元、结果缓存区清理单元、处理结果接收单元和图像数据发送单元,如下:(1)配置接收单元,用于接收来自配置管理服务器发送来的垃圾彩信文字图像配置信息。(2)配置更新单元,用于在接收到需要修改的垃圾彩信文字图像配置信息后,在本机的处理结果快速查询缓存结构中查找相关对应配置信息,并对该结果对应的配置信息进行修改。(3)处理结果查找单元,用于计算图像的MD值,并依据该MD值在本机的处理结果快速查询缓存结构中查找该图像上次处理的结果信息。(4)结果缓存区清理单元,用于定时使用LRU算法对结果缓存区进行清理。(5)处理结果接收单元,用于接收来自图像文字识别服务器的图像处理结果数据,并以图像MD为键、以图像处理结果为键值,将该图像的处理结果写入本机的处理结果快速查询缓存结构中。(6)图像数据发送单元,对于第一次出现的图像数据,在处理结果快速查询缓存结构中找不到相应的图像处理结果时,该单元负责将该图像数据发送给图像文字识别服务器。所述图像文字识别处理服务器包括配置接收单元、配置更新单元、文字图像判断单元、OCR识别单元、垃圾文字特征匹配单元、垃圾文字特征匹配单元和图像数据接收单元,如下:(1)配置接收单元,用于接收来自配置管理服务器发送来的垃圾彩信文字图像配置信息。(2)配置更新单元,用于在接收到需要修改的垃圾彩信文字图像配置信息后,在本机的垃圾彩信文字图像特征结构中查找相关对应的配置信息,并对该图像特征对应的配置信息进行修改。(3)文字图像判断单元,用于根据图像的前景色、背景色和轮廓等特征对文字图像进行判断。(4)OCR识别单元,用于对文字图像进行OCR处理。(5)垃圾文字特征匹配单元,用于对OCR识别的文字结果依据垃圾彩信文字图像特征进行匹配处理,判断文字图像是否为垃圾彩信。(6)垃圾文字特征匹配单元,用于将图像处理结果信息发送给处理结果缓存服务器。(7)图像数据接收单元,用于接收来自处理结果缓存服务器的彩信图像数据。与现有技术相比,本专利技术有如下优点:该实时图像文字识别缓存加速系统,通过减少对重复文字图像的处理次数就能够极大的加快整个系统的图像文字识别匹配速度,系统中图像的文字识别匹配的结果保存在了处理结果缓存结构中,在对文字图像进行是否为垃圾彩信的判断时,不是直接采用图像文字识别匹配相关算法,而是先在处理结果缓存结构中查找该图像是否被处理过,在处理结果缓存结构中查找处理结果,要比对图像进行文字识别匹配速度快很多。附图说明图1为本申请实时图像文字识别加速处理缓存系统的实施例结构图;图2为本申请系统的配置管理服务器实施例框图;图3为本申请系统的处理结果缓存服务器实施例框图;图4为本申请系统的图像文字识别服务器实施例框图;图5为本申请系统的配置推送实施例框图;图6为本申请系统的图像匹配结果快速查找实施例框图;图7为本申请系统的图像识别匹配实施例框图。图中:配置管理服务器-110、处理结果缓存服务器-120、图像文字识别处理服务器-130、配置管理单元-210、配置推送单元-220、配置接收单元-310、配置更新单元-320、处理结果查找单元-330、结果缓存区清理单元-340、处理结果接收单元-350、图像数据发送单元-360、配置接收单元-410、配置更新单元-420、文字图像判断单元-430、OCR识别单元-440、垃圾文字特征匹配单元-450、垃圾文字特征匹配单元-460、图像数据接收单元-470。具体实施方式以下结合附图对本专利技术做进一步描述:实施例1一种实时图像文字识别缓存加速系统,包括配置管理服务器110、处理结果缓存服务器120和若干个图像文字识别处理服务器130,上述的三种服务器组成局域网,如下:(1)配置管理服务器110,用于向图像文字识别服务器130和处理结果缓存服务器120发送垃圾彩信文字图像配置,配置内容包括垃圾文字图像MD5特征和文字特征。(2)处理结果缓存服务器120,分别接收来自配置管理服务器110的垃圾彩信文字图像配置和来自图像文字识别服务器130的相关图像垃圾识别处理结果信息,处理结果缓存服务器120依据图像的垃圾识别处理结果和相关图像MD5值,构造一个以图像MD5为键,以垃圾识别结果、命中次数和最近命中时间为键值的处理结果快速查询缓存结构。(3)图像文字识别处理服务器130,接收来自配置管理服务器110的垃圾文字图像配置,接收来自处理结果缓存服务器120的彩信图像数据,并依据垃圾图像MD5特征和文字特征对其进行文字图像识别匹配处理,并将处理结果发本文档来自技高网...

【技术保护点】
1.一种实时图像文字识别缓存加速系统,包括配置管理服务器(110)、处理结果缓存服务器(120)和若干个图像文字识别处理服务器(130),上述的三种服务器组成局域网,如下:(1)配置管理服务器(110),用于向图像文字识别服务器(130)和处理结果缓存服务器(120)发送垃圾彩信文字图像配置,配置内容包括垃圾文字图像MD5特征和文字特征。(2)处理结果缓存服务器(120),分别接收来自配置管理服务器(110)的垃圾彩信文字图像配置和来自图像文字识别服务器(130)的相关图像垃圾识别处理结果信息,处理结果缓存服务器(120)依据图像的垃圾识别处理结果和相关图像MD5值,构造一个以图像MD5为键,以垃圾识别结果、命中次数和最近命中时间为键值的处理结果快速查询缓存结构。(3)图像文字识别处理服务器(130),接收来自配置管理服务器(110)的垃圾文字图像配置,接收来自处理结果缓存服务器(120)的彩信图像数据,并依据垃圾图像MD5特征和文字特征对其进行文字图像识别匹配处理,并将处理结果发送给处理结果缓存服务器(120)。所述配置管理服务器(110)包括配置管理单元(210)和配置推送单元(220),如下:(1)配置管理单元(210),用于完成配置的管理,包括新增、修改、删除操作。(2)配置推送单元(220),用于将更新后的配置信息向局域网中的处理结果缓存服务器(120)和图像文字识别服务器(130)进行配置推送。所述处理结果缓存服务器(120)包括配置接收单元(310)、配置更新单元(320)、处理结果查找单元(330)、结果缓存区清理单元(340)、处理结果接收单元(350)和图像数据发送单元(360),如下:(1)配置接收单元(310),用于接收来自配置管理服务器(110)发送来的垃圾彩信文字图像配置信息。(2)配置更新单元(320),用于在接收到需要修改的垃圾彩信文字图像配置信息后,在本机的处理结果快速查询缓存结构中查找相关对应配置信息,并对该结果对应的配置信息进行修改。(3)处理结果查找单元(330),用于计算图像的MD5值,并依据该MD5值在本机的处理结果快速查询缓存结构中查找该图像上次处理的结果信息。(4)结果缓存区清理单元(340),用于定时使用LRU算法对结果缓存区进行清理。(5)处理结果接收单元(350),用于接收来自图像文字识别服务器(130)的图像处理结果数据,并以图像MD5为键、以图像处理结果为键值,将该图像的处理结果写入本机的处理结果快速查询缓存结构中。(6)图像数据发送单元(360),对于第一次出现的图像数据,在处理结果快速查询缓存结构中找不到相应的图像处理结果时,该单元负责将该图像数据发送给图像文字识别服务器(130)。所述图像文字识别处理服务器(130)包括配置接收单元(410)、配置更新单元(420)、文字图像判断单元(430)、OCR识别单元(440)、垃圾文字特征匹配单元(450)、垃圾文字特征匹配单元(460)和图像数据接收单元(470),如下:(1)配置接收单元(410),用于接收来自配置管理服务器(110)发送来的垃圾彩信文字图像配置信息。(2)配置更新单元(420),用于在接收到需要修改的垃圾彩信文字图像配置信息后,在本机的垃圾彩信文字图像特征结构中查找相关对应的配置信息,并对该图像特征对应的配置信息进行修改。(3)文字图像判断单元(430),用于根据图像的前景色、背景色和轮廓等特征对文字图像进行判断。(4)OCR识别单元(440),用于对文字图像进行OCR处理。(5)垃圾文字特征匹配单元(450),用于对OCR识别的文字结果依据垃圾彩信文字图像特征进行匹配处理,判断文字图像是否为垃圾彩信。(6)垃圾文字特征匹配单元(460),用于将图像处理结果信息发送给处理结果缓存服务器(110)。(7)图像数据接收单元(470),用于接收来自处理结果缓存服务器(110)的彩信图像数据。...

【技术特征摘要】
1.一种实时图像文字识别缓存加速系统,包括配置管理服务器(110)、处理结果缓存服务器(120)和若干个图像文字识别处理服务器(130),上述的三种服务器组成局域网,如下:(1)配置管理服务器(110),用于向图像文字识别服务器(130)和处理结果缓存服务器(120)发送垃圾彩信文字图像配置,配置内容包括垃圾文字图像MD5特征和文字特征。(2)处理结果缓存服务器(120),分别接收来自配置管理服务器(110)的垃圾彩信文字图像配置和来自图像文字识别服务器(130)的相关图像垃圾识别处理结果信息,处理结果缓存服务器(120)依据图像的垃圾识别处理结果和相关图像MD5值,构造一个以图像MD5为键,以垃圾识别结果、命中次数和最近命中时间为键值的处理结果快速查询缓存结构。(3)图像文字识别处理服务器(130),接收来自配置管理服务器(110)的垃圾文字图像配置,接收来自处理结果缓存服务器(120)的彩信图像数据,并依据垃圾图像MD5特征和文字特征对其进行文字图像识别匹配处理,并将处理结果发送给处理结果缓存服务器(120)。所述配置管理服务器(110)包括配置管理单元(210)和配置推送单元(220),如下:(1)配置管理单元(210),用于完成配置的管理,包括新增、修改、删除操作。(2)配置推送单元(220),用于将更新后的配置信息向局域网中的处理结果缓存服务器(120)和图像文字识别服务器(130)进行配置推送。所述处理结果缓存服务器(120)包括配置接收单元(310)、配置更新单元(320)、处理结果查找单元(330)、结果缓存区清理单元(340)、处理结果接收单元(350)和图像数据发送单元(360),如下:(1)配置接收单元(310),用于接收来自配置管理服务器(110)发送来的垃圾彩信文字图像配置信息。(2)配置更新单元(320),用于在接收到需要修改的垃圾彩信文字图像配置信息后,在本机的处理结果快速查询缓...

【专利技术属性】
技术研发人员:方喆君何跃鹰卓子寒张晓明张嘉玮赵忠华董建武李明哲刘中金孙中豪罗冰
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1