训练文字识别系统的方法、装置、存储介质及电子设备制造方法及图纸

技术编号:20993275 阅读:34 留言:0更新日期:2019-04-29 23:03
本发明专利技术实施例提供一种训练文字识别系统的方法、装置、存储介质及电子设备,方法包括:获取第一类设备的第一字形缓存数据,其中,所述第一类设备的系统支持字形缓存技术;使用所述第一字形缓存数据对所述文字识别系统进行训练,得到适应于第一类设备的文字识别系统。本发明专利技术采用的训练方法可以使用第一字形缓存数据作为已标注训练数据对现有的文字识别系统进行训练,从而大大提高文字识别系统的准确率。

Method, device, storage medium and electronic equipment for training character recognition system

The embodiment of the present invention provides a method, device, storage medium and electronic equipment for training a character recognition system. The method includes: acquiring the first glyph buffer data of the first type device, in which the first type device system supports the glyph buffer technology; using the first glyph buffer data to train the character recognition system, and obtaining the first type device adapted to the first type device. Character recognition system. The training method adopted by the invention can train the existing character recognition system using the first font cached data as the labeled training data, thereby greatly improving the accuracy of the character recognition system.

【技术实现步骤摘要】
训练文字识别系统的方法、装置、存储介质及电子设备
本专利技术属于图像识别
,具体涉及一种训练文字识别系统的方法、装置、存储介质及电子设备。
技术介绍
远程桌面协议可以让用户在其他机器上使用服务器的图形界面进行运维,目前常用的远程桌面协议主要是VNC和RDP。堡垒机或者跳板机一般需要对远程桌面协议进行代理,并且事后还需要审计用户的操作。和SSH以及Telnet不同,远程桌面协议只能产生图像数据,所以传统审计图形协议的方式是像播放视频一样回放用户的操作,但这样难以进行统一的检索,审计开销很大。为了方便检索,提升审计效率,人们开始借助OCR(光学文字识别系统)来提取图像数据的中的文字信息,使其可以像字符协议那样进行关键字检索。传统的光学文字识别系统(OCR)主要用来识别使用光学设备扫描生成的文档,如名片、发票等具有相对高的分辨率和对比度的图像,往往缺少对于低DPI字体的识别能力。最出名的OCR系统Tesseract就面临这个问题,Windows系统屏幕一般是96DPI(在Windows上),而不是Tesseract官方推荐的300DPI,所以直接使用效果并不好。为了提升低分辨率图像的文字识别效果,传统的OCR系统会先把图像的DPI提升到合适的数值,但对于识别质量的提升依旧有限。或者对于支持RDP字形缓存技术的系统,先获取字形缓存中字形的位图,再使用现成的OCR系统进行识别,但在不同字体的识别上依旧存在问题。对远程桌面协议的历史记录使用OCR系统来提取文字信息,本质上就是对系统屏幕进行文字提取。由于系统屏幕中的文字往往有低分辨率、复杂背景、不同字体大小和颜色、多种对齐方式等特点,进行文字识别的难度很大。同时,由于桌面设置非常灵活,如用户可以自由设定主题、字体、渲染方式等,因此,使用现成的OCR软件及其提供的数据集进行识别的准确率很低,难以适应运维审计的需求。目前针对低分辨率文字的识别还使用人工神经网络和隐马尔科夫等监督学习方法,但它们都需要大量的已标注训练数据,而这些已标注训练数据的获取需要消耗大量的人力成本。
技术实现思路
本专利技术提供了一种训练文字识别系统的方法、装置、存储介质及电子设备。本专利技术采用的训练方法可以使用第一字形缓存数据作为已标注训练数据对现有的文字识别系统进行训练,从而大大提高文字识别系统的准确率。为了解决上述技术问题,本专利技术实施例提供了如下的技术方案:本专利技术第一发面提供一种训练文字识别系统的方法,包括:获取第一类设备的第一字形缓存数据,其中,所述第一类设备的系统支持字形缓存技术;使用所述第一字形缓存数据对所述文字识别系统进行训练,得到适应于第一类设备的文字识别系统。作为优选,所述方法还包括,获取第二类设备的文字属性信息,其中,所述第二类设备的系统不支持字形缓存技术;更改第一类设备的文字属性信息,以使其与所述第二类设备的文字属性信息相匹配;基于更改文字属性信息后的第一类设备,获取第二字形缓存数据;使用所述第二字形缓存数据对所述文字识别系统进行训练,得到适应于第二类设备的文字识别系统。作为优选,所述基于更改文字属性信息后的第一类设备,获取第二字形缓存数据,包括,从进行期望提升识别率的操作中来获取所述第二字形缓存数据。作为优选,所述方法还包括,不断存储新产生的第一字形缓存数据,并使用其对所述文字识别系统进行重新训练。本专利技术第二方面提供一种训练文字识别系统的装置,包括:第一数据获取模块,其用于获取第一类设备的第一字形缓存数据,其中,所述第一类设备的系统支持字形缓存技术;第一训练模块,其使用所述第一字形缓存数据对所述文字识别系统进行训练,得到适应于第一类设备的文字识别系统。作为优选,所述装置还包括:文字属性信息获取模块,其用于获取第二类设备的文字属性信息,其中,所述第二类设备的系统不支持字形缓存技术;文字属性信息更改模块,其用于更改第一类设备的文字属性信息,以使其与所述第二类设备的文字属性信息相匹配;第二数据获取模块,其基于更改文字属性信息后的第一类设备,获取第二字形缓存数据;所述第一训练模块还用于,使用所述第二字形缓存数据对所述文字识别系统进行训练,得到适应于第二类设备的文字识别系统。作为优选,所述第二数据获取模块还用于从进行期望提升识别率的操作中来获取所述第二字形缓存数据。作为优选,所述装置还包括,数据存储模块,其用于不断存储新产生的第一字形缓存数据;所述第一训练模块还用于,使用新产生的第一字形缓存数据对所述文字识别系统进行重新训练。本专利技术第三方面提供一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的任一项所述方法的步骤。本专利技术第四方面提供一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述的任一项所述方法的步骤。基于上述实施例的公开可以获知,本专利技术实施例具备如下的有益效果:1)本专利技术利用字形缓存技术,生成大量的可以作为已标注训练数据使用的第一字形缓存数据来对文字识别系统进行训练,而不是使用现成的文字识别系统及其提供的数据集,从而构建了一个更加完善的文字识别系统。2)本专利技术通过使用字形缓存技术获得的第一字形缓存数据对文字识别系统进行训练,能够获得质量更高的已标注训练数据,不仅解决了监督学习算法需要大量已标注训练数据的问题,还大大减少了人工标注数据集带来的工作量。3)本专利技术所提供的训练方法还能够有效解决文字识别系统在不支持字形缓存技术的系统上识别效率低下的问题,以及对不同字体识别效果差的问题。附图说明图1为本专利技术实施例中的一种训练文字识别系统的方法逻辑框图;图2为本专利技术实施例中的另一种训练文字识别系统的方法逻辑框图;图3为本专利技术实施例中的一种训练文字识别系统的装置的结构示意图。具体实施方式下面,结合附图对本专利技术的具体实施例进行详细的描述,但不作为本专利技术的限定。应理解的是,可以对此处公开的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本专利技术的这些和其它特性将会变得显而易见。还应当理解,尽管已经参照一些具体实例对本专利技术进行了描述,但本领域技术人员能够确定地实现本专利技术的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。此后参照附图描述本公开的具体实施例;然而,应当理解,所公开的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所公开的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例本文档来自技高网
...

【技术保护点】
1.一种训练文字识别系统的方法,其特征在于,包括:获取第一类设备的第一字形缓存数据,其中,所述第一类设备的系统支持字形缓存技术;使用所述第一字形缓存数据对所述文字识别系统进行训练,得到适应于第一类设备的文字识别系统。

【技术特征摘要】
1.一种训练文字识别系统的方法,其特征在于,包括:获取第一类设备的第一字形缓存数据,其中,所述第一类设备的系统支持字形缓存技术;使用所述第一字形缓存数据对所述文字识别系统进行训练,得到适应于第一类设备的文字识别系统。2.根据权利要求1所述的方法,其特征在于,所述方法还包括,获取第二类设备的文字属性信息,其中,所述第二类设备的系统不支持字形缓存技术;更改第一类设备的文字属性信息,以使其与所述第二类设备的文字属性信息相匹配;基于更改文字属性信息后的第一类设备,获取第二字形缓存数据;使用所述第二字形缓存数据对所述文字识别系统进行训练,得到适应于第二类设备的文字识别系统。3.根据权利要求2所述的方法,其特征在于,所述基于更改文字属性信息后的第一类设备,获取第二字形缓存数据,包括,从进行期望提升识别率的操作中来获取所述第二字形缓存数据。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括,不断存储新产生的第一字形缓存数据,并使用其对所述文字识别系统进行重新训练。5.一种训练文字识别系统的装置,其特征在于,包括:第一数据获取模块,其用于获取第一类设备的第一字形缓存数据,其中,所述第一类设备的系统支持字形缓存技术;第一训练模块,其使用所述第一字形缓存数据对所述文字识别系统进行训练,得到...

【专利技术属性】
技术研发人员:陈楚俊
申请(专利权)人:北京天融信网络安全技术有限公司北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1