The embodiment of the present invention provides a method, device, storage medium and electronic equipment for training a character recognition system. The method includes: acquiring the first glyph buffer data of the first type device, in which the first type device system supports the glyph buffer technology; using the first glyph buffer data to train the character recognition system, and obtaining the first type device adapted to the first type device. Character recognition system. The training method adopted by the invention can train the existing character recognition system using the first font cached data as the labeled training data, thereby greatly improving the accuracy of the character recognition system.
【技术实现步骤摘要】
训练文字识别系统的方法、装置、存储介质及电子设备
本专利技术属于图像识别
,具体涉及一种训练文字识别系统的方法、装置、存储介质及电子设备。
技术介绍
远程桌面协议可以让用户在其他机器上使用服务器的图形界面进行运维,目前常用的远程桌面协议主要是VNC和RDP。堡垒机或者跳板机一般需要对远程桌面协议进行代理,并且事后还需要审计用户的操作。和SSH以及Telnet不同,远程桌面协议只能产生图像数据,所以传统审计图形协议的方式是像播放视频一样回放用户的操作,但这样难以进行统一的检索,审计开销很大。为了方便检索,提升审计效率,人们开始借助OCR(光学文字识别系统)来提取图像数据的中的文字信息,使其可以像字符协议那样进行关键字检索。传统的光学文字识别系统(OCR)主要用来识别使用光学设备扫描生成的文档,如名片、发票等具有相对高的分辨率和对比度的图像,往往缺少对于低DPI字体的识别能力。最出名的OCR系统Tesseract就面临这个问题,Windows系统屏幕一般是96DPI(在Windows上),而不是Tesseract官方推荐的300DPI,所以直接使用效果并不好。为了提升低分辨率图像的文字识别效果,传统的OCR系统会先把图像的DPI提升到合适的数值,但对于识别质量的提升依旧有限。或者对于支持RDP字形缓存技术的系统,先获取字形缓存中字形的位图,再使用现成的OCR系统进行识别,但在不同字体的识别上依旧存在问题。对远程桌面协议的历史记录使用OCR系统来提取文字信息,本质上就是对系统屏幕进行文字提取。由于系统屏幕中的文字往往有低分辨率、复杂背景、不同字体大小和颜色 ...
【技术保护点】
1.一种训练文字识别系统的方法,其特征在于,包括:获取第一类设备的第一字形缓存数据,其中,所述第一类设备的系统支持字形缓存技术;使用所述第一字形缓存数据对所述文字识别系统进行训练,得到适应于第一类设备的文字识别系统。
【技术特征摘要】
1.一种训练文字识别系统的方法,其特征在于,包括:获取第一类设备的第一字形缓存数据,其中,所述第一类设备的系统支持字形缓存技术;使用所述第一字形缓存数据对所述文字识别系统进行训练,得到适应于第一类设备的文字识别系统。2.根据权利要求1所述的方法,其特征在于,所述方法还包括,获取第二类设备的文字属性信息,其中,所述第二类设备的系统不支持字形缓存技术;更改第一类设备的文字属性信息,以使其与所述第二类设备的文字属性信息相匹配;基于更改文字属性信息后的第一类设备,获取第二字形缓存数据;使用所述第二字形缓存数据对所述文字识别系统进行训练,得到适应于第二类设备的文字识别系统。3.根据权利要求2所述的方法,其特征在于,所述基于更改文字属性信息后的第一类设备,获取第二字形缓存数据,包括,从进行期望提升识别率的操作中来获取所述第二字形缓存数据。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括,不断存储新产生的第一字形缓存数据,并使用其对所述文字识别系统进行重新训练。5.一种训练文字识别系统的装置,其特征在于,包括:第一数据获取模块,其用于获取第一类设备的第一字形缓存数据,其中,所述第一类设备的系统支持字形缓存技术;第一训练模块,其使用所述第一字形缓存数据对所述文字识别系统进行训练,得到...
【专利技术属性】
技术研发人员:陈楚俊,
申请(专利权)人:北京天融信网络安全技术有限公司,北京天融信科技有限公司,北京天融信软件有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。