文本信息识别方法及系统技术方案

技术编号:8300943 阅读:148 留言:0更新日期:2013-02-07 04:35
本发明专利技术涉及一种文本信息识别方法及系统,该方法包括如下步骤:客户端获取包含文本信息的图像,并将图像发送至云服务器;云服务器接收图像,对图像进行处理,提取出图像中文本信息的字符;对字符进行处理,获取字符的特征;根据字符的特征,查询设置在云服务器上特征库,与特征库中的字符进行特征匹配,对字符进行识别,进而识别文本信息;云服务器将识别的文本信息发送至客户端。本发明专利技术客户端将图像上传至云服务器,识别过程和云服务器均在云服务器上进行,云服务器具有强大的计算能力和扩展能力,性能能够满足特征库的要求,使得特征库和识别能力不受用户计算机的限制,从而能够准确的对文本信息进行识别,简单、高效、识别率大大提高。

【技术实现步骤摘要】
文本信息识别方法及系统
本专利技术涉及一种信息处理技术,尤其涉及一种文本信息识别方法及系统。
技术介绍
目前,纸质文档或者图片上的文本信息,不能直接使用,在使用时需要手动输入才可。为替代手动输入,通常米用OCR (Optical Character Recognition光学字符识别)技术对文本信息进行识别。但是,传统的OCR技术,用户在使用时,需要安装一个庞大的客户端软件,并要求进行识别的计算机硬件具备足够的处理性能。OCR技术主要面对的是纸质材料,识别场景需要考虑很多问题,因此识别率会受到复杂因素的制约。识别率的核心技术指标是特征库。 由于用户计算机硬件及处理器性能通常不具备足够要求,识别能力和特征库都受到用户计算机性能的限制,大大降低了 OCR技术对文本信息的识别率,不能准确的识别文本信息。同时,在对文本信息识别后还需要进行纠错。由于纠错的能力取决于特征库的信息量,特征库受到本机性能的限制,从而大大限制了纠错的能力,使得识别率进一步降低。
技术实现思路
有鉴于此,有必要提供一种识别率高的文本信息识别方法。此外,提供一种识别率高的文本信息识别系统。一种文本信息识别方法,包括如下步骤客户端获取包含文本信息的图像,并将所述图像发送至云服务器;所述云服务器接收所述图像,对所述图像进行处理,提取出所述图像中文本信息的字符;所述云服务器对所述字符进行处理,获取字符的特征;所述云服务器根据所述字符的特征,查询设置在所述云服务器上特征库,与特征库中的字符进行特征匹配,对字符进行识别,进而识别文本信息;所述云服务器将识别的文本信息发送至客户端。一种文本信息识别系统,包括客户端与云服务器,所述客户端用于获取包含文本信息的图像,并将所述图像发送至所述云服务器;所述云服务器包括收发服务器,用于接收所述图像;图像处理服务器,用于对所述图像进行处理,提取出所述图像中文本信息的字符;字符处理服务器,用于对所述字符进行处理,获取字符特征;特征库服务器,根据所述字符的特征,查询设置在特征库服务器上特征库,与特征库中的字符进行特征匹配,对字符进行识别,进而识别文本信息;特征库服务器将识别的文本信息交由收发服务器,收发服务器将识别的文本信息发送至所述客户端。上述文本信息识别方法及系统,客户端将图像上传至云服务器,识别过程和云服务器均在云服务器上进行,云服务器具有强大的计算能力和扩展能力,性能能够满足特征库的要求,使得特征库和识别能力不受用户计算机的限制,从而能够准确的对文本信息进行识别,简单、高效、识别率大大提高。用户只需通过客户端上传图像即可,云服务器便可同时为海量用户提供服务,极大方便了用户使用。附图说明图I是一个实施例中文本信息识别方法的流程图;图2是一个实施例中云服务器对图像进行处理,提取出图像中文本信息的字符的方法流程图;图3是一个实施例中文本信息识别系统的结构示意图;图4是一个实施例中图像处理服务器的结构示意图。 具体实施方式下面结合附图,对本专利技术的具体实施方式进行详细描述。图I是一个实施例中文本信息识别方法的流程图。该方法包括SlO :客户端获取包含文本信息的图像,并将图像发送至云服务器。该方法所识别的对象为具有文本信息的图像,对图像中的文本信息进行识别。客户端获取的具有文本信息的图像为通过对具有文本信息的纸质或者其他介质文档进行扫描获得,或者为直接的图像,也可以为截取屏幕内容的截屏图像等等。在优选的实施方式中,客户端获取的具有文本信息的图像为即时通讯软件截取屏幕内容所获得的截屏图像,将截像中的文本信息识别出,使文本信息可直接使用,无需将截像中的文本信息手动输入。客户端通过浏览器上传的方式将图像上传到云服务器。S20:云服务器接收图像,对图像进行处理,提取出图像中文本信息的字符。文本信息由多个字符组成,识别文本信息需要将文本信息的每个字符提取出来。云服务器可以为云计算平台,也可以为包含多个计算节点的计算网络或者多个服务器。云服务器具有强大的扩展能力、庞大的计算能力以及海量存储能力,能够同时接收大量客户端传送的图像,同时为海量用户提供服务。图2是一个实施例中云服务器对图像进行处理,提取出图像中文本信息的字符的方法流程图。该实施例中,云服务器接收图像,对图像进行处理,提取出图像中文本信息的每个字符的步骤具体包括S21 :对图像以设定亮度值为标准进行二值化处理,将图像变为黑白图像。通常,图像为彩色,具有多种颜色,文本信息的字符颜色多为亮度值比较暗的颜色,为利于将图像中的文本信息的每个字符提取出来,需要将图像进行二值化处理,将图像变为黑白图像,将字符颜色变为黑色。具体过程为云服务器将图像中的颜色亮度值大于设定亮度值的转换为白色,反之转换为黑色。设定亮度值可根据需要可进行调整。但是,由于一些情形下,图像存在背景为黑色,文本信息为白色的情况,即黑底白字的情况。为避免这种情况影响文本信息的识别,进一步,该步骤还包括云服务器对图像背景色进行判断,将背景为黑色、文本信息为白色的图像转换为背景为白色、文本信息为黑色的图像的步骤,即将黑底白字的图像转换为白底黑字的图像。S22 :对黑白图像连续像素区域进行扫描,获取字符区域。在整个黑白图像中,并非所有区域都为字符,可能存在非字符的区域,这就需要将非字符的区域去除,只获取字符区域。该实施例中,对黑白图像连续像素区域进行扫描,获取字符区域的步骤具体为扫描黑白图像黑像素点的连续性,根据黑像素点的连续性去除非字符区域,获取字符区域。由于字符的像素点具有一定连续性,并且较大的连续块和较小的连续块都不是字符,从而根据黑像素点的连续性能够去除非字符区域,获取字符区域。同时,根据字符本身特征,如像素点的分布密度、规程程度、大小等,还可进一步去除非字符区域。 S23 :对字符区域进行断行列操作,将字符提取出来。考虑到字符区域大都是规则的按照行列排列的,因此根据规则的行列特征,对字符区域进行断行列操作,将单个字符分裂出来,从而将每个字符提取出来。该实施例中,对字符区域进行断行列操作,将字符提取出来的步骤具体为首先对字符区域进行行行分割,再对每行进行列列分割,分割开单个字符,将每个字符提取出来。此外,为保证图像格式为云服务器进行识别所要求格式,云服务器接收图像,对图像进行处理,提取出图像中文本信息的每个字符的步骤还包括检测图像的格式,若图像的格式不为要求格式,则将图像的格式转换为要求格式的步骤。在优选的实施方式中,要求格式为BMP格式。S30 :云服务器对字符进行处理,获取字符的特征。该实施例中,字符的特征为字符的大小以及字符像素点的数量。由于多个字符存在字号的区别,相同字号的字符又存在粗体和细体的区别。为便于识别字符,减少工作量,云服务器需要对每个字符进行处理,具体的处理方法为对字符进行细化,抽取每个字符的骨架,获取字符的像素点,提取字符的骨架即是用最少的像素点来表示该字符;将每个字符均缩放到设定大小,获取字符的大小。S40:云服务器根据字符的特征,查询设置在云服务器上的特征库,与特征库中的字符进行特征匹配,对字符进行识别,进而识别文本信息。特征库预先建立好,并设置在云服务器上的。特征库中包含了字符集中所有的字符,还包含了每个字符的多种变化。例如字体的变化宋体,楷体等;还有矢量的变化例如斜体等。还有字体大本文档来自技高网...

【技术保护点】
一种文本信息识别方法,包括如下步骤:客户端获取包含文本信息的图像,并将所述图像发送至云服务器;所述云服务器接收所述图像,对所述图像进行处理,提取出所述图像中文本信息的字符;所述云服务器对所述字符进行处理,获取字符的特征;所述云服务器根据所述字符的特征,查询设置在所述云服务器上特征库,与特征库中的字符进行特征匹配,对字符进行识别,进而识别文本信息;所述云服务器将识别的文本信息发送至客户端。

【技术特征摘要】

【专利技术属性】
技术研发人员:张富春
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1