【技术实现步骤摘要】
文字图像中字符识别方法和识别装置
本专利技术涉及图像处理技术,尤其涉及文字图像中字符识别方法和识别装置。
技术介绍
在对文本资料进行扫描后可以得到该文本资料的文字图像;OCR(OpticalCharacterRecognition,光学字符识别)技术是对文字图像中的字符进行识别后,转换成计算机文字的过程;其一般包括如图1所示的各步骤:S101:获取文字图像后进行预处理。将文本资料通过光学仪器,如影像扫描仪、传真机或任何摄影器材输入到计算机中形成文字图像。随着科技的进步,扫描仪等输入装置已制作的愈来愈精致,轻薄短小、品质也高,对OCR有相当大的帮助,扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。一般来说,输入的图像格式并不唯一,对于不同的图像格式,有着不同的存储格式,不同的压缩方式,这要求计算机在读取图像信息的时候,要对各类常见图像格式具有较好的鲁棒性。对文字图像的预处理一般包括:二值化、去除噪声、斜校正处理等。对文字图像进行二值化:对摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的,更好的识别文字,我们需要先对彩色的文字图像进行处理,使图像只保留前景信息与背景信息,可以简单的定义前景信息为黑色,背景信息为白色,从而生成彩色文字图像的二值化图。对文字图像进行去除噪声处理:对于不同类型的文字图像,我们对噪声的定义可以不同,根据噪声的特征进行去噪,就叫做噪声去除。去除噪声后的文字图像版面更加整洁,文字轮廓边缘更加清晰,辨识度高。对文字图像进行倾斜校正处理:用户在拍照文本资料 ...
【技术保护点】
一种文字图像中字符识别方法,包括:对所述文字图像中切割出的字符,以设定单位进行划分;并对每个设定单位内的字符进行识别:对所述设定单位内的每个字符进行特征提取和特征匹配后,确定每个字符的候选字;针对所述设定单位内的每个字符,确定该字符的每个候选字的相似度、以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率;根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果。
【技术特征摘要】
1.一种文字图像中字符识别方法,其特征在于,包括:对所述文字图像中切割出的字符,以设定单位进行划分;并对每个设定单位内的字符进行识别;其中,对于一个设定单位,确定该设定单位内的字符的识别结果的方法流程,具体包括如下步骤:对所述设定单位内的每个字符进行特征提取和特征匹配后,确定每个字符的候选字;针对所述设定单位内的每个字符,确定该字符的每个候选字的相似度、以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率;根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果;其中,所述识别结果还根据所述设定单位内的每个字符的每个候选字的出现概率确定;以及所述根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果,以及所述识别结果还根据所述设定单位内的每个字符的每个候选字的出现概率确定,具体包括:对于该设定单位内的第1个字符的候选字的维特比概率,根据该候选字的相似度、和/或该候选字的出现概率确定;从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、出现概率、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率;在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一;以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。2.如权利要求1所述的方法,其特征在于,所述根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果具体包括:确定该设定单位内的第1个字符的候选字的维特比概率为该候选字的相似度;从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率;在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一;以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。3.如权利要求2所述的方法,其特征在于,所述根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率,具体根据如下公式5或4:Pv=P2×R×Pv'(公式5)logPv=b×logP2+c×logR+d×logPv'(公式4)其中,Pv为所述当前候选字与所述在前候选字之间的维特比概率;P2为所述在前候选字与所述当前候选字之间的转移概率;R为所述当前候选字的相似度;Pv'为所述在前候选字的维特比概率;logPv、logP2、logR、logPv'分别为对Pv、P2、R、Pv'取对数后得到的值;b、c、d分别为设置的权重值。4.如权利要求1所述的方法,其特征在于,所述根据该候选字的相似度、出现概率、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率,具...
【专利技术属性】
技术研发人员:郝双,
申请(专利权)人:新浪网技术中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。