词语识别方法及装置制造方法及图纸

技术编号:10127596 阅读:158 留言:0更新日期:2014-06-12 19:54
本发明专利技术的实施方式提供了提供一种词语识别方法,包括:从文本行中分离出词语;将该词语作为一个整体,提取该词语的字符特征;使用具有词库的分类器识别该词语的字符特征,若该字符特征与词库中的词语匹配,则输出词库中对应的该词语。该方法提高了常用词语的识别成功率和识别效率,避免了字符拆分可能引起的错误和耗费的时间。

【技术实现步骤摘要】
【专利摘要】本专利技术的实施方式提供了提供一种词语识别方法,包括:从文本行中分离出词语;将该词语作为一个整体,提取该词语的字符特征;使用具有词库的分类器识别该词语的字符特征,若该字符特征与词库中的词语匹配,则输出词库中对应的该词语。该方法提高了常用词语的识别成功率和识别效率,避免了字符拆分可能引起的错误和耗费的时间。【专利说明】词语识别方法及装置
本专利技术的各实施方式涉及词语识别方法及装置。
技术介绍
在对词语进行光学字符识别时,通常先将词语通过各种拆分方法拆分为多个文字,然后对每个文字分别进行识别。这种方法一方面速度较慢,另一方面,对文本行进行拆分也存在一些问题。例如,由于全角字符和半角字符的混合,以及中英文、数字的混合,导致一个文本行中各个有意义的字符的宽度不一致,这使得对文本行拆分时很容易将一个字符拆成两个部分,或将不属于一个字符的多个连通域拆分成一个字符,从而为文字和词语的识别带来困难。
技术实现思路
鉴于上述原因,本专利技术提供一种词语识别方法及装置。根据本专利技术的一个方面,提供一种词语识别方法,包括:从文本行中分离出词语;将该词语作为一个整体,提取该词语的字符特征;使用具有词库的分类器识别该词语的字符特征,若该字符特征与词库中的词语匹配,则输出词库中对应的该词语。根据本专利技术的另一方面,通过估计词语的识别置信度来判断该字符特征与词库中的词语的匹配程度。根据本专利技术的另一方面,使用标点符号或空格来从文本行中分离出词语。根据本专利技术的另一方面,该字符特征是该词语的梯度方向直方图。 根据本专利技术的另一方面,当该字符特征与词库中的所有词语都不匹配时,将该词语切分为单个字符进行识别。根据本专利技术的另一方面,提供一种词语识别装置,包括:词语分离单元,用于从文本行中分离出词语;字符特征提取单元,用于将该词语作为一个整体,提取该词语的字符特征;词语分类器单元,其具有词库,用于识别该词语的字符特征,若该字符特征与词库中的词语匹配,则输出词库中对应的该词语。根据本专利技术的另一方面,词语分类器单元通过估计词语的识别置信度来判断该字符特征与词库中的词语的匹配程度。根据本专利技术的另一方面,词语分离单元使用标点符号或空格来从文本行中分离出词语。根据本专利技术的另一方面,该字符特征是该词语的梯度方向直方图。根据本专利技术的另一方面,还包括单字符识别单元,当该字符特征与词库中的所有词语都不匹配时,单字符识别单元将该词语切分为单个字符进行识别。通过使用词语分类器首先对整个词语的字符特征进行识别,提高了常用词语的识别成功率和识别效率,避免了字符拆分可能引起的错误和耗费的时间。【专利附图】【附图说明】当结合附图阅读下文对示范性实施方式的详细描述时,这些以及其他目的、特征和优点将变得显而易见,在附图中:图1是根据本专利技术优选实施例的词语识别方法的流程图;图2是适于用来实践本专利技术实施方式的词语识别装置的示意性框图;图3是用来实践本专利技术实施方式的移动终端的示意性框图。【具体实施方式】附图中的流程图和框图,图示了按照本专利技术各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。现在将仅通过示例性方式来详细地描述本专利技术的各种实施方式。图1是根据本专利技术优选实施例的一词语识别方法的流程图。该方法具体包括下列步骤:首先执行步骤S11,从文本行中分离出词语。可以通过标点符号或空格将每个词从文本行中分离出来。此时分离出来的是每个词所包含的像素点,而并不了解每个词的含义。然后执行步骤S12,将该词语作为一个整体,提取该词语的字符特征。该词语的字符特征应当是能被光学字符识别引擎所识别的特征。优选地,该字符特征是该词语的梯度方向直方图。梯度方向直方图作为图像识别领域的一个已知的图像描述特征,能够体现图像中的各像素点的梯度大小和方向的分布规律,从而为该图像的识别提供一个很好的描述特征。可以通过各种已知的算法计算该词语的图像的梯度方向直方图。应当注意的是,由于词语的宽度是不确定的,因而计算梯度方向直方图时统计的每个词语的像素点的数量也是不确定的。从步骤Sll中分离出来的词语包含多少像素,则将这个词语的图像作为一个整体,统计该图像中的所有像素的梯度方向直方图,从而获得整个词语的字符特征。这与识别单个字符时相对固定的像素数量是不同的。当提取完词语的字符特征后,便可以执行步骤S13,使用具有词库的分类器识别该词语的字符特征。该词库中存储有一定数量的常用词语及其对应的字符特征。若输入的字符特征与词库中的某个词语的字符特征匹配,则输出词库中对应的该词语,从而该词语的含义被识别。可以使用各种分类器来对字符特征进行识别。优选使用SVM分类器。优选通过一定数量的字符特征样本来对SVM分类器进行训练,使该分类器对词库中的每个词语的字符特征的识别达到一定的准确度。具体地,对每一个期望被识别的词语,选择一定数量的词语的图像,包括一定范围的清晰度和噪声下的该词语的图像作为样本,计算这些样本的字符特征,例如梯度方向直方图。使用这些样本对SVM分类器进行训练,使该分类器被校准为在被识别的词语的字符特征与训练样本均值特征的相似度达到一定程度,即该字符特征符合该词语的置信度达到一预定值时,即将该输入的字符特征代表的词语认定为词库中的该训练样本所表示的词语,并将其输出。可以通过各种已知算法对SVM分类器进行训练,在此不再赘述。可以根据需要对分类器词库中增加字符特征及其对应的词语,以增加该分类器能够识别的词语。由于词语包含的像素比单个字符包含的像素多,计算整个词语的字符特征因而能获得更大的统计样本,从而使得不同词之间的字符特征的差异更明显,其中包含的噪声和误差更小,更有利于分类器对字符特征的准确识别。同时,该方法也避免了对词语再次进行拆分所带来的错误和时间的耗费,提高了识别的准确率和效率。优选地,当输入的词语的字符特征与词库中的所有词语都不匹配时,将该词语切分为单个文字进行识别。也就是说,分类器的词库中没有与该词语的图像中的字符特征相匹配时,说明书词库中没有存储该词语,则回到通常的字符识别方式,将该词语的图像再按照现有的方法切分为单个的字符,然后对每个单个的字符使用通常的分类器进行识别,从而使得整个词语被识别出来。该词语识别方法适于通过计算机程序来实现。图2是适于用来实践本专利技术实施方式的词语识别装置的示意性框图。在图2中,词语识别装置200包括:词语分离单元201,用于从文本行中分离出词语;字符特征提取单元202,用于将该词语作为一个整体,提取该词语的字符特征;词语分类器单元203,其具有词库,用于识别该词语的字符特征,若该字符特征与词库中的词语匹配,则输出词库中本文档来自技高网...

【技术保护点】
一种词语识别方法,包括:从文本行中分离出词语;将该词语作为一个整体,提取该词语的字符特征;使用具有词库的分类器识别该词语的字符特征,若该字符特征与词库中的词语匹配,则输出词库中对应的该词语。

【技术特征摘要】

【专利技术属性】
技术研发人员:郑大念
申请(专利权)人:北京千橡网景科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1