词语识别方法及装置制造方法及图纸

技术编号：10127596 阅读：158 留言：0更新日期：2014-06-12 19:54

本发明专利技术的实施方式提供了提供一种词语识别方法，包括：从文本行中分离出词语；将该词语作为一个整体，提取该词语的字符特征；使用具有词库的分类器识别该词语的字符特征，若该字符特征与词库中的词语匹配，则输出词库中对应的该词语。该方法提高了常用词语的识别成功率和识别效率，避免了字符拆分可能引起的错误和耗费的时间。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术的实施方式提供了提供一种词语识别方法，包括：从文本行中分离出词语；将该词语作为一个整体，提取该词语的字符特征；使用具有词库的分类器识别该词语的字符特征，若该字符特征与词库中的词语匹配，则输出词库中对应的该词语。该方法提高了常用词语的识别成功率和识别效率，避免了字符拆分可能引起的错误和耗费的时间。【专利说明】词语识别方法及装置
本专利技术的各实施方式涉及词语识别方法及装置。
技术介绍
在对词语进行光学字符识别时，通常先将词语通过各种拆分方法拆分为多个文字，然后对每个文字分别进行识别。这种方法一方面速度较慢，另一方面，对文本行进行拆分也存在一些问题。例如，由于全角字符和半角字符的混合，以及中英文、数字的混合，导致一个文本行中各个有意义的字符的宽度不一致，这使得对文本行拆分时很容易将一个字符拆成两个部分，或将不属于一个字符的多个连通域拆分成一个字符，从而为文字和词语的识别带来困难。
技术实现思路
鉴于上述原因，本专利技术提供一种词语识别方法及装置。根据本专利技术的一个方面，提供一种词语识别方法，包括:从文本行中分离出词语；将该词语作为一个整体，提取该词语的字符特征；使用具有词库的分类器识别该词语的字符特征，若该字符特征与词库中的词语匹配，则输出词库中对应的该词语。根据本专利技术的另一方面，通过估计词语的识别置信度来判断该字符特征与词库中的词语的匹配程度。根据本专利技术的另一方面，使用标点符号或空格来从文本行中分离出词语。根据本专利技术的另一方面，该字符特征是该词语的梯度方向直方图。根据本专利技术的另一方面，当该字符特征与词库中的所...

【技术保护点】
一种词语识别方法，包括：从文本行中分离出词语；将该词语作为一个整体，提取该词语的字符特征；使用具有词库的分类器识别该词语的字符特征，若该字符特征与词库中的词语匹配，则输出词库中对应的该词语。

【技术特征摘要】

【专利技术属性】
技术研发人员：郑大念，
申请(专利权)人：北京千橡网景科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人