汉字识别方法和装置制造方法及图纸

技术编号:8191140 阅读:201 留言:0更新日期:2013-01-10 02:01
本发明专利技术提供一种汉字识别装置和方法,该装置包括:第一识别单元用于对文本图像进行切分和识别,以获得识别信息;错误检测单元,用于利用该第一识别单元获得识别信息中图像单元的位置信息和识别编码信息检测错误切分的图像单元;错误修正单元,用于对该错误检测单元检测出的该错误切分的图像单元进行修正;第二识别单元,用于对该错误修正单元修正后的该图像单元进行识别,以获得相应的识别编码信息。通过本发明专利技术实施例,利用对文本图像进行识别后获得的识别信息中的识别编码信息和图像单元位置信息检测错误切分的图像单元并对错误切分的图像单元进行修正,从而可提高识别精度,解决现有技术中存在的问题。

【技术实现步骤摘要】

本专利技术涉及汉字识别技术,特别涉及ー种汉字识别方法和装置
技术介绍
随着光学文字识别(OCR :0ptical Character Recognition)正确率的提高,其应用也越来越广泛,如大量应用于自动化办公中。图I是现有技术中光学识别引擎的结构示意图;图2是利用光学识别引擎的切分模块101对文本图像进行切分后的图像单元的示意图;图3是对切分后的图像单元进行选择的示意图;图4是左右结构的标准汉字的示意图。 如图I所示,该光学识别引擎主要包括切分模块101和识别模块102 ;其中,切分模块101用于将包含多个文字的文本图像(Text Image)切分为图像单元(Segments),如图2所示,利用该文本图像为“信息外围设备”201,切分模块101对文本图像201切分后获得多个图像単元202,如图2所示用竖线分开的各个图像単元202 ;识别模块102用于将切分模块101对文本图像201切分后获得的图像单元202进行识别,以获得可编辑文字(EditableText),如图2所示,获得可编辑的文字203。如图2所示,在切分模块101对文本图像进行切分时,会出现切分错误。例如,有些单本文档来自技高网...

【技术保护点】
一种汉字识别装置,所述装置包括:第一识别单元,所述第一识别单元用于对文本图像进行切分和识别,以获得识别信息;其中,所述识别信息包括对所述文本图像进行切分后获得的多个图像单元在所述文本图像中的位置信息、以及对所述图像单元进行识别所获得的识别编码信息;错误检测单元,所述错误检测单元用于利用所述第一识别单元获得所述识别编码信息和位置信息检测错误切分的图像单元;错误修正单元,所述错误修正单元用于对所述错误检测单元检测出的所述错误切分的图像单元进行修正;第二识别单元,所述第二识别单元用于对所述错误修正单元修正后的所述图像单元进行识别,以获得相应的识别编码信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐文权河源孙俊于浩直井聪
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1