文本图像中切分词的方法及使用该方法的识别装置制造方法及图纸

技术编号:3849044 阅读:210 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种文本图像中切分词的方法及使用该方法的识别装置,属于图像处理领域。本方法包括:由参数分析单元对输入的字符信息进行参数分析;根据所述分析所得的字符信息进行预处理;计算字符间距数组;所述字符间距数组进行模板卷积平滑得到平滑数组;运算单元计算间距数组与平滑数组对应位置的差值,根据所述差值与预先设定的阈值相比进行空格的判断;对判断得到的空格进行后处理。对应识别装置由参数分析单元、字符识别单元、数据传输单元、预处理单元、运算单元、比较判断单元和后处理单元组成,该方法求取局部峰值作为选取依据,字符所在区域进行的预处理提高了倾斜字体的切分的准确性,在复杂的字符排版的过程中方便了通用阈值的选取。

【技术实现步骤摘要】

本专利技术属于图像处理领域,涉及一种在文本图像中的切分词的方法。
技术介绍
OCR技术的一般流程为版面分析、行切分、字符切分、单字识别、后处理,如果进行 识别的是以词为单位书写的语种,在进行单字识别之后还需进行单词的切分,进行单词切 分主要是根据字符之间的间距来判断的,如果间距较大,则这个位置有可能是一个空格,空 格之后的字符则是单词的首个字符。通常情况下,我们可以根据字符间距的统计信息估计一个阈值,根据阈值来判断 某个字符之前是否存在空格,如果某个字符之前的间距大于阈值,则认为该字符之前是空 格,该字符是一个单词的起始字符,但在应用中可能会出现很多情况。如果一行文字中存在倾斜字体,这时倾斜字体的文字所占的区域往往是重叠的, 导致两个字符所占区域的间隔不真实,很难判断哪个间隔是一个空格。如图1第一行中的 "of flight”,两个f之间的空格就被第一个f的顶部和第二个f的底部遮盖。如果字符排版疏密程度不统一,这时通用阈值不容易选取,空格也较难判断。而且 如果一行中可能有字体较大的字和字体较小的字,字体较大的字所在的词间的空格与字体 较小的字所在的词间的空格差距较大时,容易造成混淆。如图2所示的文字中,左边较大字 体的词间空格最小为10像素,右边较小字体的词间空格平均为5像素,而左边较大字体字 符之间的间距很多都大于5像素,所以如果取统一阈值的话,将会得到错误的切分结果。
技术实现思路
本专利技术提供了文本图像中切分词的方法及使用该方法的识别装置,求取字符间隔 值数列的局部峰值作为可能的空格位置,字符所在区域进行的预处理提高了倾斜字体的切 分的准确性,在复杂的字符排版的过程中方便了通用阈值的选取。本专利技术涉及文本图像中切分词的方法,包括如下步骤步骤(1),由参数分析单元对输入的一行字符中的字符信息进行参数分析。步骤(2),分析所得的字符信息传输至预处理单元,由预处理单元根据所述分析所 得的字符信息进行预处理。步骤(3),运算单元根据预处理后的字符信息计算字符间距,形成字符间距数组。步骤(4),运算单元对所述字符间距数组进行基于模板卷积的平滑滤波,得到平滑 数组。步骤(5),运算单元计算字符间距数组与平滑数组对应位置的差值,由比较判断单 元根据所述差值与预先设定的阈值相比进行空格的判断。步骤(6),由后处理单元对判断得到的空格进行后处理。进一步,该方法还包括,步骤(1)中所述输入的一行字符由字符识别系统识别后 输入。4进一步,该方法还包括,其特征在于,所述参数包括字符间距的平均值、字符宽高 比的平均值和字符宽度的平均值。进一步,该方法还包括,进一步,该装置还包括,所述预处理包括根据字符信息调 整字符区域的左右边界。进一步,该方法还包括,所述字符区域为能完全包含该字符的最小的矩形框。进一步,该方法还包括,所述预处理包括对于倾斜字体的字符,缩紧其矩形框,取 字符在四线三格之中的中间格所占的区域作为新的字符区域。进一步,该方法还包括,取字符在四线三格之中的中间格所占的区域的方法包括 首先得到小写字母3、(3、6、111、11、0、1~、8、111、^1和2字符的上下轮廓,然后通过对所述 字符的上轮廓点和下轮廓点进行最小二乘法拟合得到构成中间一格的四线中的第二条线 和第三条线。进一步,该方法还包括,所述预处理包括对于窄字符,拉伸其矩形框,将其矩形框 的左边界减去平均字符间距的1/3,其矩形框的右边界加上平均字符间距的1/3。进一步,该方法还包括,该装置还包括,所述窄字符是宽高比小于平均宽高比的 1/3的字符。进一步,该方法还包括,步骤(3)中所述字符间距等于当前字符区域的左边界与 前一字符区域右边界之间的距离。进一步,该方法还包括,所述模板根据经验所得,优选的模板可以取(0. 25,0. 5, 0. 25)。进一步,该方法还包括,如果步骤(5)中所述差值大于所述阈值,所述差值对应的 位置即判断为一空格。进一步,该方法还包括,所述后处理包括如下步骤步骤61由后处理单元计算差值数组中所有空格位置所对应差值的平均值,如果 某个空格位置的差值小于平均值的2/3,则认为该位置不是一个空格。步骤62由后处理单元计算间距数组中所有空格位置所对应间距的平均值,如果 某个空格位置的间距小于平均值的2/3,则认为该位置不是一个空格,转回步骤61 ;如果所 有空格位置的间距都大于或等于平均值的2/3,则返回切分结果。文本图像识别的装置,该装置包括字符识别单元,用于识别文本图像中的字符, 并将识别的字符输出;还包括参数分析单元,对由所述字符识别单元输入的一行字符中的字符信息进行参数分 析;数据传输单元,将所述已分析的字符信息传输至预处理单元;预处理单元,根据所述已分析的字符信息进行预处理;运算单元,根据预处理后的字符信息计算字符间距,形成字符间距数组,对所述字 符间距数组进行基于模板卷积的平滑滤波,得到平滑数组;计算所述字符间距数组与所述 平滑数组对应位置的差值;比较判断单元,根据所述差值与预先设定的阈值相比进行空格的判断;后处理单元,对判断得到的空格进行后处理。本专利技术所述的切分词的方法,与现有技术相比其优点在于1本专利技术所采用的预处理,对倾斜字体取其四线三格中间一格的字符所占的区域 作为新的字符区域,这样防止了倾斜字符顶部或底部对字符间距的遮挡,有效的解决了倾 斜字体带来的问题。2本专利技术利用字符间距局部峰值的方法来确定空格,很好的解决了一行中字符排 版过密和一行中多种字体所带来的问题。附图说明图1为一行中存在倾斜字体的文本图像;图2为一行中有字体大小不同文字的文本图像;图3为本专利技术实施例的文本行的二值图像;图4为本专利技术一种图像中切分词的方法的流程图;图5为本专利技术实施例中对字符信息进行预处理;图6为本专利技术实施例中对切分结果进行后处理;图7a为本专利技术实施例中文本区域的四线三格图;图7b为本专利技术实施例中倾斜字符顶部或底部遮盖住空格的情况。具体实施例方式为了能更清楚地理解本专利技术的
技术实现思路
,特举以下实施例详细说明。本专利技术中文本图像中的切分词的方法,是为了与自然语言理解领域词语切分或分 词区分。该方法适用于以词为单位书写的语种,如英文,德文等。本专利技术的实施例为对如图3所示图像进行切分词,该实施例的工作流程如图4所 示,其处理过程包括如下步骤步骤1,使用参数分析单元对由字符识别系统识别后输入的一行字符中的字符信 息进行参数分析,所述参数包括字符间距的平均值、字符宽高比的平均值和字符宽度的平 均值等。字符信息包括字符所在的矩形区域,是否是倾斜字体等信息。例如图3所示的文 本区域,通过参数分析单元的分析可知其字符间距的平均值为3像素,字符宽高比的平均 值为0. 73,字符宽度的平均值为16像素。步骤2,分析所得的字符信息传输至预处理单元,由预处理单元根据所述分析所得 的字符信息进行预处理。预处理单元的预处理包括根据已分析的字符信息调整字符所占矩 形区域的左右边界。步骤21对于倾斜字体的字符,缩紧其字符区域。如图7a所示,取字符在四线三格 之中的中间一格所占的区域作为新的字符区域,这样做可以避免倾斜字符顶部或底部遮盖 住空格,如图7b中的‘f’和‘t’。其中求取四线三格中间一格的位置的方法可以如下,首先 得到小写字母a、c、e、m、η、O、r、s、t本文档来自技高网
...

【技术保护点】
一种文本图像中切分词的方法,其特征在于,包括:步骤(1),由参数分析单元对输入的一行字符中的字符信息进行参数分析;步骤(2),分析所得的字符信息传输至预处理单元,由预处理单元根据所述分析所得的字符信息进行预处理;步骤(3),运算单元根据预处理后的字符信息计算字符间距,形成字符间距数组;步骤(4),运算单元对所述字符间距数组进行基于模板卷积的平滑滤波,得到平滑数组;步骤(5),运算单元计算字符间距数组与平滑数组对应位置的差值,由比较判断单元根据所述差值与预先设定的阈值相比进行空格的判断;步骤(6),由后处理单元对判断得到的空格进行后处理。

【技术特征摘要】

【专利技术属性】
技术研发人员:王琛刘正珍
申请(专利权)人:汉王科技股份有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1