【技术实现步骤摘要】
图像处理装置、方法、存储介质
[0001]本专利技术涉及用于生成图像中包含的字符串的文本文件的图像处理装置、方法以及存储介质。
技术介绍
[0002]众所周知,印有文档的纸张可以通过扫描、OCR等字符识别,把该文档的内容转换为Office Open XML Document格式文件的处理。通过这种处理,由于纸张上的文档可以转换为文本数据文件,因而,通过个人电脑等可以对文档进行重新编辑。
[0003]目前,已经开发了用于在上述处理中提高识别文件内字符串精度的技术。如专利第5538812号公报(专利文献1)公开了一种基于受到扫描的稿件的文字得字体和大小来补偿文字识别结果的技术。
[0004]但是,如图9所示,以专利文献1为首的现有技术在某些情况下会无法根据文件内字符串的构成恰当地生成文本文件。图9是一例用现有技术生成图像中包含的字符串的文本文件的示意图。其中,(a)是将要转换为文本文件对象的纸张,是一例印有以两个栏目构成的文件的纸张。
[0005]在此,扫描图9的(a)所示的纸张,生成文本文件后,有时会生 ...
【技术保护点】
【技术特征摘要】
1.一种图像处理装置,其中包括设定单元,用于根据从图像中提取的多个字符串的位置关系,设定所述多个字符串各自的布置方法;以及生成单元,用于根据所述设定单元设定的所述布置方法,生成所述图像的字符串的文本文件。2.根据权利要求1所述的图像处理装置,其中,所述设定单元设定,把字符串作为文本框布置或把字符串布置在文档之中。3.根据权利要求2所述的图像处理装置,其中,所述设定单元设定,把具有栏目关系或重叠关系的字符串布置在文本框中。4.根据权利要求2所述的图像处理装置,其中,所述设定单元设定,把既非栏目关系又非重叠关系的字符串布置在文档中。5.根据权利要求1所述的图像处理装置,其特征在于,利用OCR处理或像域分离处理,提取所述图像中包含的字符串。6.根据权利要求1所述的图像处理装置,其特征在于,进一步具有读取单元,用于读取稿件的图像,从所述读取单元所读取的图像中提取所述多个字符串。7.一种用于把包含字符串的图像变换为文本文件的图像处理方法,其中包括设定步骤,根据从图像中提取的多个字符串的位置关系,设定所述多个字符串各自的布置方法;以及生成步骤,根据所述设定单元设定的所述布置方法,生成所述图像的字符串的文本文件。8.根据权利要求7所述的图像处理方法,其中,在所述设定步骤中设定,把字符串作为文本框布置...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。