文档图像的处理装置、方法以及扫描仪制造方法及图纸

技术编号:13405880 阅读:81 留言:0更新日期:2016-07-25 09:34
本发明专利技术实施例提供一种文档图像的处理装置、方法以及扫描仪,其中,该装置包括:读取单元,读取文档图像,获得所述文档图像中的所有文本行;检测单元,检测所述读取单元获得的所有文本行中每个文本行的邻近区域中的直线;第一确定单元,确定所述检测单元检测到的每条直线的性质是上划线还是下划线;第二确定单元,根据所述第一确定单元确定的每条直线的性质,确定所有文本行的类别;排序单元,根据所述第二确定单元确定的所有文本行的类别,对所有文本行进行排序;处理单元,对所述排序单元排序后的文本行进行处理。能够不依赖于文本的语种、简单快速的实现印刷体文本行与手写体文本行的分离,从而有效的提高处理的准确度。

【技术实现步骤摘要】

本专利技术涉及图像处理领域,尤其涉及一种文档图像的处理装置、方法以及扫描仪
技术介绍
在使用很多对文档图像的处理功能时,都需要对文本行进行分类和排序,再进行相应的处理。例如,在进行文本的定向检测或文本的语种识别时,首先检测出文本行,然后使用光学字符识别(OCR,OpticalCharacterRecognition)或其他方法,并根据某种投票策略确定文本行的排版方向或文本的语种。其中,由于在使用光学字符识别或其他方法进行识别时,印刷体文本行的识别精度远高于手写体文本行,优先使用印刷体文本行进行识别。因此,将印刷体文本行与手写体文本行进行分离显得非常重要。目前,通常提取并利用图像的特征来实现印刷体文本行与手写体文本行的分离。应该注意,上面对技术背景的介绍只是为了方便对本专利技术的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的
技术介绍
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
技术实现思路
如果采用现有的提取并利用图像特征的方法来进行印刷体文本行与手写体文本行的分离,计算量较大且处理过程较为复杂,例如,当待处理的文档包括了多种语言时,样本的收集将非常的困难,并且,不同语种之间的特征差异将导致现有的方法更加复杂和困难。本专利技术实施例提供一种文档图像的处理装置、方法以及扫描仪,利用文档图像中的下划线和上划线对文本行进行分类和排序,能够不依赖于文本的语种、简单快速的实现印刷体文本行与手写体文本行的分离,从而有效的提高处理的准确度。根据本专利技术实施例的一个方面,提供一种文档图像的处理装置,包括:读取单元,所述读取单元用于读取文档图像,获得所述文档图像中的所有文本行;检测单元,所述检测单元用于检测所述读取单元获得的所有文本行中每个文本行的邻近区域中的直线;第一确定单元,所述第一确定单元用于确定所述检测单元检测到的每条直线的性质是上划线还是下划线;第二确定单元,所述第二确定单元用于根据所述第一确定单元确定的每条直线的性质,确定所有文本行的类别;排序单元,所述排序单元用于根据所述第二确定单元确定的所有文本行的类别,对所有文本行进行排序;处理单元,所述处理单元用于对所述排序单元排序后的文本行进行处理。根据本专利技术实施例的另一个方面,提供一种扫描仪,所述扫描仪包括根据上述一个方面所述的文档图像的处理装置。根据本专利技术实施例的又一个方面,提供一种文档图像的处理方法,包括:读取文档图像,获得所述文档图像中的所有文本行;检测所有文本行中每个文本行的邻近区域中的直线;确定每条直线的性质是上划线还是下划线;根据确定的每条直线的性质,确定所有文本行的类别;根据确定的所有文本行的类别,对所有文本行进行排序;对排序后的文本行进行处理。本专利技术的有益效果在于:通常,在文本中设置下划线以供用户在该下划线的上方进行书写,因此,通过检测文档图像中的直线并确定这些直线的性质是上划线还是下划线,并根据这些直线的性质确定所有文本行的类别并进行排序,从而能够不依赖于文本的语种、简单快速的实现印刷体文本行与手写体文本行的分离,从而有效的提高处理的准确度。参照后文的说明和附图,详细公开了本专利技术的特定实施方式,指明了本专利技术的原理可以被采用的方式。应该理解,本专利技术的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本专利技术的实施方式包括许多改变、修改和等同。针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。附图说明所包括的附图用来提供对本专利技术实施例的进一步的理解,其构成了说明书的一部分,用于例示本专利技术的实施方式,并与文字描述一起来阐释本专利技术的原理。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。在附图中:图1是本专利技术实施例1的文档图像的处理装置100的组成示意图;图2是本专利技术实施例1的检测单元102的组成示意图;图3是本专利技术实施例1的文档图像300的一示意图;图4是将图3的文档图像300旋转了180度后的文档图像400的一示意图;图5是将图3的文档图像300向右旋转90度后的文档图像500的一示意图;图6是将图3的文档图像300向左旋转90度后的文档图像600的一示意图;图7是本专利技术实施例2的扫描仪700的系统构成的一示意框图;图8是本专利技术实施例3的文档图像的处理方法的流程图。具体实施方式参照附图,通过下面的说明书,本专利技术的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本专利技术的特定实施方式,其表明了其中可以采用本专利技术的原则的部分实施方式,应了解的是,本专利技术不限于所描述的实施方式,相反,本专利技术包括落入所附权利要求的范围内的全部修改、变型以及等同物。实施例1本专利技术实施例提供了一种文档图像的处理装置,图1是本专利技术实施例1的文档图像的处理装置100的组成示意图。如图1所示,该装置100包括:读取单元101,用于读取文档图像,获得该文档图像中的所有文本行;检测单元102,用于检测所有文本行中每个文本行的邻近区域中的直线;第一确定单元103,用于确定检测单元102检测到的每条直线的性质是上划线还是下划线;第二确定单元104,用于根据第一确定单元103确定的每条直线的性质,确定所有文本行的类别;排序单元105,用于根据第二确定单元104确定的所有文本行的类别,对所有文本行进行排序;处理单元106,用于对所述排序单元排序后的文本行进行处理。由上述实施例可知,通过检测文档图像中的直线并确定这些直线的性质是上划线还是下划线,并根据这些直线的性质确定所有文本行的类别并进行排序,从而能够不依赖于文本的语种、简单快速的实现印刷体文本行与手写体文本行的分离,从而有效的提高处理的准确度。在本实施例中,文档图像可利用现有的扫描方法对文档进行扫描而获得,并且,本专利技术实施例对文档的放置方向不进行限制。例如,文档可以是垂直放置的,也可以是水平放置的。在本实施例中,读取单元101通过读取文档图像而获得该文档图像中的所有文本行,例如,可使用基于区域检测的方法获得文档图像中的所有文本行。但本本文档来自技高网...

【技术保护点】
一种文档图像的处理装置,包括:读取单元,所述读取单元用于读取文档图像,获得所述文档图像中的所有文本行;检测单元,所述检测单元用于检测所述读取单元获得的所有文本行中每个文本行的邻近区域中的直线;第一确定单元,所述第一确定单元用于确定所述检测单元检测到的每条直线的性质是上划线还是下划线;第二确定单元,所述第二确定单元用于根据所述第一确定单元确定的每条直线的性质,确定所有文本行的类别;排序单元,所述排序单元用于根据所述第二确定单元确定的所有文本行的类别,对所有文本行进行排序;处理单元,所述处理单元用于对所述排序单元排序后的文本行进行处理。

【技术特征摘要】
1.一种文档图像的处理装置,包括:
读取单元,所述读取单元用于读取文档图像,获得所述文档图像中的所有文本行;
检测单元,所述检测单元用于检测所述读取单元获得的所有文本行中每个文本行
的邻近区域中的直线;
第一确定单元,所述第一确定单元用于确定所述检测单元检测到的每条直线的性
质是上划线还是下划线;
第二确定单元,所述第二确定单元用于根据所述第一确定单元确定的每条直线的
性质,确定所有文本行的类别;
排序单元,所述排序单元用于根据所述第二确定单元确定的所有文本行的类别,
对所有文本行进行排序;
处理单元,所述处理单元用于对所述排序单元排序后的文本行进行处理。
2.根据权利要求1所述的装置,其中,所述检测单元包括:
第一检测单元,所述第一检测单元用于检测所述文本行的方向;
第三确定单元,所述第三确定单元用于根据每个文本行的高度,确定每个文本行
的邻近区域的范围;
第二检测单元,所述第二检测单元用于检测在每个文本行的邻近区域的范围内
的、沿着所述文本行的方向延伸的直线。
3.根据权利要求1所述的装置,其中,所述第一确定单元根据预定规则确定所
述检测单元检测到的每条直线是疑似上划线还是疑似下划线,并根据所有直线中疑似
上划线和疑似下划线的数量确定每条直线是上划线还是下划线。
4.根据权利要求3所述的装置,其中,所述第一确定单元根据每条直线与和所
述直线相邻的文本行的相对位置以及所述直线与所述相邻的文本行的距离,确定每条
直线是疑似上划线还是疑似下划线,计算并比较所有直线中疑似上划线和疑似下划线
的数量,根据比较结果确定每条直线是上划线还是下划线。

【专利技术属性】
技术研发人员:孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1