用于从文档图象抽取标题的标题抽取装置及其方法制造方法及图纸

技术编号:2951446 阅读:167 留言:0更新日期:2012-04-11 18:40
一种标题抽取装置扫描文档图象中的黑色象素并抽取外接黑色象素连接区域的矩形区域作为字符矩形。此外,该标题抽取装置一致化邻接的多个字符矩形并抽取外接字符矩形的矩形区域作为字符串矩形。然后,该标题抽取装置利用对应于每一字符串矩形的诸如下划线属性、框架属性、和定界线属性,文档图象中的字符串矩形的位置,以及相互位置关系的属性作为标题的似然性而计算点数,并抽取带有最高点数的字符串矩形作为标题矩形。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及图象数据识别过程,特别涉及用于从作为文档数据所获得的文档图象抽取标题区域的标题抽取装置及其方法。用于从文档图象,即通过诸如扫描仪等光电转换装置从普通文档所获得的图象数据,抽取诸如文档标题之类的局部区域这样的相关技术的对照有(1)从带有固定区域的一文档抽取一标题(如Japanese Patent Laid-Open Publication No.64-46873中所透露的)。(2)利用诸如颜色标记或者轮廓线这种特定的标记手段标记文档的标题部分。通过扫描仪扫描文档并抽取标题部分(如Japanese Patent Laid-Open Publication No.01-150974中所透露的)。(3)诸如文档的字符串或者照片的物理结构表示为树结构等等。通过对树结构作为逻辑结构匹配,物理结构被标记有“标题”、“作者姓名”等等(如同Japanese Patent Laid-Open Publication No.01-183784,05-342326等中所透露的)。(4)指定文档图象部分的区域。对区域内部进行投影并产生黑色象素的直方图。获得被投影的黑色象素数值在两个预定的阈值之间连续的区域。连续的部分的长度超过另一预定阈值的部分被抽取为标题(如同Japanese Patent Laid-Open Publication No.05-274471中所透露的)。此外,用于从包括一个表的文档图象抽取诸如标题的部分区域的以下相关技术对照是已知的。(5)从包括一个表的格式化文档中抽取一个标题(如同JapanesePatent Laid-Open Publication No.07-093348中所透露的)。(6)对文档图象进行投影并产生黑色象素的直方图。从直方图的分布抽取轮廓线。由轮廓线所围绕的字符串被抽取作为标题(如同JapanesePatent Laid-Open Publication No.05-274367中所透露的)。(7)识别文档图象中的所有字符区域的字符。对于所获得的字符代码按语言及逻辑进行诸如关键字对照和模式基本分析的知识处理。从知识处理的结果抽取看上去是标题的字符串(如同Japanese Patent Laid-OpenPublication No.03-276260中所透露的)。(8)由文档图象中白色象素连接部分所围绕的区域被抽取作为表部分。从表的内部抽取定界线。获得由该定界线所围绕的区域。在所获得的区域中的一个图象与预定的字符串(模板)进行模板匹配。于是,抽取相同的字符串作为标题(如同Japanese Patent Laid-Open Publication No.03-74728中所透露的)。然而,这些相关技术对照具有以下问题。在方法(1)和(5)中,只能处理格式化的文档。当格式改变时,要被抽取的部分的赋值也将改变。在方法(2)中标记原始文档是麻烦的。在方法(3)中,要准备一个以三种结构等表示的逻辑结构的辞典。当文档的逻辑结构不包含在该辞典中时,则标题不能被精确地抽取。在方法(4)中,如果这一方法用于文档图象的所有区域,虽然该方法用于分配文档图象的区域是不清楚的,诸如表或者字符大块象素部分不能正确地被抽取作为标题。而且,在仅包含字符的文档中,大字模的字符串是不总是标题。于是标题可能不能正确地被抽取。在方法(6)中,如果包含标题的表由单定界线围绕,则标题能够被抽取。然而由于一个表包含复杂的定界线,标题区域就不能被精确地区分。在方法(7)中,当前可用的字符识别过程占用的时间长。于是,这一方法基本上用作为批处理。此外,由于识别率不是100%,除非使用标题位置的信息,否则会抽取不正确的部分作为标题。在方法(8)中,对于图象的模板匹配处理要用时间。此外,该处理受到模板中所使用的字模的形状和规格的不良影响。并且这一方法中,只能抽取预定的字符串作为标题。于是在这一方法中,可处理的文档类型是有限制的。于是在传统的标题抽取方法中,需要特定的准备或者特定的操作。此外,可由这些方法处理的文档和标题是有限制的。本专利技术的一个目的是提供易于从文档图象抽取标题部分的标题抽取装置及其方法。本专利技术是一种标题抽取方法,包括步骤转换文档为图象数据以便产生文档图象,在文档图象中产生包含由连接的黑色象素组成的黑色象素连接区域的字符区域,至少使得一个字符区域一致化以便产生一个包含该字符区域的一个字符串区域,抽取多个字符串区域的一个特定的字符串区域作为对应于多个字符串区域的属性的一个标题区域,以及识别包含在该标题区域中的字符。于是,标题、地址、及发送者信息的区域易于从各个文档图象中抽取而无需进行特别的操作及使用辞典等等。从图象数据所抽取的字符串等等可用作为图象数据的关键字。如同附图所示,本专利技术的这些及其它目的、特定和优点通过以下对其最佳实施方式的详细说明将变得更为显而易见。附图说明图1是表示本专利技术的理论的框图;图2是表示本专利技术的一个系统的结构的框图;图3是表示用于从文档图象抽取标题的标题抽取过程的操作流程图;图4是表示文档图象数据的示意图;图5是表示字符串抽取过程的操作流程图;图6是表示对其进行了标号处理的外接矩形的示意图;图7是表示高度的直方图示意图;图8是表示用于获得高度的最大频率数值的直方图的示意图;图9是表示矩形高度表的图示;图10是表示对应于矩形高度表的内容的直方图的图示;图11是表示从一个大矩形抽取的段矩形的图示;图12是表示局部段矩形的图示;图13A、13B与13C是表示连接的局部段矩形的图示;图14是表示框矩形的图示;图15是表示重叠的外接矩形的的图示;图16是表示嵌套的外接矩形的的图示;图17是表示等腰三角形的直方图的图示;图18是表示已经除去重叠和嵌套的外接矩形的图示;图19是表示矩形连接关系的图示;图20是表示连接关系表的图示;图21是表示字符串矩形的图示;图22是表示字符串矩形抽取过程的图示;图23是表示所抽取的字符串矩形的图示;图24是表示字符串矩形形成过程的操作流程图;图25是表示清除了噪声的字符串矩形的图示;图26A、26B、26C和26D是表示字符串矩形一致化过程的图示;图27是表示已经一致化的字符串矩形的图示;图28是表示文档区域的图示;图29是表示下划线矩形的图示;图30是表示对其框属性、定界线属性、及下划线属性已经核实的字符串矩形的图示;图31是表示区段抽取过程的操作流程图;图32是表示存在通配符的的情形的区段矩形的图示;图33是表示通配符的图示;图34是表示用于区段抽取过程(No.1)的编码的表;图35是表示用于区段抽取过程(No.2)的编码的表;图36是表示用于区段抽取过程(No.3)的编码的表;图37是表示区段抽取过程(No.1)的详细的操作流程图;图38是表示区段抽取过程(No.2)的详细的操作流程图;图39是表示区段抽取过程(No.3)的详细的操作流程图;图40是表示标题/地址/发送者信息抽取过程的操作流程图;图41A和41B是表示与一个间隔重叠的字符串矩形的图示;图42是表示第一地址抽取过程的操作流程图43是表示第二地址抽取过程的操作流程图;图44是表示标题、地址和发送者信息的第一种布局的图示;图45是表示标题、地址和发送者信息的第二种布局的图示;图46是表本文档来自技高网...

【技术保护点】
一种用于从已经转换为图象数据的文档的文档图象抽取所需局部区域并用于作出识别的标题抽取装置,包括: 字符区域产生装置,用于产生包含由文档图象连接的黑色象素所组成的黑色象素连接区域的字符区域; 字符串区域产生装置,用于一致化由所述字符区域产生装置所产生的一个或者多个字符区域,并用于产生包含一个或者多个字符区域的字符串区域;以及 标题抽取装置,用于根据由该装置的所述字符串区域产生装置所产生的多个字符串区域的属性而抽取多个字符串区域的一个特定字符串区域作为标题区域。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:胜山裕直井聪
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1