电子文档处理装置及电子文档处理方法制造方法及图纸

技术编号:4131155 阅读:210 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种电子文档处理装置及电子文档处理方法,该电子文档处理装置及电子文档处理方法即使对包含装饰文本串的图像也能够进行高精确度的诸如概念检索的高级检索。从包含布局信息的电子文档中提取文本串,并检测所提取的文本串的基线。随后,设置自所述基线向前延伸的第一线段和自所述基线向后延伸的、与所述第一线段的类型不同的第二线段。针对不同的文本串,确定如果对所述不同的文本串设置的所述线段A和所述线段B相互交叠,则所述不同的文本串联结。

【技术实现步骤摘要】

本专利技术涉及,尤其涉及从包含 电子文档布局信息的电子文档中提取文本的电子文档处理装置及电子文档 处理方法。
技术介绍
传统上,通过提取电子文档中所包含的文本并确定其中是否包含检索关键字(searchkey)来迸行电子文档中的文本的检索。作为检索方法,通 常要确定在所提取的字符中是否包含检索关键字的至少一部分。作为进一步限定的检索技术,存在确定是否完整地包含词的完全匹配 词检索,以及使用由包括空格的多个词构成的短语作为检索关键字的短语 检索。此外还存在全文检索,其对电子文档进行全面检索以査找检索词, 并且如果找到包含有与所述检索词匹配的文本的电子文档,则将写有该文 本的位置取回作为检索结果。此外,还存在一种例如概念检索的高级检索技术,其允许以句子的形 式指定想要检索的内容,并检索其内容与该句子相近的信息。例如,我们假定从电子文档提取的文本是He is a good boy. But, she is abadgirl。利用概念检索,该检索认定nice boy和good boy符合, 而badboy在该检索中不符合。这是因为该检索处理适用于所提取的文 本与文本所表示的概念相符的情况。因此,当进行概念检索时,要求如果提取的文本是用日语写的,则该 文本作为日语句子连贯,如果提取的文本是用英语写的,则该文本作为英 语句子连贯。另一方面,在包含字符的布局信息的电子文档中,存在表示文本绘制 的命令(以下,称为文本绘制命令)的顺序与所述文本绘制命令在页面上4被指定的绘制开始位置相互独立的情况。例如,可能存在如下情况第一 文本绘制命令从页面的中心开始,随后,第二文本绘制命令从页面的下部 开始,最后,末文本绘制命令从页面的上部开始。在实际的电子文档中,存在以PDF (便携式文件格式,注册商标)或PDL (页面描述语言)表示的情况。例如,存在作为用于创建PDF的软件的打印机驱动程序型软件。该打印机驱动程序型软件是这样一种软件,该 软件用于当在创建了原始文档的字处理应用程序或绘图应用程序中给出打印指令时,如果选择了用于创建PDF的驱动程序来代替通常的打印机驱动 程序,则根据打印命令创建PDF文件。在此情况下,其中创建了原始文档的应用程序向PDF创建驱动程序传 送打印命令的文本绘制的顺序取决于该应用程序。例如,该应用程序可以 是自由布局的电子文档创建应用程序(例如,Microsoft Office PowerPoint、 Microsoft Office Visio, 二者均为注册商标)。利用该应用程序,可能存在 如下情况当不考虑页面上的句子布局而进行文本绘制时,文本绘制命令 以句子明显缺乏连贯性的顺序输入到由PDF创建驱动程序创建的PDF文 件中。换言之,虽然文本绘制命令 在页面上所表示的坐标位置是正确的, 但是文本绘制命令在PDF文件中的顺序却是随机的。在自由布局的电子文档创建应用程序的情况下,按照操作者创建文本 对象的顺序对所述对象依次进行编号和管理。然而,由于操作者利用自由 布局的可操作性创建文档,因此,为保持句子的连贯性,不必按照创建文 本对象的顺序来排列文本对象。如果根据这样的电子文档创建PDF文件, 则创建的PDF文件例如图1所示。图1例示了由自由布局的电子文档创建应用程序创建的PDF文件的示 例性预览101以及该PDF文件中文本绘制命令的排列102。文本绘制命令 以例如排列102的形式排列的原因在于,文本对象是由自由布局的电子文 档创建应用程序创建的。在此情况下创建文本对象的顺序是Michad、 Confidential、 sushi、 Michael、 Possibly、 appreciates。然而, 所述文本对象随后被按照预览101所示的形式重新排列,使得按照操作者 的意图组成句子。如果将该电子文档转换为PDF文件,则将按照排列102所示的顺序输入文本绘制命令。由于当从这种PDF文件提取文本时无法保持句子的连贯性,因此接收 到该结果的检索引擎充其量只能进行词检索,而在诸如概念检索的高级检 索中存在精确度降低的问题。为了克服这种基本问题,日本特开平08 — 194697号公报(1996)识 别PDL文件中记述的词的装置及方法公开了一种当获取页面中的文本时 根据坐标对文本绘制命令进行排序的示例性现有技术。日本特开平08 — 194697号公报(1996)公开了如下技术不根据在电子文档中记述文本绘 制命令的顺序提取文本,而暂时提取所有文本绘制命令和与其相关联的资 源信息(例如,坐标)。随后,对文本绘制命令的偏移坐标(offset coordinate) (文本绘制的开始位置)进行排序,并按照排序结果的顺序提取文本,从 而获得根据文本排列的文本提取结果。然而,使用自由布局的电子文档创建软件(应用程序),可能存在如下 情况由于装饰文本串可能被创建成例如以弧状形式排列的文本串,因此 通过按照文本绘制命令的偏移坐标的顺序对文本进行排序无法成功地获取 所述文本。在本说明书中,装饰文本串指弧状、波状、圆状(环状)、方形或 星形形式的文本排列,由此无法沿预定方向整齐排列文本。图2例示了以图1所示的PDF文件为例,虽然按照偏移坐标的顺序对 文本绘制命令进行了排序,但是无法成功获取文本的示例。在图2中,对文本(文本串)进行了装饰使得其以弧状形式排列。表 示Possibly的文本202具有坐标(4, 20)。表示Michael的文本203 具有坐标(8, 25)。表示appreciates的文本204具有坐标(12, 25)。 表示sushi的文本205具有坐标(20, 17)。表示Michael的文本206 具有坐标(5, 10)。表示Confidential的文本207具有坐标(10, 10)。通过按照文本绘制命令的偏移坐标的顺序对上述文本进行排序,基于 各文本的坐标按照如下顺序获取图2所示的文本。换言之,按照文本203、 文本204、文本202、文本205、文本206、文本207的顺序获取上述文本。 然而,在如图2所示的PDF文件的情况下,该页面的设计想要的文本顺序6自然是文本202、文本203、文本204、文本205、文本206、文本207。 取决于如何装饰文本,通过上述的按照文本绘制命令的偏移坐标的顺序排序可能随机地排列获取的文本。传统上,当在包含装饰文本的图像中进行要求整个页面中的句子连贯性的高级检索(例如,概念检索)时,存在通过文本串提取所获取的文本与原句不同的情况。
技术实现思路
本专利技术提供一种即使对包含装饰文本串的图像也能够进行高精确度 的、诸如概念检索的高级检索的。本专利技术提供一种电子文档处理装置,包括提取单元,用于从包含布 局信息的电子文档中提取多个文本串;检测单元,用于检测所提取的文本 串中的各个文本串的基线;设置单元,用于对所提取的文本串中的各个文 本串,设置自所述基线向前延伸的第一线段和自所述基线向后延伸的、与 所述第一线段的类型不同的第二线段;以及确定单元,用于针对多个不同 的文本串,当对所述不同的文本串设置的所述第一线段和所述第二线段交 叠时,确定所述不同的文本串联结。本专利技术提供一种电子文档处理方法,包括以下步骤从包含布局信息 的电子文档中提取多个文本串;检测所提取的文本串中的各个文本串的基 本文档来自技高网
...

【技术保护点】
一种电子文档处理装置,该电子文档处理装置包括:    提取单元,用于从包含布局信息的电子文档中提取多个文本串;    检测单元,用于检测所提取的文本串中的各个文本串的基线;    设置单元,用于对所提取的文本串中的各个文本串,设置自所述基线向前延伸的第一线段和自所述基线向后延伸的、与所述第一线段的类型不同的第二线段;以及    确定单元,用于针对多个不同的文本串,当对所述不同的文本串设置的所述第一线段和所述第二线段交叠时,确定所述不同的文本串联结。

【技术特征摘要】
JP 2008-8-29 2008-2219121.一种电子文档处理装置,该电子文档处理装置包括提取单元,用于从包含布局信息的电子文档中提取多个文本串;检测单元,用于检测所提取的文本串中的各个文本串的基线;设置单元,用于对所提取的文本串中的各个文本串,设置自所述基线向前延伸的第一线段和自所述基线向后延伸的、与所述第一线段的类型不同的第二线段;以及确定单元,用于针对多个不同的文本串,当对所述不同的文本串设置的所述第一线段和所述第二线段交叠时,确定所述不同的文本串联结。2. 根据权利要求l所述的电子文档处理装置,其中,所述设置单元设 置在所述电子文档的坐标上配置的所述第一线段和所述第二线段,并且, 其中,当对所述不同的文本串设置的所述第一线段和所述第二线段在所述 电子文档的坐标上交叠时,所述确定单元确定所述不同的文本串联结。3. 根据权利要求l所述的电子文档处理装置,其中,当所述第一线段 和所述第二线段以条件角度交叉时,所述确定单元确定所述不同的文本串 联结。4. 根据权利要求3所述的电子文档处理装置,该电子文档处理装置还包括用于改变所述条件角度的容许范围的单元。5. 根据权利要求l所述的电子文档处理装置,该电子文档处理装置还包括用于向所提取的文本串分配用于识别该文本串的标识符的单元,其中,所述确定单元针对被确定为联结的各对所述文本串创建所述标 识符的对,并基于所述标识符的对的组合按照一...

【专利技术属性】
技术研发人员:伊丹刚
申请(专利权)人:佳能株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1