【技术实现步骤摘要】
本专利技术涉及,尤其涉及从包含 电子文档布局信息的电子文档中提取文本的电子文档处理装置及电子文档 处理方法。
技术介绍
传统上,通过提取电子文档中所包含的文本并确定其中是否包含检索关键字(searchkey)来迸行电子文档中的文本的检索。作为检索方法,通 常要确定在所提取的字符中是否包含检索关键字的至少一部分。作为进一步限定的检索技术,存在确定是否完整地包含词的完全匹配 词检索,以及使用由包括空格的多个词构成的短语作为检索关键字的短语 检索。此外还存在全文检索,其对电子文档进行全面检索以査找检索词, 并且如果找到包含有与所述检索词匹配的文本的电子文档,则将写有该文 本的位置取回作为检索结果。此外,还存在一种例如概念检索的高级检索技术,其允许以句子的形 式指定想要检索的内容,并检索其内容与该句子相近的信息。例如,我们假定从电子文档提取的文本是He is a good boy. But, she is abadgirl。利用概念检索,该检索认定nice boy和good boy符合, 而badboy在该检索中不符合。这是因为该检索处理适用于所提取的文 本与文本所表示 ...
【技术保护点】
一种电子文档处理装置,该电子文档处理装置包括: 提取单元,用于从包含布局信息的电子文档中提取多个文本串; 检测单元,用于检测所提取的文本串中的各个文本串的基线; 设置单元,用于对所提取的文本串中的各个文本串,设置自所述基线向前延伸的第一线段和自所述基线向后延伸的、与所述第一线段的类型不同的第二线段;以及 确定单元,用于针对多个不同的文本串,当对所述不同的文本串设置的所述第一线段和所述第二线段交叠时,确定所述不同的文本串联结。
【技术特征摘要】
JP 2008-8-29 2008-2219121.一种电子文档处理装置,该电子文档处理装置包括提取单元,用于从包含布局信息的电子文档中提取多个文本串;检测单元,用于检测所提取的文本串中的各个文本串的基线;设置单元,用于对所提取的文本串中的各个文本串,设置自所述基线向前延伸的第一线段和自所述基线向后延伸的、与所述第一线段的类型不同的第二线段;以及确定单元,用于针对多个不同的文本串,当对所述不同的文本串设置的所述第一线段和所述第二线段交叠时,确定所述不同的文本串联结。2. 根据权利要求l所述的电子文档处理装置,其中,所述设置单元设 置在所述电子文档的坐标上配置的所述第一线段和所述第二线段,并且, 其中,当对所述不同的文本串设置的所述第一线段和所述第二线段在所述 电子文档的坐标上交叠时,所述确定单元确定所述不同的文本串联结。3. 根据权利要求l所述的电子文档处理装置,其中,当所述第一线段 和所述第二线段以条件角度交叉时,所述确定单元确定所述不同的文本串 联结。4. 根据权利要求3所述的电子文档处理装置,该电子文档处理装置还包括用于改变所述条件角度的容许范围的单元。5. 根据权利要求l所述的电子文档处理装置,该电子文档处理装置还包括用于向所提取的文本串分配用于识别该文本串的标识符的单元,其中,所述确定单元针对被确定为联结的各对所述文本串创建所述标 识符的对,并基于所述标识符的对的组合按照一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。