信息处理装置和信息处理方法制造方法及图纸

技术编号:8959404 阅读:155 留言:0更新日期:2013-07-25 18:58
本发明专利技术涉及信息处理装置和信息处理方法。一种信息处理装置包括:取得单元,其取得区域信息、行信息、以及字符信息;判断单元,其判断区域是否左对齐;第一分割单元,其将包括字符信息所指示的字符的区域分割为段落区域或者项目区域;分析单元,其分析所述判断单元判断为左对齐的区域内的行的缩进;第二分割单元,其将所述判断单元判断为左对齐的区域分割为段落区域或者项目区域;以及输出单元,其针对所述判断单元判断为未左对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为左对齐的区域,输出所述第二分割单元的分割结果。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
日本特许第3578618号公报(专利文献I)公开了一种文档分割装置,该文档分割装置通过不仅考虑相邻文档的关系而且考虑与该文档相关联的广域的关系来实现有效分割文档的目标,并且该文档分割装置设置有:语言要素分出单元,该语言要素分出单元用于以段落、句子以及行为单位从电子文档中分出语言要素;语言要素间关联度评估单元,该语言要素间关联度评估单元用于评估任何两个语言要素(例如,具有公共字符或者单词)的关联度;语言要素间关联度矩阵取得单元,该语言间要素关联矩阵取得单元通过利用这种语言要素间关联度评估单元来取得全部语言要素的关联度;以及矩阵拆分单元,该矩阵拆分单元用于将这种语言要素间关联度矩阵取得单元提供的语言要素间关联度矩阵分割为具有高关联度的部分矩阵的排列。由此,可以与通过部分矩阵进行的拆分相应地来拆分文档。日本特许第3767180号公报(专利文献2)公开了一种用于分析文档结构的方法和装置、以及存储文档结构分析程序的存储介质,其目标在于即使当不包括项目标记或者未写有特定标记等时也可以通过使用每个字符串的长度或者行首的位置信息来分析标记项目和文本中的简单句的文档结构,本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201210380729.html" title="信息处理装置和信息处理方法原文来自X技术">信息处理装置和信息处理方法</a>

【技术保护点】
一种信息处理装置,该信息处理装置包括:取得单元,该取得单元取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与该区域中的行有关的信息,而该字符信息是与该行中的字符有关的信息;判断单元,该判断单元基于所述取得单元取得的行信息,来判断包括该行信息所指示的行的区域是否左对齐;第一分割单元,该第一分割单元基于所述取得单元取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域;分析单元,该分析单元分析所述判断单元判断为左对齐的区域内的行的缩进;第二分割单元,该第二分割单元基于所述分析单元的分析结果,将所述判断单元判断为左对齐的区域分割为段落区域或者项...

【技术特征摘要】
2011.12.09 JP 2011-2700731.一种信息处理装置,该信息处理装置包括: 取得单元,该取得单元取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与该区域中的行有关的信息,而该字符信息是与该行中的字符有关的息; 判断单元,该判断单元基于所述取得单元取得的行信息,来判断包括该行信息所指示的行的区域是否左对齐; 第一分割单元,该第一分割单元基于所述取得单元取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域; 分析单元,该分析单元分析所述判断单元判断为左对齐的区域内的行的缩进; 第二分割单元,该第二分割单元基于所述分析单元的分析结果,将所述判断单元判断为左对齐的区域分割为段落区域或者项目区域;以及 输出单元,该输出单元针对所述判断单元判断为未左对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为左对齐的区域,输出所述第二分割单元的分割结果。2.根据权利要求1所述的信息处理装置,其中,当作为对象的语言是没有规定行尾对齐的语言时,所述判断单元基于与行信息所指示的行的下一行中的字符有关的字符信息来变更该行信息,然后判断包括所述行信息所指示的行的区域是否左对齐。3.根据权利要求1或者2所述的信息处理装置,其中,所述判断单元基于所述取得单元取得的行信息,计算该行信息所指示的行的中点坐标,并且基于所述区域内的行的行首坐标、中点坐标以及行尾坐标中的一个以上坐标来判断所述区域是否左对齐。4.根据权利要求1至3中任一项所述的信息处理装置,其中,所述第一分割单元基于位于行首或者行尾中的一个以上字符的字符串是否满足预定字符串条件,将所述区域分割为段落区域或者项目区域。5.根据权利要求1至4中任一项所述的信息处理装置,其中,所述第一分割单元基于由所述区域内的行的字符数量所预定的值是否满足预定条件,将所述区域分割为段落区域或者项目区域。6.根据权利要求1至5中任一项所述的信息处理装置,其中,所述分析单元通过基于从区域的左端到该区域内各行的左端的距离,将所述各行分类为缩进行和未缩进行,来分析行的缩进。7.根据权利要求6所述的信息处理装置,其中,所述第二分割单元基于行内所含的字符串中是否包括预定字符串以及作为所述分析单元的分析结果的分类边界是否与所述段落的边界重合,来将所述区域分割为段落区域或者项目区域。8.一种信息处理装置,该信息处理装置包括: 取得单元,该取得单元取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与该区域中的行有关的信息,而该字符信息是与该行中的字符有关的息; 判断单元,该判断单元基于所述取得单元取得的行信息,来判断包括该行信息所指示的行的区域是否上对齐; 第一分割单元,该第一分割单元基于所述取得单元取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域; 分析单元,该分析单元分析所述判断单元判断为上对齐的区域内的行的缩进; 第二分割单元,该第二分割单元基于所述分析单元的分析结果,将所述判断单元判断为上对齐的区域分割为段落区域或者项目区域;以及 输出单元,该输出单元针对所述判断单元判断为未上对齐的区域,输...

【专利技术属性】
技术研发人员:今野裕也
申请(专利权)人:富士施乐株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1