文档信息处理设备及文档信息处理方法技术

技术编号:2854598 阅读:174 留言:0更新日期:2012-04-11 18:40
提供用于处理文档信息的设备和方法。根据一个实施例,文档信息处理设备包括用于使用分析文档分析知识来进行对从文档信息输入装置输入的文档信息的文档分析的文档分析装置;用于将该从文档信息输入装置输入的文档信息分割成信息分量以作为编辑单元的部分化装置;用于基于文档分析的结果,为该信息分量生成索引信息并将该索引信息分配给该信息分量的索引装置;和用于关联地存储该信息分量和分配给该信息分量的索引信息的信息分量存储装置。该设备还可以包括用于检索该信息分量的信息分量检索装置。

【技术实现步骤摘要】

本专利技术涉及一种文档信息处理设备、文本处理信息方法和文档信息处理程序,用于检索/编辑因特网内容、电子邮件等的电子信息、或者通过光学字符阅读器(OCR)或类似技术从打印介质例如纸中提取的电子信息。具体地说,涉及一种文档信息处理设备,其支持或自动执行将电子信息转换成多个部分的操作、检索/获取该部分信息的操作、或者编辑该获取部分和产生新内容的操作。
技术介绍
随着因特网的日益普及和数字照相机、扫描仪等的性能增强和广泛使用,一般用户已经开始在商务/家庭应用中从个人计算机上浏览多种类和大量的信息条目。因而就增加了将用户判断为有用的浏览信息条目的那些信息条目或者一些信息条目保存为片断的需求。作为服从这种需求的一种现有技术,能够直接剪贴(scrap)被浏览的内容的应用软件例如“OneNote(TM)”(由MicrosoftCorporation制造)或者“kami-copi(TM)”(由YMIRLINK Inc.制造)已有市售。已经提出了一种用于编辑已经形成组成结构的结构化文档的方法(例如称为专利文档1),一种用于可编程地模板化在用于医疗应用的成像系统中被浏览的信息条目的排列的方法(例如称为专利文档2)等等。专利文档1美国专利申请公开2004/0010755专利文档2美国专利5,961,610然而,根据这些现有技术,不能对一个片断的每个部分给出语义或句法信息(例如用以初始化剪贴的信息格式(称为“源信息”),该源信息中的分量的功能性作用,或者包含在该分量中的个体元素的语义属性)。因此不能增加该剪贴操作的高效性或者由该剪贴操作产生的内容(下文中指“剪贴页(scrap pages)”)的重复使用。更具体地,在根据为某种目的收集的剪贴页而不需要大量劳动就从相同格式的源信息中获取相同功能的片断的情况,或者在剪贴的信息条目已经被安排成某种格式的剪贴页的情况下,存在不能满足其后产生相同格式的剪贴页的需要的问题。
技术实现思路
本专利技术的目的是提供一种能够准确获得必要信息的文档信息处理设备。与本专利技术一致地,提供一种文档信息处理设备,包括用于输入文档信息的文档信息输入装置;通过使用用于分析该文档信息的分析知识来进行对该文档信息的文档分析的文档分析装置;用于将文档信息分成作为编辑单元的信息分量的部分化装置;基于文档分析的结果为信息分量生成索引信息和为信息分量分配索引信息的索引装置;和用于相关联地存储信息分量和分配给信息分量的索引信息的信息分量存储装置。与本专利技术一致地,还提供一种文档信息处理设备,包括用于输入文档信息的文档信息输入装置;通过使用用于分析该文档信息的分析知识来进行对该文档信息的文档分析的文档分析装置;用于将文档信息分成作为编辑单元的信息分量的部分化装置;用于允许用户选择信息分量的信息分量选择装置;基于用户选择的结果为信息分量生成索引信息和为信息分量分配索引信息的索引装置;和用于相关联地存储信息分量和分配给信息分量的索引信息的信息分量存储装置。与本专利技术一致地,进一步提供一种文档信息处理方法,包括输入文档信息;通过使用用于分析该文档信息的分析知识来进行对该文档信息的文档分析;将输入的文档信息分成作为编辑单元的信息分量;基于文档分析的结果为信息分量生成索引信息和为信息分量分配索引信息;和相关联地存储信息分量和分配给信息分量的索引信息,作为在信息分量存储装置的组(set)。与本专利技术一致地,此外还提供一种文档信息处理方法,包括输入文档信息;通过使用用于分析该文档信息的分析知识来进行对该文档信息的文档分析;将输入的文档信息划分成作为编辑单元的信息分量;允许用户选择划分的信息分量;基于用户选择的结果为信息分量生成索引信息和为信息分量分配索引信息;和相关联地存储信息分量和分配给信息分量的索引信息,作为在信息分量存储装置的组。与本专利技术一致地,进一步还提供一种计算机可读介质,包含用于执行处理文档信息的方法的指令,该方法包括输入文档信息;通过使用用于分析该文档信息的分析知识来进行对该文档信息的文档分析;将输入的文档信息分成作为编辑单元的信息分量;基于文档分析的结果为信息分量生成索引信息和为信息分量分配索引信息;以及相关联地存储信息分量和分配给信息分量的索引信息,作为在信息分量存储装置的组。与本专利技术一致地,还提供一种计算机可读介质,包含用于执行处理文档信息的方法的指令,该方法包括输入文档信息;通过使用用于分析该文档信息的分析知识来进行对该文档信息的文档分析;将输入的文档信息分成作为编辑单元的信息分量;允许用户选择该划分的信息分量;基于用户选择的结果为信息分量生成索引信息和为信息分量分配索引信息;以及相关联地存储信息分量和分配给信息分量的索引信息,作为在信息分量存储装置的组。根据本专利技术的实施例,能够提供一种可以基于文档数据的上下文执行适当的索引的文档信息处理设备。附图说明图1是根据本专利技术的第一实施例的示例性文档信息处理设备的框图;图2A-2D是显示了输入到信息输入装置的信息条目的示例的示意图;图3A-3C是显示了输入到信息输入装置的信息条目来源的示例的示意图;图4是用于解释文档分析装置的处理流程的流程图;图5A和5B是分别显示了涉及文档结构分析的知识的示例的示意图;图6是用于解释在输入以HTML描述的信息的情况下的文档结构分析处理的流程图;图7A-7D是分别显示了由文档分析装置进行的文档结构分析处理的结果的示例的示意图;图8A是显示了由文档分析装置进行的语义属性分析处理的结果的示例的示意图(在输入图3A中的信息的情况下的输出示例);图8B是显示了由文档分析装置进行的语义属性分析处理的结果的示例的示意图(在输入图3B中的信息的情况下的输出示例);图8C是显示了由文档分析装置进行的语义属性分析处理的结果的示例的示意图(在输入图3C中的信息的情况下的输出示例);图8D是显示了由文档分析装置进行的语义属性分析处理的结果的示例的示意图(在输入图2D中的信息的情况下的输出示例);图9是用于解释由文档分析装置进行的功能性作用分析处理的流程图;图10是显示功能性作用分析知识的示例的示意图;图11A是显示了对图8A中的文档数据进行功能性作用分析处理的处理结果的示例的示意图;图11B是显示了对图8B中的文档数据进行功能性作用分析处理的处理结果的示例的示意图;图11C是显示了对图8C中的文档数据进行功能性作用分析处理的处理结果的示例的示意图;图11D是显示了对图8D中的文档数据进行功能性作用分析处理的处理结果的示例的示意图;图12是用于解释部分化装置的处理流程的流程图;图13A是显示在输入图11A中文档数据的情况下部分化装置的处理结果的示例的示意图;图13B是显示在输入图11B中文档数据的情况下部分化装置的处理结果的示例的示意图;图13C是显示在输入图11C中文档数据的情况下部分化装置的处理结果的示例的示意图;图13D是显示在输入图11D中文档数据的情况下部分化装置的处理结果的示例的示意图;图14是用于解释索引装置的处理流程的流程图;图15是显示索引装置的结构的示意图;图16是显示信息分量存储装置的结构的示意图;图17A和17B是显示索引策略知识的示例的示意图;图18是用于解释检索装置的处理流程的流程图;图19是显示检索装置的结构的示意图;图20是显示检索策略本文档来自技高网
...

【技术保护点】
一种文档信息处理设备,包括:文档信息输入装置,用于输入文档信息;文档分析装置,用于通过使用分析该文档信息的分析知识来进行对该文档信息的文档分析;部分化装置,用于将该文档信息分割成信息分量以作为编辑单元;索引装 置,用于基于文档分析的结果,为该信息分量生成索引信息并将该索引信息分配给该信息分量;和信息分量存储装置,用于关联地存储该信息分量和分配给该信息分量的索引信息。

【技术特征摘要】
JP 2004-9-21 2004-2735111.一种文档信息处理设备,包括文档信息输入装置,用于输入文档信息;文档分析装置,用于通过使用分析该文档信息的分析知识来进行对该文档信息的文档分析;部分化装置,用于将该文档信息分割成信息分量以作为编辑单元;索引装置,用于基于文档分析的结果,为该信息分量生成索引信息并将该索引信息分配给该信息分量;和信息分量存储装置,用于关联地存储该信息分量和分配给该信息分量的索引信息。2.一种文档信息处理设备,包括文档信息输入装置,用于输入文档信息;文档分析装置,用于通过使用分析该文档信息的分析知识来进行对该文档信息的文档分析;部分化装置,用于将该文档信息分割成信息分量以作为编辑单元;信息分量选择装置,用于允许用户选择该信息分量;索引装置,用于基于用户选择的结果,为该信息分量生成索引信息并将该索引信息分配给该信息分量;和信息分量存储装置,用于关联地存储该信息分量和分配给该信息分量的索引信息。3.如权利要求1或2所述的文档信息处理设备,进一步包括信息分量检索装置,用于从该信息分量存储装置中检索信息分量。4.如权利要求1或2所述的文档信息处理设备,其中该文档分析装置对从下述组中选择的至少一个进行文档分析,该组包括(1)该文档信息的文档结构,(2)包含在该文档信息中的部分的功能性作用,和(3)包含在该文档信息中的任何单词、从句和句子的语义属性。5.如权利要求1或2所述的文档信息处理设备,其中该文档分析装置通过使用语义分析知识进行对该文档信息的语义分析。6.如权利要求1或2所述的文档信息处理设备,其中该部分化装置基于该文档分析结果,将该文档信息分割成信息分量。7.如权利要求1或2所述的文档信息处理设备,进一步包括编辑模板存储装置,用于存储用于编辑该信息分量的编辑模板;和编辑装置,用于基于该编辑模板、文档分析结果和部分化装置的分割结果中至少一个,对该信息分量进行编辑,以生成新的文档信息。8.如权利要求7所述的文档信息...

【专利技术属性】
技术研发人员:铃木优石谷康人
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1