公开了一种用于根据多个电子文档生成电子文档的方法,所述方法包括:提供包括多个电子文档的数据库,其中所述文档中的每个均包括按语义构造的信息部分;解析所述多个电子文档,以从所述文档中提取语义描述符,每个语义描述符与所述信息部分的其中一个相关;显示所提取的语义描述符的概览,以供用户进行选择;接收用户选择的提取出的语义描述符;从所述多个电子文档中提取与用户选择的语义描述符相关的信息部分;以及将所述提取出的部分组合到另外的电子文档中。所述方法能够在可以构成数据处理系统的一部分的计算机程序产品中实现。
【技术实现步骤摘要】
【国外来华专利技术】文档信息选择方法和计算机程序产品
技术介绍
诸如大型数据库和因特网的可扩展计算机系统的引入已经显著地提高了数字信息的易访问性。如今,这样的系统的用户可以访问来自各种各样的不同源的大量信息。然而,这一改进并不是不存在问题。例如,在这样的数字信息系统中尝试找到正确的信息可能远非是普通的任务。尽管可以限定查询来搜索这样的信息系统,然而将该查询限定为使得该查询产生均与所限定的搜索标准相关的仅几个电子文档是非常难的。电子文档可以是利用诸如MS Word和 Acrobat等的文字处理程序所创建的单个文件,或者可以是能够从因特网上的特有URL获取到的信息。因此,这样的信息系统的用户多半会面对不得不搜索大量电子文档以找到和获取感兴趣的信息的艰难任务。已经进行了大量的努力来为这样的信息系统的用户提供被认为是作为查询结果的更简洁的文档集以找到感兴趣的信息,诸如其中根据特殊词语在电子文档中的出现次数与从所谓的加权词语词典中检索到的加权因子的组合来计算该电子文档关于搜索词的相关性的搜索算法。不利的是,这可能仍需要用户检查大量的文档。附图说明以更详细的方式并且利用参考附图的非限制性的示例说明本专利技术的实施例,其中图1示意性地示出本专利技术的方法的实施例的原理; 图2示意性地示出本专利技术的方法的实施例的流程图; 图3示意性地示出本专利技术的方法的实施例的一个方面的流程图;以及图4示意性地示出根据本专利技术的实施例的数据处理系统。具体实施例方式应当理解的是,附图仅是示意性的,并且不是按比例绘制的。还应当理解的是,贯穿附图使用相同的附图标记来表示相同或相似的部件。图1提供本专利技术的数据处理系统100的实施例的概念性概况图。在概况图100中, 电子文档112的数据库110是可用的。数据库110可以是专有数据库、万维网(WWW)或任何其它适当的信息源。电子文档112每个均包括按语义构造的信息部分。可以诸如以标识该信息部分的语义语境的元数据的形式而明确地包括该语义构成。下面给出了这样的元数据的非限制性示例*语义部分名称眷子部分1 -页-开始行-结束行眷子部分2 -页-开始行 -结束行眷子部分3 -页-开始行 -结束行在该示例中,语义部分包括多个子部分,以表示语义信息可以具有分级结构。显然,在非分级语义信息的情况下,语义描述符例如可以采用以下形式 *语义部分名称 -页-开始行 -结束行电子文档112可以包含分级的语义描述符和非分级的语义描述符这两者,这两者可以通过任何适当的解析策略而被识别。应当理解的是,电子文档112可以具有相同或不同的格式,诸如.txt、. doc、, pdf、. html和.xml文件等。可以使用任何适当的格式将电子文档 112中的语义描述符存储在诸如头文件的相关联的电子文档中。这样的格式的已知示例包 ^^Ν^ Φ h" (Web Ontology Language)^ ! ! !!^ (Resource Description Framework Schema)禾口 XML 模式。数据处理系统100还包括语义信息处理层120,其被布置为在数据处理系统100 的用户请求来自数据库110的信息时访问数据库110中的各个文档112。语义信息处理层 120可以包括被布置为实现本专利技术的方法的软件程序产品,如稍后将更详细地说明的那样。 语义信息处理层120被配置为从电子文档112中提取语义描述符,并且将所提取出的描述符显示给数据处理系统100的用户,以允许该用户从电子文档112中选择感兴趣的信息部分。在一个实施例中,所提取出的描述符可以以列表的形式被呈现,其中,用户可以从该列表中选择感兴趣的信息部分。在另一实施例中,所提取出的语义描述符可以以树130 的形式被呈现,其中,在该树130中,树叶表示语义描述符,并且树叶之间的节点表示语义描述符之间的分级关系和/或语义描述符在电子文档112中的次序。用户可以例如通过在显示器上将光标指向感兴趣的树叶并点击鼠标按钮或键盘上的某些按键来选择感兴趣的树叶。在图1中,所选择的树叶已被标记为132,并且未被选择的树叶已被标记为134。在一个实施例中,出现在包括的多个文档112中的语义描述符可以由树130中的单个树叶来表示。这具有如下优点提供了紧凑的树,该紧凑的树使得用户能够快速估计出数据库110中的哪些信息是可用的。这例如在数据库110包括共享语义结构的多个电子文档112的情况下是特别有用的,使得树130将为这些文档示出单个分支。在一个实施例中,用户可以例如通过向系统100提供适当的命令来指示已完成对感兴趣的信息的选择,之后通过语义信息处理层120从数据库100获取该感兴趣的信息部分。生成新的电子文档140,将所获取的感兴趣的部分100存储到新的电子文档140的中, 使得用户在单个电子文档中具有所有可用的感兴趣的信息。可选地,如果用户需要的话,可以生成多个电子文档140。清楚的是,该方式的明显优点在于用户不再访问所有的电子文档112来获取感兴趣的信息以生成个人文档,由此极大地降低了用户为该目的而搜集感兴趣的信息所需要的精力量。在一个实施例中,用户可以按优选的顺序来放置感兴趣的信息,其中所生成的个人电子文档140复制该顺序。该顺序可以例如由用户通过以该顺序选择与感兴趣的信息部分相对应的树130的树叶来进行定义。可以使用用于定义该顺序的任何适当的方式。在一个实施例中,以预先定义的格式来生成个人电子文档140。在可选实施例中, 由用户来选择个人电子文档140的格式。该个人电子文档140可以以任何适当的格式来生成。如果该个人电子文档140要被添加至数据库110,则语义描述符可以以任何适当的形式被添加至该个人电子文档140。本专利技术的方法特别适用于数据库110包括彼此具有某种相互联系的受限数量的电子文档112的数据处理系统100中,这样的电子文档例如为诸如Oracle数据库等的商务数据库中所包括的电子文档,在所述商务数据库中,所有的文档通常都涉及商务,从而使得从所有这些电子文档中对语义描述符的提取是可行且是潜在地相关的。通过用户对查询125的定义可以降低语义信息处理层120的提取任务的规模。查询125可以将语义描述符提取任务限制到特定类型的电子文档112。例如,在数据库110包括不同类的文档的情况下,可以根据定义在查询125中的类而从电子文档112中提取语义描述符。在一个实施例中,用户可以定义查询125,以将提取任务限制到特定类型的语义描述符。例如,在分级语义描述符的情况下,用户可以利用语义信息处理层120定义对感兴趣的顶层语义描述符的选择,从而根据所定义的顶层语义描述符提取所有的语义描述符。进行如下规定用以降低电子文档112的量和/或从这些文档提取出的语义描述符的量的许多适当的查询125对于技术人员而言将是显而易见的。尽管本专利技术的方法特别适用于其中数据库110包括彼此具有某种相互联系的受限数量的电子文档112的数据处理系统100,但应当指出的是,该方法并不局限于这样的类型的数据库。例如,在数据库内容大部分未知的情况下,如例如在数据库包括万维网(的一部分)时的情况那样,语义信息处理层120可以被进一步布置为限制电子文档112的数量, 其中响应于在查询125中定义的搜索标准而从这些电子文档112中提取出语义描本文档来自技高网...
【技术保护点】
1. 一种用于根据多个电子文档生成电子文档的方法,包括:提供包括多个电子文档的数据库,其中所述文档中的每个均包括按语义构造的信息部分;解析所述多个电子文档,以从所述文档中提取语义描述符,每个语义描述符与所述信息部分的其中一个相关;显示所提取的语义描述符的概览,以供用户进行选择;接收用户选择的提取出的语义描述符;从所述多个电子文档中提取与用户选择的语义描述符相关的信息部分;以及将所述提取出的部分组合到另外的电子文档中。
【技术特征摘要】
【国外来华专利技术】
【专利技术属性】
技术研发人员:T雷,
申请(专利权)人:惠普开发有限公司,
类型:发明
国别省市:US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。