电子文档的处理方法和装置及其系统制造方法及图纸

技术编号:2862414 阅读:168 留言:0更新日期:2012-04-11 18:40
一种电子文档的处理方法,其特征在于,包括步骤:在作者写作电子文档时,根据所述电子文档的内容生成一个或多个查询;以及与所述电子文档对应地保存所述查询的信息。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般涉及数据处理技术,特别地,本专利技术涉及一种基于搜索引擎的电子文档的处理方法及装置、电子文档的浏览方法及相应的浏览器、以及电子文档的搜索方法及相应的搜索系统。
技术介绍
搜索引擎(Search Engine)是随着互联网信息的迅速增加而迅速发展起来的技术。搜索引擎以一定的策略在互联网上搜集、发现信息,并对信息进行理解、提取、组织和处理,为用户提供检索服务,从而起到信息导航的目的。但是,随着互连网的迅猛发展,在互连网上的内容成爆炸性增长。例如,象Google这样的搜索引擎所面临的一个主要问题是一个单个的查询就会产生大量的“相关”文档,但实际上,这些“相关”文档中的大多数可能与所查询的主题是完全不相关的。与此同时,由于进行查询的关键词、关键词词语串或问题与那些真正相关的文档并不匹配,而造成那些真正相关的文档被漏掉。出于同样原因,特定的查询经常不能产生任何用户查询所希望找到的文档。由于上述这些原因,使用现有技术的搜索引擎进行文档检索时,用户感到很难准确、全面地找到他/她所真正想要的东西。这也是造成用户对搜索引擎的服务质量不满意的一个原因。另一方面,在现有技术中,作者使用的文档写作工具与用户使用的文档管理工具和文档检索工具是相互独立的。即,作者在写作电子文档时并不关心将来的读者将如何检索和利用作者所写的文档的内容。但是同时,从信息访问和使用的观点来看,用户又会感到难于找到他/她所真正想要的东西。而且,由于目前计算机对自然语言的理解能力还处于字/词理解的水平,而对于文档管理工具和文档检索工具来说,需要句子甚至整篇文章的理解和语义理解技术,才能真正满足客户的需要。然而,由于相关技术及工具的局限性,文档管理及检索技术在短期内不可能由将已有的字/词理解提升到句子甚至整篇文章的理解和语义能力。因此,可以想象在未来几年内文档检索技术的发展将不可能满足用户信息访问的要求。
技术实现思路
为解决现有技术中存在的上述问题以及改善现有搜索引擎的性能,本专利技术提出在作者写作电子文档的过程中,就为以后的文档管理和信息检索准备相关的信息,即,在作者准备文档期间,就为作者提供一些工具来方便地为以后用户的信息搜索做贡献。更具体地说,作者在写作文档时,准备有关对文档内容的查询,例如查询可以是一些关键词、关键词词语串或者一些简单的问题。由此,可以帮助用户通过搜索引擎快速找到电子文档中所附着的查询信息,检索到最相关的文档。另一方面,通过在电子文档中准备关于查询的一个或多个知识标记(knowledge tag),并对多个电子文档的知识标记编制索引,搜索引擎可以只对经过编制的知识标记索引进行搜索,从而减少了搜索引擎进行搜索的工作量,提高了搜索引擎查询的精确度和准确度,并提高了搜索引擎的查找速度,改善了搜索引擎的性能。根据本专利技术的一个方面,提供了一种电子文档的处理方法,包括步骤在作者写作电子文档时,根据所述电子文档的内容生成一个或多个查询;以及与所述电子文档对应地保存所述查询的信息。根据本专利技术的再一个方面,提供了一种电子文档的处理装置,包括电子文档编辑单元,用于编辑电子文档;特征信息提取单元,用于从所编辑的电子文档中提取特征信息;查询生成单元,用于根据特征信息提取单元提取出的特征信息生成关于所述文档内容的查询的信息,其中所述查询包括关键词、关键词词语串或者问题;查询保存单元,用于与电子文档相应地保存由查询生成单元所生成的查询信息。根据本专利技术的另一个方面,提供了一种浏览电子文档的方法,包括步骤读取与所述电子文档对应保存的查询信息,所述查询包括关键词、关键词词语串或者问题;将查询信息中的查询呈现给用户;以及当用户确认所述查询时,将所述电子文档的内容显示呈现给所述用户。根据本专利技术的再一个方面,提供了一种电子文档的浏览器,包括电子文档浏览单元,用于浏览电子文档的内容;查询信息读取单元,用于读取与所述电子文档对应保存的查询信息,其中所述查询包括关键词、关键词词语串或者问题;以及查询呈现单元,用于将由查询信息读取单元读取的查询信息中的查询呈现给用户。根据本专利技术的另一个方面,提供了一种检索电子文档的方法,包括步骤提取分别与相应电子文档对应保存的查询信息,其中每个所述查询信息包含一个或多个相应查询的关键词、关键词词语串或问题;对提取出的查询信息编制索引;响应于用户的查询,在所述查询索引中找出与用户输入的查询相同的或最接近的一个或多个查询;将上述相同的或最接近的一个或多个查询呈现给所述用户;以及将所述用户选择的查询所对应的电子文档或者与所述电子文档的链接提供给所述用户。根据本专利技术的再一个方面,提供了一种电子文档的检索系统,包括查询信息提取装置,用于提取分别与电子文档对应保存的查询信息,其中每个所述查询信息包含一个或多个相应查询的关键词、关键词词语串或问题;查询索引装置,用于对所述提取出的查询信息中的查询编制索引;查询索引存储装置,用于保存由查询索引装置编制的查询索引;查询查找装置,用于从查询索引存储装置中的查询索引中找出与用户输入的查询相同或最接近的一个或多个查询;查询呈现装置,用于将由查询查找装置找出的相同或最接近的一个或多个查询呈现给所述用户;以及电子文档提供装置,用于将所述用户选择的查询所对应的电子文档或者与所述电子文档的链接提供给所述用户。以下结合附图,对本专利技术的具体实施方式进行详细的说明,由此,本专利技术的特点、优点、目的和有益效果将会变得更明显,其中附图说明图1是根据本专利技术的一种实施方式的电子文档的处理方法的流程图;图2是根据本专利技术的一种实施方式的电子文档的处理装置的结构示意图;图3是根据本专利技术的一种实施方式的浏览电子文档的方法的流程图;图4是根据本专利技术的一种实施方式的电子文档浏览器的结构的方框图;图5是根据本专利技术的一种实施方式的检索电子文档的方法的流程图;以及图6是根据本专利技术的一种实施方式的电子文档检索系统的结构的方框图。具体实施例方式以下,结合附图对本专利技术的各优选实施例进行详细的说明。电子文档的处理的方法根据本专利技术的一个方面,提出了一种电子文档的处理的方法。图1是根据本专利技术的一种实施方式的电子文档的处理方法的流程图。如图1所示,在步骤101,作者写作电子文档。根据本专利技术的电子文档的处理方法是基于传统的文档编辑方法,通过这些传统的文档编辑工具,例如MS Word,Acrobat Writer,或WPS等等,作者可以对所写的文档进行常规的编辑、浏览等等操作。根据本专利技术,查询的生成是在作者写完一篇文档时进行的,或者可以在完成文档的一部分(例如一个章节)时进行。接着,在步骤102,选择用于生成查询的一个文本流(或文本段)。在本专利技术的电子文档的处理方法中,可以由作者从所写作的文档中选择一部分作为一个文本流,也可以根据写作的文档利用算法自动生成一个文本流。其中,对作者写作的文档首先进行预处理,根据现有技术的对文档的处理方式,所述的预处理包括从所写作的文档中提取文本段落的操作,以及对提取出的文本段去除停用词(stopword)(即一些最常用的应该排除在搜索范围内的词、如中文词汇中的‘的’、‘地’、‘得’、‘了’等)的操作。如果是自动生成文本流,则可以通过历史记录关联算法来生成一个与作者写作的文档内容相关的、待处理的文本流。该方法主要是基于这一性质与当前本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:刘世霞杨力平
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1