【技术实现步骤摘要】
本专利技术涉及大型文档集合的处理,尤其涉及组织多个文档的方法以及显示多个文档的设备。
技术介绍
随着因特网的发展,因特网上的内容正在迅速膨胀。搜索引擎是帮助人们在因特网上寻找想要的信息的最为有力的工具。但是,获取有用的信息看来越来越困难,因为信息量实在太大。用大多数关键词都会检索出成堆的相关项目,而事实上人们甚至都没有耐心将它们都瞥上一眼。同样,浏览大型文档集合,例如浏览文件系统中的文档,或者浏览调阅或者检索数据库得到的文档,对于用户来说也是困难而费时的任务。这就提出了一个问题如何以最有效的方式组织大量文档,进而以最佳的浏览效率显示海量的项目。这个问题常常存在于搜索引擎网址、电子商务网址和其它大规模网址中,也会存在于单机中,例如硬盘上的文件系统,或者浏览光盘数据库时。搜索引擎可以容易地找到成百上千的相关项目。但是,在一个HTML页面上只能显示有限的项目。传统的搜索引擎使用的显示方法包括增加一个HTML页面上的内容;增加超链接;增加页面数量。但是上述方法无一能够真正提高用户的浏览效率。浏览器上超长的HTML页面需要用户按翻页键或者用鼠标拖动滚动条来察看该页面的其 ...
【技术保护点】
一种组织多个文档的方法,包括:对所述的多个文档进行聚类分析;按照聚类分析的结果,将具有共同特征的文档分别组织为一个类;对所产生的类中所包括的文档进行聚类分析,将具有共同特征的文档分别组织为更小的类。
【技术特征摘要】
1.一种组织多个文档的方法,包括对所述的多个文档进行聚类分析;按照聚类分析的结果,将具有共同特征的文档分别组织为一个类;对所产生的类中所包括的文档进行聚类分析,将具有共同特征的文档分别组织为更小的类。2.如权利要求1所述的方法,其特征在于,在用户界面上将各级类显示为虚拟文件夹或者目录,它包括下一级的类的虚拟文件夹或者目录,其中,最低级的类的虚拟文件夹或者目录包括文档标题。3.如权利要求2所述的方法,其特征在于,由用户指定各级别的类的数量的上限以及最低级别的类中的文档的数量的上限,其中,如果某一最低级别的类中的文档数量大于其上限,则对该类中的文档继续进行聚类分析以生成更低级别的类,直到最低级别的每一个类所包含的文档数量小于所述上限;如果全部文档数量少于所述上限,则直接显示文档标题。4.如权利要求2所述的方法,其特征在于,由用户设备根据显示设备的显示设置和显示的内容自动确定各级别的类的数量的上限以及最低级别的类中的文档的数量的上限,其中,如果某一最低级别的类中的文档数量大于其上限,则对该类中的文档继续进行聚类分析以生成更低级别的类,直到最低级别的每一个类所包含的文档数量小于所述上限;如果全部文档数量少于所述上限,则直接显示文档标题。5.如权利要求3或4所述的方法,其特征在于,每一个显示页面仅显示直接从属于同一上层类的类或者文档标题,并且在需要进行该页面的显示之前不进行该页面的内容的聚类分析。6.如权利要求5所述的方法,其特征在于,在接收到显示命令时,首先显示最高层次的类或者文档标题的显示页面;当某一个类被选择时,则对该类所包含的文档进行聚类分析,并按照聚类分析结果显示该类所包含的类或者文档标题;当某一个文档标题被选择时,则显示该文档的内容。7.如权利要求6所述的方法,其特征在于,所述各上限值被确定为使得显示类或者文档标题的每一个显示页面的内容能够被完全容纳在显示屏幕中。8.如权利要求6所述的方法,其特征在于,在相应的位置同时显示各类的或者文档的主题,其中,主题由相应的类或者文档的基于聚类分析得到的特征向量中具有最大权重的预定个数的特征构成。9.如权利要求8所述的方法,其特征在于,根据上一级的类的主题,修正所述类或者文档的主题。10.如权利要求8所述的方法,其特征在于,在相应的位置同时显示各类或者文档的摘要,其中,根据所述主题包含的主题词的权重来计算句子的权重,由文档或者类中权重最大的预定个数的句子组成摘要。11.如权利要求10所述的方法,其特征在于,根据上一级的类的主题和/或摘要,修正所述类或者文档的摘要。12.如权利要求6所述的方法,其特征在于,在相应的位置同时显示各类或者文档的摘要,其中,根据句子中各关键词的基于聚类分析得到的权重来计算句子的权重,由文档或者类中权重最大的预定个数的句子组成摘要。13.如权利要求12所述的方法,其特征在于,根据上一级的类的主题和/或摘要,修正所述类或者文档的摘要。14.一种显示多个文档的设备,包括聚类分析装置,用于对所述的多个文档进行聚类分析,按照聚类分析的结果,将具有共同特征的文档分别组织为一个类;并对所产生的类中所包括的文档进行聚类分析,将具有共同特征的文档分别组织为更小的类;显示设备,用于在用户界面上动态显示所述多个文档、文档标题或者类;以及控制装置,用于控制所述显示设备将各级类显示为虚拟文件夹或者目录,虚拟文件夹或者目录包括下一级的类的虚拟...
【专利技术属性】
技术研发人员:苏中,张俐,潘越,白莉,杨力平,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。