用于文档浏览的个性化分类处理方法及系统技术方案

技术编号:2859694 阅读:207 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种文档分类处理方法和系统,用于互联网中的文档浏览,该方法包括步骤:在服务器端建立多个类别,将供用户浏览的文档分配到相应的类别之下,并以扁平结构管理多个所述类别;以及在客户机端,从多个类别中选择所需类别来建立个性化分类结构。利用本发明专利技术的系统和方法能够节省大量的计算和存储成本。

【技术实现步骤摘要】

本专利技术涉及在客户机-服务器结构网络中的个性化信息服务,特别涉及在互联网系统中用于文档浏览的个性化分类处理方法和系统。
技术介绍
随着计算技术的发展,人们越来越需要个性化的分类服务。所谓个性化的分类服务,就是用户可以定义自己的、不同于其他人的类别树,所需要的文档被映射到用户自定义的类别树,并产生文档目录。这种个性化分类服务十分重要,因为人们具有不同的兴趣爱好和知识背景。 在现有技术中,需要根据用户的不同兴趣,为每个人建立各自的分类模型。通常,因为文档数据库非常庞大,所有文档都要在离线的状态下映射到该用户的这个分类模型,并产生文档目录(不能实时产生),而每个用户的这个分类模型都要基于该用户的输入及其以前的历史曰志来进行训练和学习,以不断地进行完善,这就使得对所有人提供统一的分类方案十分困难。 如在文献“Document Ontology Based Personalized Filtering System(基于文档实体论的个性化筛选系统)’by Kyung-Sam Choi et al”中,公开了根据用户的不同兴趣,为每个人建立各自的分类模型的技术方案。换句话说,不同的人具有不同的模型。 对于提供商来说,提供这种服务的最大的问题是繁重的计算和存储成本。而这个问题的根本原因就是,对于每个用户来说,都需要训练和更新他们的分类模型。与用户的兴趣情况相比,其分类模型在存储空间上更加庞大,并且即使系统支持的话,也将花费巨大的存储成本。若在文档数据库中进行更新操作,通过对其分类模型施加分类算法,还会导致用户的每个文档目录都发生更新,对这种类别树的更新操作是非常复杂和昂贵的。 因此,迫切需要一种灵活、简单、成本低的个性化文档分类处理方法和系统。
技术实现思路
为了解决上述问题,本专利技术提供了一种个性化服务的一般分类模型,在这种结构下,无论用户的个性化分类设计之间存在什么差别,也仅仅只需要训练和更新唯一的系统分类模型,而用户的个性化分类基于这个系统分类模型来产生,只需要很少的成本,因为只需要训练一个系统分类模型,而不是为每个用户分别训练不同的分类模型。 因此,本专利技术提供一种文档分类处理方法,包括步骤在服务器端建立多个类别,将供用户浏览的文档分配到相应的类别之下,并以扁平结构管理多个所述类别;以及在客户机端,从多个类别中选择所需类别来建立个性化分类结构。 本专利技术还提供一种文档分类处理系统,包括通过网络连接的服务器和客户机,其中还包括系统分类装置,配置在所述服务器端,用于为供用户浏览的各个文档建立多个类别,将各个所述文档分配到相应的类别之下,并以扁平结构管理所述多个类别;以及定制装置,配置在所述客户机端,用于从多个类别中选择所需类别,以建立个性化分类结构。 在本专利技术中,上述个性化分类结构是树结构,所述树结构的每个节点包括一个或多个类别。 这种结构的优点在于当用户改变其类别设计时,在服务器侧不需要有任何改变,而当服务器侧被更新时,也只需要更新系统分类模型,并且用户自己不需要是文档分类方面的专家。这样,本专利技术的系统和方法能够节省大量的计算和存储成本。 附图说明 图1表示本专利技术的一般系统示意图; 图2表示本专利技术系统的较详细的结构图; 图3是本专利技术在服务器端以扁平结构管理的分类结构的示意图; 图4是本专利技术在客户机端所定义的分类树结构的示意图; 图5是本专利技术在客户机端所定义的另一分类树结构的示意图; 图6是本专利技术的分类矩阵的示意图; 图7是说明用于定义分类树结构的方式的示意图;和 图8是描述实现本专利技术的文档分类处理方法的流程图。 具体实施例方式 在具体描述本专利技术的实施例之前,将先定义与本专利技术相关的一组概念。类别表示相关文档的逻辑分组,每个类别(也可以称为类别模型)经常由一组密钥字表示,以反映其所包含文档的类别含义,例如新闻、财经、体育、娱乐和新技术,等等。 个性化分类表示允许用户定义他们自己的类别结构,并自动将文档分类到这些结构中。 二值化器具有将输入文档转化为二进制符号(例如{0,1})的功能。下面结合附图详细说明本专利技术的具体实施例。 图1是表示本专利技术的一般系统原理的示意图。如图1所示,在服务器中,先为各种文档生成多个系统类别,存储于“系统类别库”中,并自动将存储于“文档数据库”中的相应文档分类到这些系统类别之下,这些系统类别在“系统类别库”中是以扁平的结构来管理的;在客户机端,用户定义所期望的分类树结构,并将该树结构映射到服务器端的“系统类别库”中;通过用户对该分类树结构中的特定节点的选定,该“系统类别库”为该用户从“文档数据库”中提取其所需要的文档,并将它们提供给该用户的客户机以进行显示。 图2表示本专利技术系统的较详细的结构图。如图2所示,本专利技术的系统主要包括两个部分,即客户机101和服务器102,它们通过可以诸如是局域网、广域网(其中包括互联网)等的各种网络103连接,形成一个客户机-服务器结构的系统,其所适用的典型结构是互联网。 服务器102包括数据库122,其中存储大量的文档及其相关信息,以供用户通过网络进行浏览,这些文档包括服务提供商所能收集到的各种文档;和系统分类装置121,为要被浏览的文档建立多个类别(模型),即所谓的系统分类模型,并将所述文档分配到相应的类别之下,而这些类别在服务器端是以扁平结构进行排列的。 另外,本专利技术的系统还包括初始化部件200,与系统分类装置121相连接或配置在其内,用于对各种基本信息模型进行初始化(建模)操作;和更新部件201,与系统分类装置121相连接或配置在其内,用于对文档和/或类别进行更新等操作。 本专利技术的系统还可以包括控制端口104,用于通过向系统分类装置121输入控制指令,来控制系统分类装置121中有关文档处理的操作。控制端口104可以是键盘、鼠标、手写板、麦克风和照相部件等输入装置。 当然,本专利技术中的系统分类装置121完全可以在软件的控制下自主地完成上述操作,而不需要依靠管理员通过控制端口104来输入相关的控制指令。另外,本专利技术中的系统分类装置121也可以被配置为不包括或连接初始化部件200和更新部件201,而作为一个独立的装置或部件来完成上述各种功能。 客户机101中包括定制部件110,用于从服务器102所提供的多个类别中选择所需要的类别,以建立个性化分类结构;和浏览装置111,用于在选定分类树结构的特定节点的情况下,从系统分类装置121接收用户要浏览的文档,并将其提供给用户。上述的定制部件110和浏览部件111还可以被合并为一个部件,来完成同样的功能。用户通过服务器102所提供的例如网页的图形用户接口(未示出)与服务器102进行交互操作,并将自己定义的所期望的类别树结构映射给服务器102中的系统分类装置121,该系统分类装置121根据用户所定义的类别树结构,向客户机101提供其所需要的文档信息。 在客户机101与服务器102之间通过网络进行交互的过程中,可以使用在其上附加了相关描述信息的令牌,作为客户机101和服务器102之间的信令,进行各种消息的传递。当然,也可以使用其它任何种类的消息传递方式,由于网络中的消息传递方式不是本专利技术的目的,且其在目前已经是非常成熟的技术,在此将省略对其的详细描述。 当然,在本专利技术中,服本文档来自技高网
...

【技术保护点】
一种文档分类处理方法,包括步骤:(1)在服务器端建立多个类别,将供用户浏览的文档分配到相应的类别之下,并以扁平结构管理多个所述类别;以及(2)在客户机端,从多个类别中选择所需类别来建立个性化分类结构。

【技术特征摘要】
1.一种文档分类处理方法,包括步骤(1)在服务器端建立多个类别,将供用户浏览的文档分配到相应的类别之下,并以扁平结构管理多个所述类别;以及(2)在客户机端,从多个类别中选择所需类别来建立个性化分类结构。2.如权利要求1所述的文档分类处理方法,其特征在于所述个性化分类结构是树结构,所述树结构的每个节点包括一个或多个类别。3.如权利要求2所述的文档分类处理方法,其特征在于还包括步骤(3)在客户机端,通过选定树结构中的特定节点,浏览所需文档。4.如权利要求3所述的文档分类处理方法,其特征在于所述步骤(1)还包括步骤建立类别组,其中类别组中包括多个所述类别,每个所述类别具有第一识别信息;建立文档组,其中文档组中包括要被浏览的全部文档,每个所述文档具有第二识别信息;建立包含多个比特串的比特串数组,其中每个比特串表示与其相应的类别在所述类别组中的位置;和为每个所述类别建立相应的类别表,其中存储属于该类别的各个文档的第二识别信息。5.如权利要求4所述的文档分类处理方法,其特征在于还包括步骤将各个文档二值化,其中如果一文档属于某一类别,则该文档在该类别下的二值化结果为1,并将该文档的第二识别信息插入到该类别的所述类别表中;如果一文档不属于某一类别,则该文档在该类别下的二值化结果为0。6.如权利要求5所述的文档分类处理方法,其特征在于还包括步骤建立类别更新列表和文档更新列表,用于分别记录所述类别和所述文档的更新状态。7.如权利要求6所述的文档分类处理方法,其特征在于所述类别的第一识别信息包括该类别在所述类别组中的第一位置信息,并且所述文档的第二识别信息包括该文档在所述文档组中的第二位置信息。8.如权利要求7所述的文档分类处理方法,其特征在于还包括步骤当删除一类别时,删除与其相应的比特串,并在所述类别更新列表中标记所述第一位置信息,表示该位置为空。9.如权利要求8所述的文档分类处理方法,其特征在于还包括步骤当插入一类别时,先在所述类别更新列表中进行搜索,如果找到被标记的第一位置信息,则将该类别插入所述类别组中的相应位置,并删除所述类别更新列表中的所述第一位置信息;如果没有找到被标记的所述第一位置信息,则将该类别插入到所述类别组中的新位置;以及将与所插入的类别相应的比特串增加到比特串数组中。10.如权利要求7所述的文档分类处理方法,其特征在于还包括步骤当删除一文档时,从所述类别表中删除所述文档的所述第二识别信息,并在所述文档更新列表中标记所述第二位置信息,表示...

【专利技术属性】
技术研发人员:苏中潘越
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1