【技术实现步骤摘要】
分案说明本申请属于申请日为2006年4月24日的中国专利技术专利申请200680021225.9的分案申请。
本专利技术涉及组织信息。本专利技术尤其涉及相对于分类体系来分类词语、短语、文档和/或词语同现聚类,以及涉及使用该分类后的文档和/或聚类。
技术介绍
“分类体系(taxonomy)”是结构化的、通常是分层的类别或分类的集(或者是这种类别或分类所隐含的原理)。分类体系可以用来表达多个事件(简单地被称作“对象”)之间的关系,所以它们是有用的。例如,分类体系可以用来确定不同的对象是否共同“属于”或者用于确定不同对象的关系有多么近。遗憾的是,把对象分配到分类体系中的一个或多个适当类别可能是困难的。如果要将不同类型的对象分配到分类体系则尤其困难。并且,如果用于分类的对象属性可能随时间改变或者如果正在向待分类的对象域中增加和/或从该对象域移除许多对象,则尤其困难。例如,万维网(World Wide Web)持续地增加和移除网站。此外,网站的内容常常改变。从而,对网站分类可能是困难的。鉴于上述,提供用于把对象(例如网站)以及可能不同类型的对象分配到分类体系的适当类别的自动化装置应是有用的。
技术实现思路
根据本专利技术的至少一些实施例可以自动地分类网站。这种实施例可以通过以下来步骤实现:(a)接受网站信息,(b)使用所述网站信息来确定所述网站的评分聚类(例如,语义、词语同现等)构成的集,以及(c)使用聚类集的至少一些来确定预定义分类体系的至少一个类别(例如,垂直类别)。根据本专利技术的至少一些实施例可以把语义聚类(例如词语同现聚类)与预定义分类体系的一个或多个类别(例 ...
【技术保护点】
一种把语义聚类与预定义分类体系的一个或多个类别相关联的计算机实现的方法,所述方法包括:a)通过包括至少一个计算机的计算机系统接受在文档中重复出现的词语的多个语义聚类,所述多个语义聚类具有基于词语的重复出现的频率;b)通过所述计算机系统基于所接受的在所述文档中重复出现的词语的聚类,来标识用于所述文档的一个或多个概念,每个概念标识具有相同含义的不同的重复出现的词语;c)通过所述计算机系统对所标识的一个或多个概念评分,所述一个或多个概念中的每一个概念的得分通过该概念所标识的重复出现的词语中的每一个词语的聚类频率被加权;d)通过所述计算机系统使用所述一个或多个评分概念中的至少一些来标识一个或多个类别的集,以在概念类别索引中查找一个或多个类别,其中类别对应于预定义分类体系中的节点,所述预定义分类体系定义类别的结构化集;以及e)通过所述计算机系统把所述一个或多个类别中的至少一些与所述语义聚类相关联。
【技术特征摘要】
2005.04.22 US 11/112,7161.一种把语义聚类与预定义分类体系的一个或多个类别相关联的计算机实现的方法,所述方法包括:a)通过包括至少一个计算机的计算机系统接受在文档中重复出现的词语的多个语义聚类,所述多个语义聚类具有基于词语的重复出现的频率;b)通过所述计算机系统基于所接受的在所述文档中重复出现的词语的聚类,来标识用于所述文档的一个或多个概念,每个概念标识具有相同含义的不同的重复出现的词语;c)通过所述计算机系统对所标识的一个或多个概念评分,所述一个或多个概念中的每一个概念的得分通过该概念所标识的重复出现的词语中的每一个词语的聚类频率被加权;d)通过所述计算机系统使用所述一个或多个评分概念中的至少一些来标识一个或多个类别的集,以在概念类别索引中查找一个或多个类别,其中类别对应于预定义分类体系中的节点,所述预定义分类体系定义类别的结构化集;以及e)通过所述计算机系统把所述一个或多个类别中的至少一些与所述语义聚类相关联。2.根据权利要求1所述的计算机实现的方法,其中,所述语义聚类是词语同现聚类,在所述词语同现聚类中,倾向于在以下至少一个中共同出现的词语在被分组在一个语义聚类下:(A)搜索引擎上的搜索会话、或(B)万维网上可用的文档。3.根据权利要求1所述的计算机实现的方法,其中,所述语义聚类包括倾向于在搜索引擎上的搜索会话中共同出现的词语。4.根据权利要求1所述的计算机实现的方法,其中,所述语义聚类包括倾向于在万维网上可用的文档中共同出现的词语。5.根据权利要求1所述的计算机实现的方法,其中,把所述一个或多个类别中的至少一些与所述语义聚类相关联的动作包括:产生并存储索引条目,所述索引条目把所述语义聚类映射到所述一个或多个类别中的所述至少一些中的每个类别。6.根据权利要求1所述的计算机实现的方法,其中,所述预定义分类体系的类别对应于以下至少一个:(A)可能在网站内容中找到的相关商品,(B)可能在网站内容中找到的相关服务,(C)可能在网站内容中找到的相关产业,以及(D)可能在网站内容中找到的相关主题。7.根据权利要求1所述的计算机实现的方法,其中,使用所述一个或多个评分概念中的至少一些来标识一个或多个类别的集以在概念类别索引中查找一个或多个类...
【专利技术属性】
技术研发人员:大卫·格尔金,罗征,安德鲁·麦克斯维尔,
申请(专利权)人:谷歌公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。