当前位置: 首页 > 专利查询>谷歌公司专利>正文

相对于分类体系来分类对象及从这种分类导出的数据结构制造技术

技术编号:13878424 阅读:90 留言:0更新日期:2016-10-22 18:29
本发明专利技术涉及相对于分类体系来分类诸如文档和/或聚类的对象以及从这种分类导出的数据结构。一种方法包括:接受在文档中重复出现的词语的具有频率的多个语义聚类;基于所接受的在文档中重复出现的词语的聚类,标识文档的一个或多个概念,每个概念标识具有相同含义的不同的重复出现的词语;对所标识的一个或多个概念评分,每个概念得分通过该概念所标识的重复出现的词语中的每个词语的聚类频率被加权;使用所述一个或多个评分概念中的至少一些来标识一个或多个类别的集,以在概念类别索引中查找一个或多个类别,其中类别对应于定义了类别的结构化集的预定义分类体系中的节点;及把所述一个或多个类别中的至少一些与所述语义聚类相关联。

【技术实现步骤摘要】
分案说明本申请属于申请日为2006年4月24日的中国专利技术专利申请200680021225.9的分案申请。
本专利技术涉及组织信息。本专利技术尤其涉及相对于分类体系来分类词语、短语、文档和/或词语同现聚类,以及涉及使用该分类后的文档和/或聚类。
技术介绍
“分类体系(taxonomy)”是结构化的、通常是分层的类别或分类的集(或者是这种类别或分类所隐含的原理)。分类体系可以用来表达多个事件(简单地被称作“对象”)之间的关系,所以它们是有用的。例如,分类体系可以用来确定不同的对象是否共同“属于”或者用于确定不同对象的关系有多么近。遗憾的是,把对象分配到分类体系中的一个或多个适当类别可能是困难的。如果要将不同类型的对象分配到分类体系则尤其困难。并且,如果用于分类的对象属性可能随时间改变或者如果正在向待分类的对象域中增加和/或从该对象域移除许多对象,则尤其困难。例如,万维网(World Wide Web)持续地增加和移除网站。此外,网站的内容常常改变。从而,对网站分类可能是困难的。鉴于上述,提供用于把对象(例如网站)以及可能不同类型的对象分配到分类体系的适当类别的自动化装置应是有用的。
技术实现思路
根据本专利技术的至少一些实施例可以自动地分类网站。这种实施例可以通过以下来步骤实现:(a)接受网站信息,(b)使用所述网站信息来确定所述网站的评分聚类(例如,语义、词语同现等)构成的集,以及(c)使用聚类集的至少一些来确定预定义分类体系的至少一个类别(例如,垂直类别)。根据本专利技术的至少一些实施例可以把语义聚类(例如词语同现聚类)与预定义分类体系的一个或多个类别(例如垂直类别)相关联。这些实施例可以通过以下来完成:(a)接受语义聚类,(b)使用所接受的聚类来标识一个或多个评分概念构成的集,(c)使用所述一个或多个评分概念的至少一些来标识一个或多个类别构成的集,以及(d)把一个或多个类别中的至少一些与语义聚类相关联。根据本专利技术的至少一些实施例可以使资产(例如网站)与预定义分类体系的一个或多个类别(例如垂直类别)相关联。这种实施例可以通过以下来实现:(a)接受关于资产的信息,(b)使用所接受的资产信息来标识一个或多个评分语义聚类(例如词语同现聚类)构成的集,(c)使用一个或多个评分语义聚类中的至少一些来标识一个或多个类别(例如垂直类别)构成的集,以及(d)把一个或多个类别的至少一些与资产相关联。附图说明图1图示了可以在根据本专利技术的示例性实施例中所提供的操作以及可以由这些操作所使用和/或产生的信息。图2图示了可以在根据本专利技术的示例性实施例中提供的操作以及可以由这些操作所使用和/或产生的信息,用于把聚类(例如,单词字和/或词的集)与分类体系的类别相关联(例如映射或索引)。图3图示了可以在根据本专利技术的示例性实施例中提供的操作以及
可以由这些操作所使用和/或产生的信息,用于把文档与分类体系的类别相关联。图4图示了可以在根据本专利技术的示例性实施例中提供的操作以及可以由这些操作所使用和/或产生的信息,用于把文档与分类体系的类别相关联。图5是可以用来根据本专利技术的方式把一个或多个聚类与一个或多个分类体系类别相关联的示例性方法500的流程图。图6是可以用来根据本专利技术的方式把一个或多个文档与一个或多个分类体系类别相关联的示例性方法600的流程图。图7是可以用来根据本专利技术的方式把一个或多个文档与一个或多个分类体系类别相关联的示例性方法700的流程图。图8–17根据本专利技术图示了可以被存储为索引的各个示例性映射。图18–23根据本专利技术图示了示例性用户接口的各个显示屏。图24是用于图示可以使用根据本专利技术的示例性实施例来怎样确定“最佳”类别的分类体系的部分。图25是可以用来在根据本专利技术的示例性实施例中执行操作和/或存储信息的示例性设备的框图。§4.具体实施方式本专利技术可涉及用于根据分类体系来分类诸如词、短语、文档和/或聚类的对象的新颖方法、设备、消息格式以及从该分类导出的数据结构。给出以下描述使得本领域技术人员能够实施并使用本专利技术,并且在特定应用及其要求的范围内给出该描述。因此,根据本专利技术的以下具体实施方式提供了图示和描述,但是并不意味着穷举本专利技术或将其限制为所公开的精确形式。对所公开实施例的各种修改,对于本领域技术人员来说是显而易见的,并且下面所阐明的通用原理可以被应用于其它实施例和应用。例如,尽管可以参考流程图描述一系列动作,然而当一个动作的执行不取决于另一动作的完成时,在其它执行中动作的次序可以不同。此外,可以并行执行非依赖的动作。在描述中所
使用的元件、动作或指令不应当被理解为对本专利技术来说是关键的或必要的,除非明确这样指出。不加数量限制的项意在包括一个或多个项。在表示一项时,使用词语“一个”或类似的语言。从而,本专利技术并不意在被限制为所示出的实施例并且专利技术人把他们的专利技术认作所描述的任何可取得专利的主题。在下面,在§4.1中提供了在说明书中所使用的定义。然后,在§4.2中描述了根据本专利技术的示例性实施例。在§4.3中提供了图示根据本专利技术的示例性实施例中的操作的例子。最后,在§4.4中阐明了关于本专利技术的一些结论。§4.1定义“资产(property)”是在上面可以提供广告的一些事物。资产可以包括在线内容(例如网站、MP3音频节目、在线游戏等)、离线内容(例如报纸、杂志、剧场演出、音乐会、体育比赛等)、和/或离线对象(例如布告板、体育场记分板和外场墙壁、卡车拖车侧面等)。具有内容的资产(例如杂志、报纸、网站、电子邮件消息等)可以被称作为“媒体资产”。尽管资产本身可以是离线的,不过关于资产的相关信息(例如(多个)属性、(多个)主题、(多个)概念、(多个)类别、(多个)关键词、相关信息、所支持的(多个)广告类型等)可以是在线可用的。例如,户外爵士音乐节日可以已经输入主题“音乐”和“爵士乐”、音乐会的位置、音乐会的时间、安排出现在该节日的艺术家、以及可用的广告位类型(例如在印刷节目单中的广告投放点、在舞台上的广告投放点、在座椅背上的广告投放点、赞助者的音频通告等)。“文档”将被广义解释为包括任何计算机可读和机器可储存的工作产品。文档可以是文件、文件组合、具有到其它文件的嵌入式链接的一个或多个文件等。文件可以具有任何类型,诸如文本、HTML、XML、音频、图像、视频等。将被再现给终端用户的文档的部分可以
被认为是所述文档的“内容”。文档可以包括“结构化数据”,包含内容(词、图片等)和该内容的意义的一些指示(例如电子邮件字段和相关联的数据、HTML标签和相关联的数据等)。在文档中的广告位可以由嵌入式信息或指令来定义。在因特网的范围内,通用的文档是网页。网页常常包括内容并且可以包括嵌入式信息(诸如元信息、超链接等)和/或嵌入式指令(诸如Java脚本等)。在多数情况下,文档具有唯一的、可寻址的存储位置并且因此可以由该可寻址的位置来唯一地标识。通用资源定位符URL)是用于访问因特网上信息的唯一地址。文档的另一例子是包括多个相关(例如链接的)网页的网站(website)。文档的又一例子是广告。“web文档”包括万维网上公布的任何文档。web文档的例子例如包括网站或网页。“文档信息”可以包括在文档中所包括的任何信息、可从文本文档来自技高网
...

【技术保护点】
一种把语义聚类与预定义分类体系的一个或多个类别相关联的计算机实现的方法,所述方法包括:a)通过包括至少一个计算机的计算机系统接受在文档中重复出现的词语的多个语义聚类,所述多个语义聚类具有基于词语的重复出现的频率;b)通过所述计算机系统基于所接受的在所述文档中重复出现的词语的聚类,来标识用于所述文档的一个或多个概念,每个概念标识具有相同含义的不同的重复出现的词语;c)通过所述计算机系统对所标识的一个或多个概念评分,所述一个或多个概念中的每一个概念的得分通过该概念所标识的重复出现的词语中的每一个词语的聚类频率被加权;d)通过所述计算机系统使用所述一个或多个评分概念中的至少一些来标识一个或多个类别的集,以在概念类别索引中查找一个或多个类别,其中类别对应于预定义分类体系中的节点,所述预定义分类体系定义类别的结构化集;以及e)通过所述计算机系统把所述一个或多个类别中的至少一些与所述语义聚类相关联。

【技术特征摘要】
2005.04.22 US 11/112,7161.一种把语义聚类与预定义分类体系的一个或多个类别相关联的计算机实现的方法,所述方法包括:a)通过包括至少一个计算机的计算机系统接受在文档中重复出现的词语的多个语义聚类,所述多个语义聚类具有基于词语的重复出现的频率;b)通过所述计算机系统基于所接受的在所述文档中重复出现的词语的聚类,来标识用于所述文档的一个或多个概念,每个概念标识具有相同含义的不同的重复出现的词语;c)通过所述计算机系统对所标识的一个或多个概念评分,所述一个或多个概念中的每一个概念的得分通过该概念所标识的重复出现的词语中的每一个词语的聚类频率被加权;d)通过所述计算机系统使用所述一个或多个评分概念中的至少一些来标识一个或多个类别的集,以在概念类别索引中查找一个或多个类别,其中类别对应于预定义分类体系中的节点,所述预定义分类体系定义类别的结构化集;以及e)通过所述计算机系统把所述一个或多个类别中的至少一些与所述语义聚类相关联。2.根据权利要求1所述的计算机实现的方法,其中,所述语义聚类是词语同现聚类,在所述词语同现聚类中,倾向于在以下至少一个中共同出现的词语在被分组在一个语义聚类下:(A)搜索引擎上的搜索会话、或(B)万维网上可用的文档。3.根据权利要求1所述的计算机实现的方法,其中,所述语义聚类包括倾向于在搜索引擎上的搜索会话中共同出现的词语。4.根据权利要求1所述的计算机实现的方法,其中,所述语义聚类包括倾向于在万维网上可用的文档中共同出现的词语。5.根据权利要求1所述的计算机实现的方法,其中,把所述一个或多个类别中的至少一些与所述语义聚类相关联的动作包括:产生并存储索引条目,所述索引条目把所述语义聚类映射到所述一个或多个类别中的所述至少一些中的每个类别。6.根据权利要求1所述的计算机实现的方法,其中,所述预定义分类体系的类别对应于以下至少一个:(A)可能在网站内容中找到的相关商品,(B)可能在网站内容中找到的相关服务,(C)可能在网站内容中找到的相关产业,以及(D)可能在网站内容中找到的相关主题。7.根据权利要求1所述的计算机实现的方法,其中,使用所述一个或多个评分概念中的至少一些来标识一个或多个类别的集以在概念类别索引中查找一个或多个类...

【专利技术属性】
技术研发人员:大卫·格尔金罗征安德鲁·麦克斯维尔
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1