生成用于支持在线服务的资源制造技术

技术编号:12953653 阅读:65 留言:0更新日期:2016-03-02 13:12
提供了一种用于分析按类别整理的概念的数据库的系统和方法,其中,每个概念是在线文本文档,从而确定概念之间的数值关系,并且确定类别的层级。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】生成用于支持在线服务的资源相关申请本申请要求2013年11月27日提交的美国临时专利申请61/910,000的权益,通过引用将该临时申请的全部内容并入本文中。
本公开大体上涉及数据库处理,并且更具体地,涉及具有被分为类别的概念的数据库的处理以加权数据库内的概念的相似性。
技术介绍
如果可以智能地处理用户交互以为用户进行推荐,那么在线服务可以增加其受欢迎程度。例如,运行在网页服务器上的应用可以基于其当前使用而为用户推荐其他网页。在这方面,当前存在大量的百科式数据库,例如维基百科,其提供和概念相关的大量信息,概念例如“纽约”或“麦当娜”等等。如果这种数据库可以被自动地分析以确定概念之间的关系,那么给用户的推荐就更加准确,这支持了用户的交互和参与。由于发现在线数据库中的概念之间的关系是如此有价值,已经花费了不少的努力以试图提供这种关系分析。但不幸地是,当前的分析仅仅是针对特定数据库在个案基础上开发。这种应用一般仅对于单种语言使用是有效的,并且难以或者不可能转换成其他语言。因此,常规应用中针对概念关系的资源的更新涉及大量的人工干预。因此,现有技术中需要一种能够处理数据库以发现数据库中的概念之间的关系的应用。
技术实现思路
—方面,提供了一种系统来分析按类别整理的概念的数据库。该系统配置为执行包括下列步骤的方法:为每个类别,计算第一概念的数量,第一概念的类别为直接包括第一概念的第一级类别;计算第二概念的数量,该第二概念的类别仅通过第二概念为类别中的转而包括第二概念的其他类别的成员而包括第二概念;依此类推,直到计算第η概念的数量,其中,第η概念的类别是第η级类别,η为复数正整数。此外,该方法包括:对于每个类别,将类别分类为具有最高计数的级别;及最后,该方法包括:对于以各个级别分类的类另IJ,至少基于类别的概念的网页排名,确定那些具有最重要概念的分类的类别,从而为每个具有最重要概念的级别确定一组分类的类别。通过下述详细说明,可以更好地理解本文公开的系统和方法的其他特征和优势。【附图说明】图1Α示出了根据本公开实施方式的用于系统的模块的集合,该系统用于分析数据库以确定其概念和类别之间的关系。图1Β示出了图1Α的用于系统的其他模块。图2示出了通过图1A的系统分析的数据库中的一组类别的循环。图3A示出了针对确定通过图1A的系统分析的数据库的类别等级的用于第一概念的计数过程。图3B示出了被应用于另一概念的图3A的计数过程。图4是根据本专利技术实施方式的用于分析概念按类别整理的数据库的方法的流程图。图5是示例性计算机系统的框图,其可以配置成实施图1A和1B的系统。通过参阅下文的详细说明将最佳地理解本专利技术的实施方式及其优势。应该意识到,类似的附图标记用于标识一个或多个附图中的类似元件。【具体实施方式】下文列出的详细说明连同附图旨在描述各种配置,并且不意图代表可以实践本文描述的概念的仅有配置。为了提供对各种概念的透彻理解,详细说明包括具体细节。然而,本领域技术人员显而易见的是,这些概念可以在没有这些具体细节的情况下实施。在一些例子中,为了避免模糊这些概念,公知的结构和部件以框图形式示出。百科数据库的用于提供额外在线资源的概念性分析与统计学方法不同。例如,托管商业网站的应用通常会统计学地审查交易,从而一旦购买了一件商品,应用可以推荐购买了相同商品的其他用户也购买的相关商品。但这种分析与商品本身以及其与相关商品的概念性关系是无关的。本文公开的系统和方法不仅使用用户网页浏览的过去行为,还分析数据库以用数字表征数据库中的概念的相互关联性。在这种方式中,如果用户正在阅读具有给定概念的网页,则具有相关概念的网页可以被智能地推荐给用户。如本文所使用的,“概念”是具有与之相关的文本信息的数据库实体,该文本信息会包括至数据库中的其他概念的链接。概念的数据库的一个实例是维基百科,其中,每个概念被表示为文章。这些文章被按类别整理。每个类别是相关文章的集合。尽管下述分析将致力于维基百科中的概念的分析,但应该意识到,本文公开的分析可以广泛地应用到具有概念的其他数据库,每个概念是可能包括至数据库中的其他概念的链接的文本数据库条目。概念的类比是电子表格数据库中的记录。通常,每项记录是电子表格中包含多个字段的行。因此,与数据库实体或“概念”相关的词与电子表格数据库的行(或记录)的字段相似。公开了一种系统以执行本文公开的资源生成。该系统包括多个模块。每个模块可以由单个计算机或者计算机的集群来实施。可选地,可以利用ASIC或者配置的现场可编程门阵列来实施各个模块。图1A示出了示例性系统100的高级概览。系统100运行以从数据库105生成资源。下述讨论将假设数据库105是维基百科数据库,但是应该意识到,系统100可以以同样的方式来分析类似的数据库。在维基百科中,某些文章并不专用于概念。例如,“New York”的因特网搜索将导向专用于关于纽约的状况的文本文章的维基百科页面。但相反,其他维基百科页面是消除歧义的页面。例如,术语“Madonna”是有歧义的,因为其可以指地方、流行乐艺术家或者宗教人士。对于这种歧义的概念,维基百科可以提供“消除歧义页面”,其列出了具有相同名字的各种概念。这种消除歧义的页面本身不提供和一个概念与另一个概念之间的关系有关的信息,因此,系统100可以提供消除歧义页面抽取器模块110以识别表单120中的所有的维基百科消除歧义页面或参考。维基百科为每个分离的网页或文章提供了参考编号。为了通过其参考编号识别所有的概念和类别,系统100可以包括页分析器、抽取器、以及配置为生成概念表单125的过滤器模块115。该概念表单125是维基百科中所有概念(也就是说,分离的网页)的表单,包括消除歧义页面。此外,模块115生成维基百科的所有类别的表单。在这方面,维基百科表单中每个实质的(非消除歧义页面)列出了一个或多个类别。例如,用于“New York”的维基百科页面表明该概念包括在六个维基百科类别中:前英殖民地、纽约、美国的州、中大西洋、美国东北部以及美国东海岸的州。如这种示例性类别组所示,概念也可以是独立的“New York”概念和类别所示的类别。每个类别包括一个或多个概念,它们等同于维基百科中特定主题下的文本内容的独立的文章或网页。分析器、抽取器以及过滤器模块115还生成概念参考映射140。在这方面,维基百科中的每个概念可以包括至其他维基百科概念的超链接。概念参考映射140列出了维基百科中每个概念对其他概念的所有这种参考。但是,注意到,一些超链接不涉及超链接中的文本参考所指示的概念。例如,上述的用于“New York”的维基百科页面包括“人口第三多”,其并不导向“人口第三多”的概念,而是导向涉及“按人口统计的美国的州和地区的表单”的概念的页面网页。如本文所使用的,通过超链接(其以与相应的概念不同的方式被表达)从一个概念到另一概念的这些参考被表示为重新定向。模块115还为每个概念生成概念重新定向映射,以列出概念可能具有的至其他概念的任何重新定向。如下文将进一步解释的,这些重新定向为可用于识别相关概念的给定概念提供了和同义词有关的额外信息。概念参考映射140为每个概念识别包括消除歧义页面在内的所有参考的概念。由于已经在表单120中识别了消本文档来自技高网...

【技术保护点】
一种用于按类别整理的在线文本概念的数据库的机器实施的方法,包括:为每个类别,计算第一概念的数量,第一概念的类别为直接包括第一概念的第一级类别;计算第二概念的数量,该第二概念的类别仅通过第二概念是类别中的转而包括第二概念的其他类别的成员而包括第二概念;依此类推,直到计算第n概念的数量,其中,第n概念的类别是第n级类别,n为复数正整数;对于每个类别,将类别分类为具有最高计数的级别;及对于以各个级别分类的类别,至少基于类别的概念的页面排名,确定那些具有最重要概念的分类的类别,从而为每个具有最重要概念的级别确定一组分类的类别。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:P·苏巴希奇H·S·申R·苏基坦尹红风S·慕克吉秋永和计
申请(专利权)人:NTT都科摩公司
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1