当前位置: 首页 > 专利查询>GOOGLE公司专利>正文

用于确定文档的含义以使文档与内容匹配的方法和系统技术方案

技术编号:2920333 阅读:299 留言:0更新日期:2012-04-11 18:40
本发明专利技术描述了用于确定文档的含义,以使文档与内容相匹配的系统和方法。在一个方面中,访问源文章;识别源文章中的多个区;确定至少一个与每个区相关联的局部概念;分析每个区的局部概念以识别任何不相关区;删除与任何不相关区相关联的局部概念,以确定相关概念;分析相关概念以确定源文章的源含义;以及使源含义和与来自一组条目的条目相关联的条目含义相匹配。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般地涉及文档。更具体地,本专利技术涉及用于确定文档的含义以使文档(document)与内容(content)相匹配的系统和方法。
技术介绍
例如,文档(例如网页)可以与互联网上的其它内容相匹配。文档包括,例如,诸如HTML、XML、XHTML的各种格式的网页;可移植文档格式(PDF)文件;以及文字处理器和应用程序文档文件。使文档与内容相匹配的一个实例是在互联网广告中。例如,网站的发行人可以允许在其网页上发布广告以收费。当发行人希望在网页上向用户显示广告时,服务商能够向发行人提供在网页上显示的广告。服务商可以依据诸如关于用户的人口统计信息、网页类别(例如,体育或是娱乐)、或网页内容的多种因素来选择广告。服务商也可以使网页内容与诸如来自关键字列表的关键字的知识条目(knowledge item)相匹配。之后可以在网页上显示与匹配的关键字相关联的广告。用户可以操作鼠标或另外的输入设备并“点击”广告,以观看提供待售商品或服务的广告商网站上的网页。在互联网广告的另一实例中,在发行人网页上在相关链接或类似部分(section)中显示实际的匹配关键字。与上述实例类似,网页的内容与一个或多个关键字相匹配,之后该关键字被显示在例如相关链接部分中。当用户点击特定的关键字时,可以将用户引导至可能包括广告和常规搜索结果的混合的搜索结果页面。广告商投标关键字,以使他们的广告出现在这样的该关键字搜索结果页面上。用户可以操作鼠标或另外的输入设备并“点击”广告,以观看提供待售商品和服务的广告商网站上的网页。广告商希望网页的内容与广告密切相关,因为如果该广告与用户在网页上所阅读的内容高度相关,则阅读该网页的用户更有可能点击该广告并购买所提供的商品或服务。网页的发行人也希望广告的内容与网页的内容相匹配,因为如果用户点击了广告,发行人通常会获得报酬;而就敏感内容而言,不匹配是广告商或是发行人都不希望的。文档(例如网页)可以包括多个区,诸如,就网页而言的框架(frame)。一些区可以与文档的主要内容不相关。因此,不相关区的内容可能用不相关的主题淡化整个文档的内容。因此,为了使文档与内容相匹配,在确定源文档的含义时,需要分析最相关区的源文档。
技术实现思路
本专利技术的实施例包括确定文档的含义以使文档与内容相匹配的系统和方法。本专利技术实施例的一个方面包括访问源文章(sourcearticle,源物、源文件);识别源文章中的多个区;确定与每个区相关联的至少一个局部概念(local concept);分析每个区的局部概念,以识别任何不相关区;删除与不相关区相关联的局部概念,以确定相关概念;分析相关概念,以确定源文章的源含义;以及使源含义和与来自一组条目的条目相关联的条目含义相匹配。该条目可以本身是内容,或可以与内容相关联。在一个实施例中,本专利技术进一步包括在源文章上显示匹配的条目。在另一实施例中,本专利技术进一步包括在源文章上显示与该条目相关联的内容。本专利技术的其它方面是指具有与前述的方面相关的特征的计算机系统和计算机可读介质。附图说明参照附图阅读以下具体实施方式,可以更好地理解本专利技术的这些和其它特征、方面、以及优点,附图中图1示出了根据本专利技术的一个实施例的系统的框图;图2示出了根据本专利技术的一个实施例的方法的流程图;以及图3示出了图2所示的方法的子程序的流程图。具体实施例方式本专利技术包括用于确定文档的含义以使文档与内容相匹配的方法和系统。下面将详细参照文中和附图中所示的本专利技术的典型实施例。将在所有附图和以下说明中使用相同的附图标号表示相同或类似的部分。可以根据本专利技术构建各种系统。图1是示出了本专利技术的典型实施例可以在其中操作的典型系统的示意图。本专利技术还可以操作其它系统并在其它系统中实现。图1中示出的系统100包括多客户机装置102a-n,服务器装置104、140和网络106。示出的网络106包括互联网。在其他的实施例中,可以使用其他的网络,例如内联网。而且,根据本专利技术的方法可在单个计算机上运行。示出的客户机装置102a-n每个均包括计算机可读介质,例如在示出的实施例中被耦合到处理器110的随机存储器(RAM)108。处理器110执行存储在存储器108中的计算机可执行的程序指令集。这种处理器可包括微处理器、ASIC、和状态机。这种处理器包括或可以与介质(例如计算机可读介质)进行通信,该介质存储指令,当指令被计算机执行时,使处理器执行本文所描述的步骤。计算机可读介质的实施例包括,但是不限于此,电子的、光的、磁的、或其他存储器或能够将计算机可读指令提供给处理器(例如与触摸敏感的输入装置联系的处理器)的传输装置。其他合适的介质包括,但是不限于此,软盘,CD-ROM,磁盘,存储器片,ROM,RAM,ASIC,配置的处理器(configured processor),所有光介质,所有磁带、或其他磁介质,或计算机处理器能从其读取指令的任何其他的介质。并且,各种其他形式的计算机可读介质可传输或运送指令到计算机,包括路由器,专用或公共网络,或其他传输装置或通道,既有有线的又有无线的。这些指令可包括由任何计算机编程语言(例如,包括C、C++、C#、Visual Basic、Java、和JavaScript)编写的代码。客户机装置102a-n也可以包括许多外部或内部装置,例如鼠标、CD-ROM、键盘、显示器、或其他输入或输出装置。客户机装置102a-n的实例是个人计算机、数字助理、个人数字助理、便携式电话、移动电话、智能电话、寻呼机、数字化板、便携式计算机、基于处理器的装置、和类似类型的系统和装置。一般而言,客户机装置102a-n可以是任何类型的连接到网络106的基于处理器的平台,并且其和一个或多个应用程序交互。示出的客户机装置102a-n包括执行浏览器应用程序(例如,微软公司6.0版本的InternetExplorerTM,网景通讯公司的7.1版本的Netscape NavigatorTM,以及苹果公司1.0版本的SafariTM)的个人计算机。通过客户机装置102a-n,用户112a-n能够通过网络106彼此通信以及与耦合到网络106的其他系统和装置通信。如图1所示,服务器装置104、140也被耦合到网络106。示出的文档服务器装置104包括执行文档引擎应用程序的服务器。示出的内容服务器装置140包括执行内容引擎应用程序的服务器。系统100也可以包括多个其他的服务器装置。类似于客户机装置102a-n,每个示出的服务器装置104、140包括耦合到计算机可读存储器118、144的处理器116、142。每个服务器装置104、140被描述为单一的计算机系统,但是其可以被实现为计算机处理器的网络。服务器装置104、140的实例是服务器、大型计算机、网络计算机、基于处理器的装置、和类似类型的系统和装置。客户机处理器110和服务器处理器116、142可以是许多公知的计算机处理器中的任意一种,例如来自Santa Clara,California的Intel公司和Schaumbug,Illinois的Motorola公司的处理器。文档服务器装置104的存储器118包含文档引擎应用程序,也即通常所说的文档引擎124。文档引擎124确定源文章的含义,并将源文章和条目匹配,例如,另一个文本文档来自技高网
...

【技术保护点】
一种方法,包括以下步骤:访问源文章;识别所述源文章中的多个区;确定与每个区相关联的至少一个局部概念;分析每个区的所述局部概念,以识别任何不相关区;删除与任何不相关区相关联的所述局部概念,以确定相关概念 ;分析所述相关概念,以确定所述源文章的源含义;以及使所述源含义和与来自一组条目的条目相关联的条目含义相匹配。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:阿达姆J韦斯曼吉拉德伊斯雷尔埃勒巴兹
申请(专利权)人:GOOGLE公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1