基于DNS会话数据进行节点排名的方法和系统技术方案

技术编号:5496578 阅读:292 留言:0更新日期:2012-04-11 18:40
提供了一种用于以更快速和更相关的方法对页面和/或主机进行排名的系统和方法。还提供了一种用于基于会话数据和/或业务数据对页面和/或主机进行排名的系统和方法。根据本发明专利技术,可以使用DNS数据和/或ISP数据来创建会话映射。还提供了一种为了进行商务活动而对页面和/或主机进行排名的系统和方法。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般涉及一种信息检索系统,并且更具体地,涉及 一种对集合中的节点进行排名的方法和系统。
技术介绍
因特网是通过因特网协议而相互链接的个体计算机(如客 户机和服务器等)的全球网络。万维网允许客户程序基于统一资 源定位符(URL (Uniform Resource Locators);还称为统一资源 标识符(Uniform Resource Indicator)或URI)从因特网检索信息 (如网页或文件等)。客户程序的例子有在用户的计算机上运行 以帮助定位网页或文件的网络浏览器。各个网页或文件与允许 客户程序指定该网页或文件所存储于的主机服务器的唯一URL 相关联。URL的主要成分包括模式、主机或服务器名、端口、 3各径和/或查询。例如,如果用户输入http:〃example.com/index, 则模式或访问类型是"http",主机或服务器名是"example.com" 并且路径是"index"。有时,用户可能在他的局部浏览器程序上 的浏览器工具栏中输入查询以请求特定事项。代替输入页面的 URL,用户还可以跟随超文本链接到页面或资源。然而,在客 户计算机能够连接至服务器以检索页面之前,必须将URL的主 机或服务器名部分转换成IP地址。域名服务(DNS, Domain Name Service)是依赖于解析器和名称服务器的全球分布式因特 网数据库网络,并用于将主机或服务器名映射至相关联的IP地 址。在该全球网络中,为各个网站或网页指派了唯一URL以及 称为因特网协议地址或IP地址的相关联的识别编号。将各网站的IP地址存储在一个或多个DNS服务器中,反过来,该一个或 多个D N S服务器响应于对该网站的查询将地址提供至其它计算 机。通常,用户不知道包含他们正在寻找的信息的网页的IP地 址或URL,或者用户甚至不知道这种页面是否存在。在这种情 况下,用户一般将向搜索引擎输入关键字或从参考网站链接至 该网站。为了进行关键字搜索,用户经常到GoogleTM或Yahoo 等因特网搜索引擎的站点,并键入一个或多个与查询相关的单 词或短语。响应于该关键字搜索,搜索引擎一般将返回几个 URL,请求方可以从这几个URL中选择针对其目的的最合适的 网页。然而,响应于查询而返回的页面通常相当多,在这种情 况下,经常要求用户在查找感兴趣的页面之前对这些结果进行 分类。例如,如果用户4建入单词"汽车",则通过4全索所返回的 结果可能是从汽车制造商至汽车经销店、汽车修理店和汽车爱 好者俱乐部等的网站的长的列表。由于该原因,经常对网站进 行"排名"以进 一 步根据相关性对查询的结果进行分类。本领域已知用于对网页进行排名的各种才支术。专利技术人为佩 奇的美国专利6,285,999描述了 一种用于对万维网中的页面进 行排名的查询独立模型。该专利涉及"PageRank(页面排名)"算 法,该"PageRank"算法依赖于Web的静态链接结构和迭代技术, 从而构成Google的搜索引擎页面排名的基础。例如,如果rk+"P0 是第k+1次迭代时页面Pi的PageRank,则可以将PageRank算法表 示为-.尸,&, I尸; (等式l) 其中,Bpj是反向链接至Pi(l)的页面的集合。通常,PageRank基于指向该页面的页面或"链入"的数量来 测量页面的相对"流行度"或"重要性"。作为例示,图l示出表示86个页面(表示为节点l-6)的有向图。使用所描述的节点和链接, 可以形成表示从给定节点i至节点j的链接状态的标准化超链接 矩阵H。H =PlP2P3P4P5P6'01/21/2000P2000000P31/31/3001/30P400001/21/2P50001/201/2P6、000100根据以上矩阵,可以将等式l重写为兀(K+l)T=;t(K)T(等式2)(等式3)实际上,整个网络的矩阵是不总是包含理想条件的庞大矩 阵。因此,已经对原始PageRank算法进行了许多调整,从而得 出Google矩阵G:G=aS+(l-a)l/neeT (等式4) 因而,在各种调整之后,PageRank方法变为7i(K+1)T=7i(K)TG (等式5) 可以通过对G应用幂法来求解该等式。通常使用幂法来计算Web的PageRank需要长时间。由于 PageRank需要长时间进行计算,因此仅能够在一定间隔后更新 排名。这样,在间隔结束时排名通常不如在开始时那么精确。 尽管"过期"排名可能不会极大地影响内容极少变化的页面,但 对于内容迅速变化的页面(如提供新闻和当前事件的页面),该 排名不太可靠。PageRank还具有几个其它明显缺陷。 一方面,PageRank趋 于偏爱较早的页面。这是因为新的页面初始不具有很多链接(除 非这些页面是现有网站的一部分)。此外,由于依赖于Web链接 的静态性质,因此能够(例如,通过创建链接工厂)容易地操纵 PageRank值以提高搜索结果排名并利用广告链接賺钱。例如,可以将具有低PageRank的任何页面重定向为具有高PageRank 的页面,从而使得具有低PageRank的页面采用正指向的页面的 PageRank。另夕卜,可以将不具有导入链接的页面重定向为Google 主页,并且通过下次PageRank更新,该新的页面将被升级至较 高的PageRank(将此称为其欠骗并且这是PageRank系统的另 一 缺 陷)。这些以及其它弱点已经严重影响了PageRank的试图判断哪 个文献实际上^皮Web社区高度评价的可靠性。已知Google有力 地处罚链接工厂以及被设计成虚假地抬高PageRank的其它才莫 式。Google如何识别链接工厂以及其它的PageRank操纵工具属 于Google的商业秘密。在"利用Web的块结构以计算PageRank,,(2)中以及美国专利 公开2005/0033742中,Kamvar及其同事引入了用于基于聚合原 理和Web的结构来力口速PageRank的处理时间的称为 "BlockRank"的排名技术。这些文献和在它们中所公开的技术试 图通过提供目的在于减少所需要的迭代的次数以及每次迭代的 工作的排名技术来解决PageRank所遇到的问题。通常, BlockRank模型通过将网络图分割成k个块并对网络图的简化表 示进行计算来近似全球PageRank 。通过使用传统的聚合原理将 主机的页面聚合至单个节点来获得简化表示。还可以参见以下 参考文献(3)和(4)。根据Kamvar和同事,可以通过忽视"主机间"链接对各个体 主机计算局部PageRank值。因而,可以将块J(G )的"局部 PageRank矢量"lj定义为仅对块J应用PageRank算法的结果(忽略 了与其它主机之间的链接),使得其中,开始矢量S是n:xl均一可能性矢量,并且个性化矢 量v:是除值为l的与块J的根节点相对应的元素以外元素全部为(等式6)0的n;xl矢量。除局部页面排名以外,还可以计算各个块的相对重要性。 因而,假定Web中存在n个块,创建图形中的各个顶点与网络图 中的块相对应的块图B。由以下给出两个块之间的边缘Bu的权B『2: "' (等式7) 并且可以以矩阵符号来编写该权重,使得PageRank本文档来自技高网...

【技术保护点】
一种用于使用DNS数据对页面进行排名的方法,所述方法包括: 获得特定会话的DNS数据; 基于所述DNS数据识别主机请求的一个或多个序列;以及 至少部分基于所识别出的主机序列来对页面和/或主机进行排名。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:艾伦T苏利文
申请(专利权)人:派克斯费尔有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1