对网页进行分类和组织相应内容的方法技术

技术编号:5496926 阅读:218 留言:0更新日期:2012-04-11 18:40
用于对网页进行分类且对其内容进行组织的方法,包括对多个因特网地址的记录步骤,其包括执行对于多个因特网地址的多个自动记录进程,以及选择步骤,用于设置对应的相关度值于所述多个因特网地址。该选择步骤设置对应的相关度值于与其在所述记录步骤中的记录成比例的相关度值,并选择具有比预先确定的阈值大的相关度值的因特网地址;该方法进一步包括缩减步骤,其开始于具有比阈值大的相关度值的因特网地址,缩减因特网地址至符合一个或更多必要性标准的因特网地址,以及验证步骤,其用于验证符合必要性标准的因特网地址的子组;所述验证步骤包括人工行为。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及分类网页和组织相应内容类型的方法,该方法包括记录多个因特网地址 的步骤,该步骤包括多个自动记录进程的执行,该方法还包括附于多个因特网地址以对 应的相关度值的选择步骤。现有技术众所周之的,连接到因特网网络并配有浏览器的个人电脑可以显示网页。具体的,所指个人电脑,是配备了因特网网络连接接口的电子设备,同时所指的浏 览器,本质上参考已知的被安装于这样的电子设备中以显示网页的软件。该浏览器的一 个例子是微软公司(Microsoft)的因特网浏览器(Internet Explorer )。更具体的,网页被存储在多个服务器上,并依次地与因特网网络连接。网页的因特 网地址通过浏览器被指明,比如位于浏览器较高位置的部分或者栏,并且该因特网地址 被提交以显示相应的网页,其通常显示于浏览器中的主要部分。单个或者多个网页的识别脚本或程序也已经公知,其基于由用户设置的搜索标准而 运行。该识别脚本或程序通常可以依靠图形接口而进行访问,例如,该识别脚本或程序可 以由浏览器绘制,浏览器包括搜索标准的嵌入部分和识别脚本或程序的触发按钮。考虑到因特网网络上有效网页数量的庞大,识别脚本或程序为预先确定的搜索标准 提供了许多的网页。为了引导用户对上述网页进行有效的查阅,识别脚本或程序由分类方法所支持,该 方法对每个网页指定权重。换句话说,识别脚本或程序的执行提供给用户以网页的列表, 其中的网页按照由分类方法所指定的权重值进行排序。存在一种已知的分类方法,通常被称作网页排名(PageRank),其提供网页和通常 被成为排名(rank)的权重值间的关联。具体的,网页A的排名是由访问网页A的附 属网页Bl,...,Bx的数量决定的,即,具有指向网页A的指针(pointer )。更具体的,根据被公知为网页排名的分类方法,每个网页通过指针都可以明确针对 其他网页的投票,该指针也被公知为链接(connections)。换句话说,通过位于起始网页 上的可用的链接,用户可以被链接至一个或多个目标网页,以提高其排名。通常,网页的流行度(popularity)越高,即,向该网页的链接越多,同样页面所可以明确的投票的 价值就越高。然而,上述所说明的分类方法的类型存在多种局限,从下面的描述可以明显的看出。 参考附附图说明图1,接口 IO被作为对网页识别脚本或程序的触发。接口 10是例如包括了搜索标准的嵌入栏或部分1以及触发按钮2的网页,以触发 识別脚本或程序。作为一个示例,在附图1中, 一个搜索标准被设置用以识别与意大利专利技术家和艺术 家列奥纳多.达芬奇(LeonardodaVinci)有关的网页。在这个简单的例子中,搜索标准 通过连接三个单词"Leonardo", " da", "Vinci"而被给出,并被列在接口 10的嵌入栏 1中。在这样的例子中,接口 10的主要部分4根据搜索标准"LeonardodaVinci"显示出 经过执行的识别脚本或程序的结果。该搜索结果包括网页因特网地址的列表3,其中仅 前几位的链接被显示在所述主要部分4中。实际上,被识别的网页的数量非常大,在被举出的数百万网页的排序的例子中,识 别脚本或程序规定这些网页在图形接口 10内于连续的页面中分组显示。通常,位于例 如接口 10中较低部分的一组从1到n的可用的连续的数字,其本质上是常规的而没有 表示在附图中,以根据用户的请求在主要部分4中显示指定的页面,从而显示因特网地 址的列表3中的一部分。例如,假设识别脚本或程序已经识别出100个网页,对应于100个因特网地址的列 表3,同时假设每个显示页面包括10个这样被识别出的网页的地址,接口 10中的较低 部分中将指明1到10的数字。在这样的规则下,选择较低部分中的数字1将会在主要 部分4中显示从1到10的因特网地址,即,网页的列表3的第1页。具体的,在目前 的识别脚本或程序中,网页的列表3的因特网地址被按照根据相应的分类方法识别出的 权重的降序而连续放置,因此,对列表3中的第1页的选择与根据该分类方法被分类为 权重最高的网页向对应。选择数字2将会在同样的接口 10的主要部分4中显示从11到20的因特网地址。 这些因特网地址相应于网页列表3的第2页。选择较低部分中的数字10将访问列表3 中的最后一页,其由此与相关度最低的网页关联,无例外的按照识别脚本或程序所使用 的分类方法。换句话说,搜索结果的显示次序源于分类方法。更具体的,参考附图1 ,网页3a是被使用于作为附图1示例的Google程序中的分 类方法所识别出的所有网页中具有最高权重的网页,该网页涉及到一种被成为维基百科 (Wikipedia)的因特网服务,其提供了对作为专利技术家和艺术家的列奥纳多*达芬奇的定 义。网页3b涉及到描述由专利技术家和艺术家的列奥纳多.达芬奇留下的人文遗产的网页; 网页3c涉及国家科学技术博物馆;网页3e涉及罗马机场"Leonardo da Vinci"。从以上列出的按照权重排序的前5位的Google程序的结果,可以推断出基于网页 排名的分类方法具有如下所述的局限。由识别脚本或程序提供的网页的数量是冗余的在这个例子中,第一页中的前8个 结果中,有三个页面是冗余的,具体为页面3d,3f和3h,即,相对于因特网地址3c, 3e 和3g,上述的三个页面重复了同样的,之前显示过的站点中的因特网地址。此外,用 户通常不会阅读由识别方法提供的几十个结果之外的结果,结果通常为更普遍的搜索标 准而被获得。虽然由识别脚本或程序提供的有些网页相应于用户所搜索的信息并不相关或者完 全不相关,这些网页仍然享受着过于高的排名。网页3e被认为是非常难以相信对"Leonardo da Vinci"机场感兴趣的用户会在不明确"机场"的情况下将"Leonardo da Vinci"作为搜索标准输入。然而,没有预料到的,涉及罗马机场的网页3e,被发现位 于Google程序的结果的第5位。网页3e构成了典型的受到信息干扰影响从而非常不尽 如人意的结果示例,因为其对于不仅与进行的搜索的目的不相关,而且还毫无用处。验 证这样的结果是可能的,即,由设置搜索标准为"Leonardo da Vinci"引出的罗马机场 的地址存在于网页列表3的高排名位置,可通过使用许多现有可用的搜索脚本或程序来 获得。因此,基于网页排名的分类方法,虽然提供了对网页的自动组织,但没有使得用户 专注于削减了数量的结果,以限制在那些对于用户来说最为相关的结果中。已知分类方法的另 一个缺点所呈现出的事实为,在被执行之后,识别脚本或程序报 告作为所找到的网页数量的一个数字,该数字与真正识别出的网页的数量不符,且对于 用户来讲并不能有效的使用。例如,参考附图la,作为以"LeonardodaVinci"为搜索标准的结果,由识别脚本 或程序声明为有效可用的网页数量是3, 888, 000,但很容易就可以实际验证的是,只 有前l, 000个网页是有效可用的。更具体的,图lb示出由已知识别程序产生出的一个报错信息,报告被识别出的对于用户可用的结果并没有多于1, 000个。因此,被声明 为可用的网页的数量是没有价值的,因为用户相信具有了与搜索标准相关的基本上无限 数量的网页,而当用户打开一些网页时会感到沮丧,尤其是当用户本文档来自技高网...

【技术保护点】
用于对网页进行分类和组织相应内容的方法,包括: 记录预先确定数量的因特网地址的步骤,其包括执行对于所述多个因特网地址的多个自动记录进程, 对所述多个因特网地址选择和设置对应的相关度值的步骤, 其特征在于: 所述选择步 骤将所述对应的相关度值设置为与其在所述记录步骤中的记录成比例的相关度值,并选择具有比预先确定的阈值大的相关度值的因特网地址, 所述方法进一步包括: 缩减步骤,其从所述具有比所述阈值大的相关度值的因特网地址中,将因特网地址缩减为符 合一个或多个必要性标准的因特网地址,以及 验证步骤,其用于验证符合必要性标准的所述因特网地址的子组,所述验证步骤还包括人工行为。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:贾内皮尔朱塞佩洛蒂托马里厄卡特洛里
申请(专利权)人:莫尔德克昂特威彭有限公司
类型:发明
国别省市:NL[荷兰]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1