一种确定网络资源类型的方法和装置制造方法及图纸

技术编号:3477685 阅读:170 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及网络通信技术,特别涉及一种确定网络资源类型的方法和装置,用以解决现有技术中存在的确定网络资源类型的方法不适用于全网络资源搜寻,并且确定的网络资源类型不准确的问题。本发明专利技术实施例的方法包括:从获取的网络资源的属性信息中确定至少一个属性信息为特征信息;根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值;根据确定的所述网络资源类型及权值,确定网络资源类型。采用本发明专利技术实施例能够从全网络资源中进行搜寻,并且提高了网络资源类型的准确率。

【技术实现步骤摘要】

本专利技术涉及网络通信技术,特别涉及一种确定网络资源类型的方法和装置
技术介绍
随着网络的飞速发展,网络资源也越来越多,网络资源搜索系统的出现使得用户可以从互联网(Internet)上准确找到自己需要的网络资源。Internet上的网络资源包括各种数字音乐、影视、软件、书籍等等,并以 各种不同的文件格式而存在,每个网络资源都对应有下载地址(即统一资源定 位符(Uniform Resource Locator, URL)地址或点对点(Point To Point, P2P ) 地址标识),用户通过下载地址就可以下载对应的网络资源。网络资源搜索系统是一种向用户提供搜索Internet上各种网络资源的系 统。在用户向网络资源搜索系统提交搜索关键信息后,网络资源搜索系统根据 关键信息就可以给出相应的网络资源名称以及下载地址,用户根据地址下载就 可以下载网络资源。如图l所示,目前网络资源搜索系统结构示意图中,包括 搜索引擎、资源数据库和网络蜘蛛(Web Spider )。其中,网络蜘蛛可以自动在互联网上搜索各种网络资源,并把搜寻的各种 网络资源记录到资源数据库中;资源数据库记录了网络资源的相关信息,包括 网络资源实名、下载地址、网络资源类型、网络资源大小等信息;搜索引擎是 一个网络服务器程序,可以根据用户提交的关键信息在资源数据库中找到相应 的网络资源,并把结果提供给用户。网络蜘蛛在找到一个网络资源时,需要通过分析而得到它的一些信息,以 便该网络资源能被记录到资源数据库中,其中 一个重要的信息是网络资源类 型,通过记录网络资源类型,搜索引擎可以向用户提供在某一特定类型的网络 资源中进行搜索的功能。目前有一种确定网络资源类型的方法,即将一个网站所提供的所有网络资 源都归为一种类型。在这种方法中,通过人工为不同的网站配置不同的类型,比如音乐网站 配置的类型为音乐,软件网站配置的类型为软件等等。当网络蜘蛛从某个网站上找到一个网络资源时,将配置的该网站的类型作 为该网络资源的类型。这种方法存在以下的问题不适用于网络蜘蛛的全网络资源搜寻。由于需要人工设定每一个网站的类 别,这种方法只适用于网络蜘蛛在指定网络范围中搜寻网络资源,当范围扩大 到全网络时,由于网站数量过于庞大,不可能人工设定每一个网站的类别。确定的网络资源类型不准确。这种方法由于是对一个网站设定一个类型, 也就认为该网站提供的网络资源全是同 一个类型,而目前有许多网站会提供多 种类型的网络资源,比如一个综合网站,可以提供音乐、软件、电影等等类型 的网络资源,显然这种方法不能准确确定网络资源类型。综上所述,现有技术确定网络资源类型的方法不适用于全网络资源搜寻, 并且确定的网络资源类型不准确。
技术实现思路
本专利技术实施例提供一种确定网络资源类型的方法和装置,用以解决现有技 术中存在的确定网络资源类型的方法不适用于全网络资源搜寻,并且确定的网 络资源类型不准确的问题。本专利技术实施例提供的 一种确定网络资源类型的方法包括 从获取的网络资源的属性信息中确定至少一个属性信息为特征信息; 根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所 述特征信息对应的网络资源类型及权值;根据确定的所述网络资源类型及权值,确定网络资源类型。 本专利技术实施例提供的 一种确定网络资源类型的装置包括 特征信息确定模块,用于从获取的网络资源的属性信息中确定至少一个属 性信息为特征信息;权值确定模块,用于根据预先设定的特征信息和网络资源类型及权值的对 应关系,确定每个所述特征信息对应的网络资源类型及权值;处理模块,用于根据确定的所述网络资源类型及权值,确定网络资源类型。 本专利技术实施例从获取的网络资源的属性信息中确定至少一个属性信息为 特征信息;根据预先设定的特征信息和网络资源类型及权值的对应关系,确定 每个所述特征信息对应的网络资源类型及权值;根据确定的所述网络资源类型 及权值,确定网络资源类型。由于可以根据网络资源的属性信息确定网络资源 类型,从而可以适用全网络资源搜寻的情况,并且提高了网络资源类型的准确 率、用户体验以及网络带宽的利用率。附图说明图1为网络资源搜索系统结构示意图; 图2为本专利技术实施例确定网络资源类型的装置结构示意图; 图3为本专利技术实施例确定网络资源类型的方法流程示意图; 图4为本专利技术实施例采用关键信息和文件后缀名确定网络资源类型的方法 流程示意图。具体实施例方式本专利技术实施例根据获取的网络资源的属性信息中的特征信息,确定对应的 网络资源类型及权值,根据确定的所述网络资源类型及权值,确定网络资源类 型,由于可以根据网络资源的属性信息确定网络资源类型,不需要人工为不同的网站配置不同的类型,从而可以适用全网络资源搜寻的情况。其中,网络资源类型包括但不限于下列中的一种或几种 影视、音乐、软件、游戏等等。网络资源的属性信息包括但不限于下列中的一种或几种 网络资源的文件名、网络资源的下载地址所在页面的链接文字、网络资源的文件后缀名等等。进一步的,如果网络资源的文件后缀名为压缩文件后缀名,则网络资源的属性信息还包括压缩文件列表,压缩文件列表中还有每个文件的文件名和文件后缀名。在具体实施过程中,网络资源的文件名和网络资源的下载地址所在页面的 链接文字可以通过URL协i义、超级文本传送协议(Hyper Text Transport Protocol, HTTP)、超文本链4妄标示i吾言(Hypertext Markup Language, HTML )标准等技术获得;压缩文件列表可以利用压缩格式的标准(比如zip格式)或者开放源代码(比如RAR才各式),分析网络资源的文件内容后获得。除非特殊说明,否则本专利技术实施例获取网络资源的属性信息都按照上述方 式获得。下面结合说明书附图对本专利技术实施例作进一步详细描述。如图2所示,本专利技术实施例确定网络资源类型的装置包括特征信息确定模块10、权值确定模块20和处理模块30。特征信息确定模块IO,与权值确定模块20连接,用于从获取的网络资源的属性信息中确定至少 一 个属性信息为特征信息。其中,特征信息可以是关4建信息,也可以是文件后缀名。 如果特征信息可以是关键信息,则特征信息确定模块10还可以进一步包括关键信息确定模块100和第一确定模块101。关键信息确定模块100,用于根据预先设定的关键信息集合,确定网络资源的属性信息中的页面链接文字和/或网络资源的属性信息中的文件名的关 键信息。具体的,如果网络资源的属性信息中有页面链^t妄文字和文件名,则确定页面链接文字和文件名的关4定信息;如果网络资源的属性信息中有页面链接文字或文件名,则确定页面链^r文字或文件名的关键信息。关键信息集合可以人工手动生成,还可以从网上搜索和筛选出与网络资源 相关的关键信息。关键信息集合可以用自定义的存储格式进行存储,关键信息可以是关键词,也可以是关键字,比如中文版、教程、书等等。第一确定模块101,用于将关键信息确定模块100确定的关键信息作为特 征信息。如果关键信息确定模块100确定了多个关键信息,则将每个关键信息都作 为一个特征信息。如果关键信息是文件后缀名,则特征信息确定模块IO还可以进一步包括 匹配模块102和第二确定模块103。匹配模块102,用于将网络资本文档来自技高网
...

【技术保护点】
一种确定网络资源类型的方法,其特征在于,该方法包括: 从获取的网络资源的属性信息中确定至少一个属性信息为特征信息; 根据预先设定的特征信息和网络资源类型及权值的对应关系,确定每个所述特征信息对应的网络资源类型及权值; 根据确定的所述网络资源类型及权值,确定网络资源类型。

【技术特征摘要】

【专利技术属性】
技术研发人员:张国强陈晓东
申请(专利权)人:深圳市迅雷网络技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1