一种互联网资源定向获取方法及系统技术方案

技术编号:4328056 阅读:166 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种互联网资源定向获取方法,该方法包括步骤:确定抓取网站范围、要获取的资源信息及所属的资源类别;根据资源类别,通过人机交互在每个抓取网站上获取与资源类别相对应的有效网页;依据抓取网站及有效网页的统一资源定位符、网页结构及要获取的资源信息,生成要获取的资源信息的配置信息;在抓取网站上抓取与配置信息相匹配的文本信息并保存;通过人机交互对抓取的信息进行深度标引;对深度标引后的信息建立索引供用户检索使用,该系统包括定向获取单元和深度标引单元。利用本发明专利技术进行搜索引擎,解决了常用搜索引擎方法所造成的大量垃圾信息、资源重复、资源无组织性及网页快照失效的问题。

【技术实现步骤摘要】

本专利技术涉及互联网搜索引擎领域,具体涉及一种互联网资源定向 获取方法及系统。
技术介绍
搜索引擎是以一定的策略搜集互联网上的信息,在对信息进行组 织和处理后为用户提供网络信息服务的计算机系统。它的主要作用是 帮助用户快捷、高效的获取存在于互联网信息环境中的能够满足用户 需求的高质量信息。目前,通用搜索引擎包含信息搜集、信息整理和用户查询三部分。 信息搜索部分负责在互联网上抓取信息,将抓取的信息保存在数据服 务器中,信息整理负责用索引器对抓取的信息进行整理,进而供用户使用查询器进行查询;用户查询部分负责为用户提供搜索界面。目前,搜索引擎技术中信息搜集部分主要局限有如下几个方面1) 对于互联网资源的获取釆用的 一种漫无边际式的抓取方式, 例如若釆用网络爬虫进行网页抓取的过程为,网络爬虫从若干指定的 网页开始,解析这些网页里面包含的超链接,然后下载这些超链接所 指向的网页,不断进行下去,理论上可以将互联网上所有的网页都下 载下来。但是由于抓取之前没有确定有效抓取站点,并且没有对所要 抓取的站点进行定向分析进而实现对特定网页的抓取。因此是一种漫 游式的、非定向式的抓取,从而抓取到的内容充斥了大量的垃圾信息和无用信息,极大地增加了后续的管理成本和用户的使用成本;2) 对抓取到的资源没有进行深度的编辑,进而造成了资源的大 量重复;3) 对抓取到的资源没有做深度的标引,没有给出每条数据的学科、主题、作者、单位、摘要等知识点,从而没有完善的知识体系作 为资源的管理支撑,资源组织体系散乱没有章法,深度挖掘利用困难 很大。比如,由于搜索引擎商家在信息搜索部分进行网页抓取时,所 抓取的不同类别的网页集中一起,没有按照行业或者学科、主题进行 聚类,因而在用户利用相关词语进行搜索时,无论对于后续的资源整 合还是用户深度利用都是很大的问题。4)网页快照失效。现有的抓取技术的网页快照没有釆用全息的 方式将网页的内容、版式、色彩信息全部做到本地化存档,造成了网 页快照内容不全、失效的后果。
技术实现思路
本专利技术的目的是提供 一种互连网资源定向获取方法及系统,解决 现有技术中常用搜索引擎方法所造成的大量垃圾信息、资源重复、资 源无组织性及网页快照失效的问题。为实现上述目的,本专利技术釆用如下技术方案 一种互联网资源定向获取方法,该方法包括以下步骤 事先确定抓取网站范围、要获取的资源信息及所属的资源类别; 根据所述资源类别,通过人机交互在每个抓取网站上获取与所述资源类别相对应的有效网页;依据所述抓取网站及其链接的有效网页的URL、网页结构及要获取的资源信息,生成要获取的资源信息的配置信息;在抓取网站上抓取与所述配置信息相匹配的信息并保存; 通过人机交互对抓取的信息进行深度标引,将其整理为统一的格式,并对其分类作出调整,删除与要获取的资源信息无关的垃圾信息;对深度标引后的信息建立索引供用户检索使用。其中,在对深度标引后的信息建立索引供用户检索使用之后,还包括步骤对深度标引后的信息所对应的网页进行原生态存档,用于 检索时所述信息无法打开时,调用与其对应的原生态存档的网页供用户使用。其中,在抓取过程中,还包括记录上次完成抓取信息对应的网页 位置,下次再抓取时从上次完成抓取信息对应的网页位置开始抓取。其中,在抓取过程中,还包括将要抓取的信息与已抓取的信息进 行比较的步骤,若相同,则不予抓取该信息。其中,在抓取网站上抓取与配置信息相匹配的信息为去除了源代 码、广告信息的纯文本内容,包括文章的标题、作者、单位、关键词、摘要、正文、URL、抓取时间、类别。本专利技术还提供了 一种互联网资源定向获取系统,该系统包括 初始信息获取单元,用于事先确定抓取网站范围、要获取的资源信息及所属的资源类别;有效网页获取单元,根据所述资源类别,通过人机交互在每个抓取网站上获取与所述资源类别相对应的有效网页;配置信息生成单元,依据所述网站及其链接的有效网页的URL、网页结构及要获取的资源信息,生成要获取的资源信息的配置信息; 定向获取单元,用于在抓取网站上抓取与所述配置信息相匹配的 信息并保存;深度标引单元,通过人机交互对抓取的信息进行深度标引,将其 整理为统一的格式,并对其分类作出调整,删除与要获取的资源信息 无关的垃圾信息;检索单元,用于对深度标引后的信息建立索引供用户检索使用。其中,该系统还包括原生态存档单元,用于对深度标引后的信息 所对应的网页进行原生态存档,用于检索时所述信息无法打开时,调 用与其对应的原生态存档的网页供用户使用。其中,该系统还包括下载位置记录单元,用于在定向获取单元抓 取过程中,记录上次完成抓取的信息对应的网页位置,为下次抓取提 供起点。其中,该系统还包括比较单元,在定向获取单元抓取过程中,将 要抓取的信息与已抓取的信息进行比较,若相同,则不予抓取该信息。利用本专利技术互联网资源定向获取方法及系统,具有以下优点1) 将与配置信息相匹配的特定网页下载下来,而对于不符合条 件的网页不予下载,有效地减少了常用搜索引擎技术所造成的大量垃圾信息和无用信息;2) 在下载过程通过记录下载位置及要下载信息的比较,避免出现常用的搜索引擎技术造成的资源重复;3) 通过对所获取到资源进行深度标引,使获取到资源知识组织问题,更容易实现聚类检索;4) 保存网页时是以全息的方式存档,实现了本地化永久存档。附图说明图i为本专利技术互联网资源定向获取方法流程图2为本专利技术互联网资源定向获取系统结构框图; 图3、 4为实施例中定向获取的信息示意图; 图5、 6为实施例中原生态存档的网页示意图。具体实施例方式本专利技术提出的互联网资源定向获取方法及系统,结合附图和实施 例说明如下。 实施例如图l所示为本专利技术互联网资源定向获取方法流程图,该方法包 括步骤-.s101,确定所需基本信息,这些基本信息包括抓取网站范围、要 获取的资源信息及所属的资源类别,一般检索都是基于常用的网站作 为抓取网站来下载信息,要获取的资源信息是指检索所确定的类型,如要获取体育类的羽毛球类信息,其所属的类别即为体育;sl02,根据资源类别,通过人机交互在每个抓取网站上获取与资源类别相对应的有效网页,这里所说的有效网页是指与要获取的资源 类别关联度比较大或直接标明就是该资源类别的网页,这一步操作是 需要通过人机交互实现的,例如可以登录搜狐或其它网站,人为打开 与资源类别体育相对应的体育 一栏的网页,并将该网页作为有效 网页,或通过浏览其它信息将与体育密切相关的一些网页也作为有效 网页;s103,利用定向分析生成要获取的资源信息的配置信息,在上一步确定了有效网页,在这一步需要对其中一个具有代表性的有效网页 进行分析,从形式和内容上确定有效网页范围,互联网上每个网站的 资源都是按照一定结构进行组织的,这种结构一方面表现为统一资源定位符URL地址, 一方面表现为每个网页内部组成要素都是结构化 的, 一方面表现为每个网页的内容特点,通过分析、抽取抓取网站范 围内网站的资源信息所属类的网页(有效网页)的统一资源定位符 URL、网页结构和要获取的资源信息的特点,生成相对于这个网站资 源信息所属类网页的特定的配置信息,这个配置信息记录了要获取的 包括资源信息类的网页的URL信息、网页结构信息和内容特点(即需 要包括资源信息,如包括羽毛本文档来自技高网
...

【技术保护点】
一种互联网资源定向获取方法,其特征在于,该方法包括以下步骤:    事先确定抓取网站范围、要获取的资源信息及所属的资源类别;    根据所述资源类别,通过人机交互在每个抓取网站上获取与所述资源类别相对应的有效网页;    依据所述抓取网站及其链接的有效网页的URL、网页结构及要获取的资源信息,生成要获取的资源信息的配置信息;    在抓取网站上抓取与所述配置信息相匹配的信息并保存;    通过人机交互对抓取的信息进行深度标引,将其整理为统一的格式,并对其分类作出调整,删除与要获取的资源信息无关的垃圾信息;    对深度标引后的信息建立索引供用户检索使用。

【技术特征摘要】
1、一种互联网资源定向获取方法,其特征在于,该方法包括以下步骤事先确定抓取网站范围、要获取的资源信息及所属的资源类别;根据所述资源类别,通过人机交互在每个抓取网站上获取与所述资源类别相对应的有效网页;依据所述抓取网站及其链接的有效网页的URL、网页结构及要获取的资源信息,生成要获取的资源信息的配置信息;在抓取网站上抓取与所述配置信息相匹配的信息并保存;通过人机交互对抓取的信息进行深度标引,将其整理为统一的格式,并对其分类作出调整,删除与要获取的资源信息无关的垃圾信息;对深度标引后的信息建立索引供用户检索使用。2、 如权利要求l所述的互联网资源定向获取方法,其特征在于, 在对深度标引后的信息建立索引供用户检索使用之后,还包括步骤 对深度标引后的信息所对应的网页进行原生态存档,用于检索时所述 信息无法打开时,调用与其对应的原生态存档的网页供用户使用。3、 如权利要求l所述的互联网资源定向获取方法,其特征在于, 在抓取过程中,还包括记录上次完成抓取信息对应的网页位置,下次 再抓取时从上次完成抓取信息对应的网页位置开始抓取。4、 如权利要求l所述的互联网资源定向获取方法,其特征在于,在抓取过程中,还包括将要抓取的信息与已抓取的信息进行比较的步 骤,若相同,则不予抓取该信息。5、 如权利要求l所述的互联网资源定向获取方法,其特征在于,在抓取网站上抓取与配置信息相匹配的信息为去除了源代码、广告信 息的纯文本内容,包括文章的标...

【专利技术属性】
技术研发人员:刘锦山崔凤雷
申请(专利权)人:北京雷速科技有限公司
类型:发明
国别省市:11[中国|北京]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1