一种互联网资源定向获取方法及系统技术方案

技术编号：4328056 阅读：166 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种互联网资源定向获取方法，该方法包括步骤：确定抓取网站范围、要获取的资源信息及所属的资源类别；根据资源类别，通过人机交互在每个抓取网站上获取与资源类别相对应的有效网页；依据抓取网站及有效网页的统一资源定位符、网页结构及要获取的资源信息，生成要获取的资源信息的配置信息；在抓取网站上抓取与配置信息相匹配的文本信息并保存；通过人机交互对抓取的信息进行深度标引；对深度标引后的信息建立索引供用户检索使用，该系统包括定向获取单元和深度标引单元。利用本发明专利技术进行搜索引擎，解决了常用搜索引擎方法所造成的大量垃圾信息、资源重复、资源无组织性及网页快照失效的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网搜索引擎领域，具体涉及一种互联网资源定向获取方法及系统。
技术介绍
搜索引擎是以一定的策略搜集互联网上的信息，在对信息进行组织和处理后为用户提供网络信息服务的计算机系统。它的主要作用是帮助用户快捷、高效的获取存在于互联网信息环境中的能够满足用户需求的高质量信息。目前，通用搜索引擎包含信息搜集、信息整理和用户查询三部分。信息搜索部分负责在互联网上抓取信息，将抓取的信息保存在数据服务器中，信息整理负责用索引器对抓取的信息进行整理，进而供用户使用查询器进行查询；用户查询部分负责为用户提供搜索界面。目前，搜索引擎技术中信息搜集部分主要局限有如下几个方面1) 对于互联网资源的获取釆用的一种漫无边际式的抓取方式，例如若釆用网络爬虫进行网页抓取的过程为，网络爬虫从若干指定的网页开始，解析这些网页里面包含的超链接，然后下载这些超链接所指向的网页，不断进行下去，理论上可以将互联网上所有的网页都下载下来。但是由于抓取之前没有确定有效抓取站点，并且没有对所要抓取的站点进行定向分析进而实现对特定网页的抓取。因此是一种漫游式的、非定向式的抓取，从而抓取到的内容充斥了大量的垃圾信息和无用信息，极大地增加了后续的管理成本和用户的使用成本；2) 对抓取到的资源没有进行深度的编辑，进而造成了资源的大量重复；3) 对抓取到的资源没有做深度的标引，没有给出每条数据的学科、主题、作者、单位、摘要等知识点，从而没有完善的知识体系作为资源的管理支撑，资源组织体系散乱没有章法，深度挖掘利用困难很大。比如，由于搜索引擎商家在信息搜索部分进行网页抓取时...

【技术保护点】
一种互联网资源定向获取方法，其特征在于，该方法包括以下步骤：　　　　事先确定抓取网站范围、要获取的资源信息及所属的资源类别；　　　　根据所述资源类别，通过人机交互在每个抓取网站上获取与所述资源类别相对应的有效网页；　　　　依据所述抓取网站及其链接的有效网页的ＵＲＬ、网页结构及要获取的资源信息，生成要获取的资源信息的配置信息；　　　　在抓取网站上抓取与所述配置信息相匹配的信息并保存；　　　　通过人机交互对抓取的信息进行深度标引，将其整理为统一的格式，并对其分类作出调整，删除与要获取的资源信息无关的垃圾信息；　　　　对深度标引后的信息建立索引供用户检索使用。

【技术特征摘要】
1、一种互联网资源定向获取方法，其特征在于，该方法包括以下步骤事先确定抓取网站范围、要获取的资源信息及所属的资源类别；根据所述资源类别，通过人机交互在每个抓取网站上获取与所述资源类别相对应的有效网页；依据所述抓取网站及其链接的有效网页的URL、网页结构及要获取的资源信息，生成要获取的资源信息的配置信息；在抓取网站上抓取与所述配置信息相匹配的信息并保存；通过人机交互对抓取的信息进行深度标引，将其整理为统一的格式，并对其分类作出调整，删除与要获取的资源信息无关的垃圾信息；对深度标引后的信息建立索引供用户检索使用。2、如权利要求l所述的互联网资源定向获取方法，其特征在于，在对深度标引后的信息建立索引供用户检索使用之后，还包括步骤对深度标引后的信息所对应的网页进行原生态存档，用于检索时所述信息无法打开时，调用与其对应的原生态存档的网页供用户使用。3、如权利要求l所述的互联网资源定向获取方法，其特征在于，在抓取过程中，还包括记录上次完成抓取信息对应的网页位置，下次再抓取时从上次完成抓取信息对应的网页位置开始抓取。4、如权利要求l所述的互联网资源定向获取方法，其特征在于，在抓取过程中，还包括将要抓取的信息与已抓取的信息进行比较的步骤，若相同，则不予抓取该信息。5、如权利要求l所述的互联网资源定向获取方法，其特征在于，在抓取网站上抓取与配置信息相匹配的信息为去除了源代码、广告信息的纯文本内容，包括文章的标...

【专利技术属性】
技术研发人员：刘锦山，崔凤雷，
申请(专利权)人：北京雷速科技有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人