一种针对图书检索信息进行断点续采的方法和系统技术方案

技术编号:9642515 阅读:92 留言:0更新日期:2014-02-07 01:11
本发明专利技术实施例公开了一种针对图书检索信息进行断点续采的方法和系统。其中,该方法包括如下步骤:(1)断点信息加载步骤;(2)跳转到相应爬取位置步骤;(3)断点信息保存步骤;(4)图书信息的下载和处理步骤,重复执行步骤(4)。还公开了一种针对图书检索信息进行断点续采的系统,利用本发明专利技术实施例,能够实现断点续采,提高采集的效率,具有很大的实用价值。

【技术实现步骤摘要】
【专利摘要】本专利技术实施例公开了一种针对图书检索信息进行断点续采的方法和系统。其中,该方法包括如下步骤:(1)断点信息加载步骤;(2)跳转到相应爬取位置步骤;(3)断点信息保存步骤;(4)图书信息的下载和处理步骤,重复执行步骤(4)。还公开了一种针对图书检索信息进行断点续采的系统,利用本专利技术实施例,能够实现断点续采,提高采集的效率,具有很大的实用价值。【专利说明】一种针对图书检索信息进行断点续采的方法和系统
本专利技术涉及文本信息处理范畴中的网络信息采集技术,尤其涉及一种针对图书检索信息进行断点续采的方法和系统。
技术介绍
随着万维网的出现,人们开始通过网络传播信息,网络信息成几何级增长。随着信息量的暴涨,如何快速搜集所需信息成为人们的关注点,此时网络爬虫应运而生。网络爬虫是通过一个入口,用图的遍历算法,抓取互联网中的网页信息,并对爬取的信息处理、存储的程序。图书馆,是搜集、整理、收藏图书资料供人阅览、参考的机构。早期图书馆是由手工操作,随着计算机的发展,图书馆逐渐趋向自动化操作,图书管理系统的诞生加速了这一发展。相对于几何级非结构化的网络信息,图书馆中的信息是经过组织的结构化信息。图书馆的藏书信息中蕴含了大量的有价值的信息,如果能准确高效地获取馆藏信息,将具有重要的现实意义。通过对不同图书馆的图书资源对比,可以辅助元搜索;对各大高校的图书信息进行分析,可以得到各高校的馆藏结构,其中馆藏结构是图书馆文献保障能力和服务水平的重要体现;分析高校各类图书所占的比例,可以预测该高校的学科性质和重点学术方向。同时,通过对图书信息分析可以获得各类图书的出版情况,出版社的占有率情况以及各高校的图书购买情况等。目前,获取各大图书馆馆藏信息的主流做法是构建针对图书系统的网络爬虫。网络爬虫可以自动爬取该图书馆下的所有图书信息,但是,由于网络的不稳定、服务器故障等原因会造成爬虫程序中断。处理爬虫中断的一般方法是重启爬虫,由于程序没有记忆上一次的中断点,程序会从入口点重新爬取图书信息,这样造成了很多的重复性工作,降低了爬虫的效率。
技术实现思路
针对现有技术存在的问题,本专利技术的目的是提供一种针对图书检索信息进行断点续采的方法。为达到上述目的,本专利技术提出的针对图书检索信息进行断点续采方法包括下列步骤:(I)断点信息加载步骤;(2)跳转到相应爬取位置步骤;(3)断点信息保存步骤;(4)图书信息下载处理步骤,重复执行步骤(2);上述方法中,步骤(I)进一步包括:(11)读取断点信息文件步骤,断点信息文件中保存了中断点的索书号、页码和页码内第几项;(12)获取断点信息步骤,处理读入的信息,得到断点处索书号S,页码P,页内第几项N。上述方法中,步骤(2)进一步包括:(21)跳转到检索结果页步骤,即根据索书号S和前一次爬取状态,确定本次检索号Sn,跳转到对应检索结果页;(22)下载解析结果页步骤,下载结果页并通过正则表达式获取查询结果信息;(23)判断是否有最大显示记录限制步骤,若无数量限制,则执行步骤(24);若有数量限制,判断当前检索结果是否超过最大显示数目,如果超过,则缩小索书号的范围,即把当前索书号作为首位不变,在其后添加子位以遍历所有的情况,子位应包含索书号中可能出现的所有字符,跳转回步骤(21),重新检索;如果没有超过,则执行步骤(24);(24)跳转到列表页步骤,根据页码P和前一次爬取状态,确定本次采集页码Page,通过Sn、Page等信息拼装待爬取列表页url ;(25)下载解析列表页步骤,即爬取列表页,通过正则表达式匹配出列表页内的书目链接;(26)跳转到爬取位置步骤,根据页内第几项N,跳过已爬取书目,并确定本次爬取位置。上述方法中,步骤(4)进一步包括:(41)下载图书信息步骤,即爬取图书页面;(42)获取图书信息步骤,如果系统提供图书的MARC信息,则通过正则表达式匹配出MARC信息,如果不提供MARC信息,则通过正则表达式匹配出图书的基本信息;(43)图书彳目息存储步骤,将获取的图书彳目息保存。本专利技术提出的针对图书检索信息进行断点续采的系统,包括以下模块:(I)断点信息加载模块;(2)跳转到相应爬取位置模块;(3)断点信息保存模块;(4)图书信息下载处理模块。上述方法中,模块(I)进一步包括:(11)读取断点信息文件模块,断点信息文件中保存了中断点的索书号、页码和页码内第几项;(12)获取断点信息模块,处理读入的信息,得到断点处索书号S,页码P,页内第几项N。上述方法中,模块(2)进一步包括:(21)跳转到检索结果页模块,即根据索书号S和前一次爬取状态,确定本次检索号Sn,跳转到对应检索结果页;(22)下载解析结果页模块,下载结果页并通过正则表达式获取查询结果信息;(23)判断是否有最大显示记录限制模块,若无数量限制,则执行模块(24);若有数量限制,判断当前检索结果是否超过最大显示数目,如果超过,则缩小索书号的范围,即把当前索书号作为首位不变,在其后添加子位遍历所有的情况,子位应包含索书号中可能出现的所有字符,跳转回模块(21),重新检索;如果没有超过,则执行模块(24);(24)跳转到列表页模块,根据页码P和前一次爬取状态,确定本次采集页码Page,通过Sn、Page等信息拼装待爬取列表页url ;(25)下载解析列表页模块,即爬取列表页,通过正则表达式匹配出列表页内的书目链接;(26)跳转到爬取位置模块,根据页内第几项N,跳过已爬取书目,并确定本次爬取位置。上述方法中,模块(4)进一步包括:(41)下载图书页面模块,即爬取图书页面;(42)获取图书信息模块,如果系统提供图书的MARC信息,则通过正则表达式匹配出MARC信息,如果不提供MARC信息,则通过正则表达式匹配出图书的基本信息;(43)图书信息存储模块,将获取的图书信息保存。【专利附图】【附图说明】图1为本专利技术针对图书检索信息进行断点续采的方法的步骤流程图;图2为断点信息加载的步骤流程图;图3为跳转到相应爬取位置的步骤流程图;图4为图书信息下载处理的步骤流程图;图5为本专利技术针对图书检索信息进行断点续采系统的结构框图。【具体实施方式】下面将结合附图对本专利技术【具体实施方式】进行详细说明。图1是本专利技术的一个实施方式的流程图,包括以下步骤:步骤S1:断点信息加载,得到索书号S,页码S和页内第几项N。步骤S2:跳转到相应爬取位置,根据S、P、N逐步跳转到采集位置。步骤S3:断点信息保存,在每次爬取图书信息前将该书的索书号、页码和页内第几项保存到文件中。步骤S4:图书信息的下载和处理,将处理后的图书信息保存到文件系统中,重复执行步骤S2。下面将对每个步骤进行具体的说明:步骤SI完成断点信息加载,设置本次采集起始点。图2给出了该方法的实施过程流程图,具体操作步骤如下:步骤11,读取断点信息文件。该文件中保存了采集中断处的索书号、页码和页内第几项。步骤12,获取断点信息。从读取的内容中解析出索书号S、页码P和页内第几项N。步骤S2完成跳转到爬取指定位置。图3给出了该方法的实施过程流程图,具体操作步骤如下:步骤21,跳转到检索结果页,根据断点信息S和前一次爬取状态,确定本次采集的索书号Sn,根据Sn拼装检索结果页url。步骤22,下载结果页,并通过正则本文档来自技高网
...

【技术保护点】
一种针对图书检索信息进行断点续采的方法,其特征在于,包括以下步骤:?(1)断点信息加载步骤;?(2)跳转到相应爬取位置步骤;?(3)断点信息保存步骤;?(4)图书信息下载处理步骤,重复执行步骤(2)。

【技术特征摘要】

【专利技术属性】
技术研发人员:肖波赵琳蔺志青陆月明
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1