一种网络爬虫的页面列表信息自动提取方法及系统技术方案

技术编号:24996264 阅读:25 留言:0更新日期:2020-07-24 17:58
本发明专利技术涉及一种网络爬虫的页面列表信息自动提取方法及系统。该方法包括:获取待提取的页面的超文本标记语言文档;根据所述超文本标记语言文档中的元素确定超文本标记语言对象集合;对所述超文本标记语言对象集合进行遍历,确定文档对象模型;根据所述文档对象模型确定所述待提取的页面的网页结构;所述网页结构包括列表项和列表项属性;根据所述待提取的页面的网页结构确定提取模式;利用所述提取模式对所述待提取的页面列表信息进行提取。本发明专利技术所提供的一种网络爬虫的页面列表信息自动提取方法及系统,实现网络爬虫页面列表信息自动抓取。

【技术实现步骤摘要】
一种网络爬虫的页面列表信息自动提取方法及系统
本专利技术涉及网络爬虫领域,特别是涉及一种网络爬虫的页面列表信息自动提取方法及系统。
技术介绍
随着信息技术的飞速发展,带来了海量、磅礴的数据信息。而如何从海量信息中快速、高效、准确的提取有用的信息,对新时代的信息获取技术提出了更高的要求。在此背景下,网络爬虫技术以其获取信息方便、获取方式多样和信息获取的半自动化等特点,得到快速的发展和广泛的应用。但是,传统的网络爬虫技术需要根据网页特点针对性的编写爬虫脚本,而互联网上充斥着海量信息发布平台、系统和网站,每个页面展示信息的方式和格式千变万化,这造成了网络爬虫技术的开发成本较高,且当网页改版后,爬虫程序需要针对性的更新,抓取的稳定性也受到影响。而且,需要经人工干预才可实现页面自动抓取。可见,现有技术还不能实现网络爬虫页面列表信息自动抓取。
技术实现思路
本专利技术的目的是提供一种网络爬虫的页面列表信息自动提取方法及系统,实现网络爬虫页面列表信息自动抓取。为实现上述目的,本专利技术提供了如下方案:一种网络爬虫的页面列表信息自动提取方法,包括:获取待提取的页面的超文本标记语言文档;根据所述超文本标记语言文档中的元素确定超文本标记语言对象集合;所述元素包括超文本标记语言文档的标签、属性和文本;对所述超文本标记语言对象集合进行遍历,确定文档对象模型;根据所述文档对象模型确定所述待提取的页面的网页结构;所述网页结构包括列表项和列表项属性;根据所述待提取的页面的网页结构确定提取模式;利用所述提取模式对所述待提取的页面列表信息进行提取。可选的,所述获取待提取的页面的超文本标记语言文档,之前还包括:判断所述待提取的页面是否改版,得到第一判断结果;若所述第一判断结果表示所述待提取的页面改版,则执行所述获取待提取的页面的超文本标记语言文档的步骤;若所述第一判断结果表示所述待提取的页面没有改版,则直接按照未改版时对应的提取模式对所述待提取的页面列表信息进行提取。可选的,所述对所述超文本标记语言对象集合进行遍历,确定文档对象模型,具体包括:对所述超文本标记语言对象集合进行遍历,确定所有对象间的关系;所有所述对象间的关系包括对象间的同级关系、包含关系、父级关系、子级关系、层级关系的高度和深度;根据所述所有对象间的关系确定所述文档对象模型。可选的,所述根据所述文档对象模型确定所述待提取的页面的网页结构,具体包括:根据所述文档对象模型确定所述待提取的页面中每一个属性的标签的数量和所有属性的标签的数量;确定所述待提取的页面中每一个属性的每一标签出现次数的比重,得到单一比重集合;确定所述待提取的页面中标签属性组合的比重,得到组合比重集合;按照标签属性出现的频次对所述单一比重集合和所述组合比重集合进行降序排列,得到列表项;所述列表项的属性为多个单标签属性出现的比重均与组合比重集合中组合标签属性出现的比重相等的标签属性;根据所述文档对象模型确定所述待提取的页面中所有的文档对象链;以所述列表项对应的标签属性组合为起始截取每一个所述文档对象链;计算每一个截取之后的所述文档对象链出现的频次;对每一个截取之后的所述文档对象链出现的频次进行降序排列,确定列表项属性。可选的,所述以所述列表项对应的标签属性组合为起始截取每一个所述文档对象链,之前还包括:判断所述文档对象链是否含有所述列表项对应的标签属性组合,得到第二判断结果;若所述第二判断结果表示所述文档对象链含有所述列表项对应的标签属性组合,则保留所述文档对象链,并以所述列表项对应的标签属性组合为起始截取每一个所述文档对象链;若所述第二判断结果表示所述文档对象链不含有所述列表项对应的标签属性组合,则剔除所述文档对象链。一种网络爬虫的页面列表信息自动提取系统,包括:超文本标记语言文档获取模块,用于获取待提取的页面的超文本标记语言文档;超文本标记语言对象集合确定模块,用于根据所述超文本标记语言文档中的元素确定超文本标记语言对象集合;所述元素包括超文本标记语言文档的标签、属性和文本;文档对象模型确定模块,用于对所述超文本标记语言对象集合进行遍历,确定文档对象模型;网页结构确定模块,用于根据所述文档对象模型确定所述待提取的页面的网页结构;所述网页结构包括列表项和列表项属性;提取模式确定模块,用于根据所述待提取的页面的网页结构确定提取模式;页面列表信息提取模块,用于利用所述提取模式对所述待提取的页面列表信息进行提取。可选的,还包括:第一判断模块,用于判断所述待提取的页面是否改版,得到第一判断结果;执行模块,用于若所述第一判断结果表示所述待提取的页面改版,则执行所述获取待提取的页面的超文本标记语言文档的步骤;按照未改版时对应的提取模式提取模块,用于若所述第一判断结果表示所述待提取的页面没有改版,则直接按照未改版时对应的提取模式对所述待提取的页面列表信息进行提取。可选的,所述文档对象模型确定模块具体包括:所有对象间的关系确定单元,用于对所述超文本标记语言对象集合进行遍历,确定所有对象间的关系;所有所述对象间的关系包括对象间的同级关系、包含关系、父级关系、子级关系、层级关系的高度和深度;文档对象模型确定单元,用于根据所述所有对象间的关系确定所述文档对象模型。可选的,所述网页结构确定模块具体包括:标签属性确定单元,用于根据所述文档对象模型确定所述待提取的页面中每一个属性的标签的数量和所有属性的标签的数量;单一比重集合确定单元,用于确定所述待提取的页面中每一个属性的每一标签出现次数的比重,得到单一比重集合;组合比重集合确定单元,用于确定所述待提取的页面中标签属性组合的比重,得到组合比重集合;列表项确定单元,用于按照标签属性出现的频次对所述单一比重集合和所述组合比重集合进行降序排列,得到列表项;所述列表项的属性为多个单标签属性出现的比重均与组合比重集合中组合标签属性出现的比重相等的标签属性;文档对象链确定单元,用于根据所述文档对象模型确定所述待提取的页面中所有的文档对象链;文档对象链截取单元,用于以所述列表项对应的标签属性组合为起始截取每一个所述文档对象链;频次计算单元,用于计算每一个截取之后的所述文档对象链出现的频次;列表项属性确定单元,用于对每一个截取之后的所述文档对象链出现的频次进行降序排列,确定列表项属性。可选的,所述网页结构确定模块还包括:第一判断单元,用于判断所述文档对象链是否含有所述列表项对应的标签属性组合,得到第二判断结果;文档对象链保留单元,用于若所述第二判断结果表示所述文档对象链含有所述列表项对应的标签属性组合,则保留所述文档对象链,并以所述列表项对应的标签属性组合为起始截取每一个所述文档对象链;文档对象链剔除单元,本文档来自技高网...

【技术保护点】
1.一种网络爬虫的页面列表信息自动提取方法,其特征在于,包括:/n获取待提取的页面的超文本标记语言文档;/n根据所述超文本标记语言文档中的元素确定超文本标记语言对象集合;所述元素包括超文本标记语言文档的标签、属性和文本;/n对所述超文本标记语言对象集合进行遍历,确定文档对象模型;/n根据所述文档对象模型确定所述待提取的页面的网页结构;所述网页结构包括列表项和列表项属性;/n根据所述待提取的页面的网页结构确定提取模式;/n利用所述提取模式对所述待提取的页面列表信息进行提取。/n

【技术特征摘要】
1.一种网络爬虫的页面列表信息自动提取方法,其特征在于,包括:
获取待提取的页面的超文本标记语言文档;
根据所述超文本标记语言文档中的元素确定超文本标记语言对象集合;所述元素包括超文本标记语言文档的标签、属性和文本;
对所述超文本标记语言对象集合进行遍历,确定文档对象模型;
根据所述文档对象模型确定所述待提取的页面的网页结构;所述网页结构包括列表项和列表项属性;
根据所述待提取的页面的网页结构确定提取模式;
利用所述提取模式对所述待提取的页面列表信息进行提取。


2.根据权利要求1所述的一种网络爬虫的页面列表信息自动提取方法,其特征在于,所述获取待提取的页面的超文本标记语言文档,之前还包括:
判断所述待提取的页面是否改版,得到第一判断结果;
若所述第一判断结果表示所述待提取的页面改版,则执行所述获取待提取的页面的超文本标记语言文档的步骤;
若所述第一判断结果表示所述待提取的页面没有改版,则直接按照未改版时对应的提取模式对所述待提取的页面列表信息进行提取。


3.根据权利要求1所述的一种网络爬虫的页面列表信息自动提取方法,其特征在于,所述对所述超文本标记语言对象集合进行遍历,确定文档对象模型,具体包括:
对所述超文本标记语言对象集合进行遍历,确定所有对象间的关系;所有所述对象间的关系包括对象间的同级关系、包含关系、父级关系、子级关系、层级关系的高度和深度;
根据所述所有对象间的关系确定所述文档对象模型。


4.根据权利要求1所述的一种网络爬虫的页面列表信息自动提取方法,其特征在于,所述根据所述文档对象模型确定所述待提取的页面的网页结构,具体包括:
根据所述文档对象模型确定所述待提取的页面中每一个属性的标签的数量和所有属性的标签的数量;
确定所述待提取的页面中每一个属性的每一标签出现次数的比重,得到单一比重集合;
确定所述待提取的页面中标签属性组合的比重,得到组合比重集合;
按照标签属性出现的频次对所述单一比重集合和所述组合比重集合进行降序排列,得到列表项;所述列表项的属性为多个单标签属性出现的比重均与组合比重集合中组合标签属性出现的比重相等的标签属性;
根据所述文档对象模型确定所述待提取的页面中所有的文档对象链;
以所述列表项对应的标签属性组合为起始截取每一个所述文档对象链;
计算每一个截取之后的所述文档对象链出现的频次;
对每一个截取之后的所述文档对象链出现的频次进行降序排列,确定列表项属性。


5.根据权利要求4所述的一种网络爬虫的页面列表信息自动提取方法,其特征在于,所述以所述列表项对应的标签属性组合为起始截取每一个所述文档对象链,之前还包括:
判断所述文档对象链是否含有所述列表项对应的标签属性组合,得到第二判断结果;
若所述第二判断结果表示所述文档对象链含有所述列表项对应的标签属性组合,则保留所述文档对象链,并以所述列表项对应的标签属性组合为起始截取每一个所述文档对象链;
若所述第二判断结果表示所述文档对象链不含有所述列表项对应的标签属性组合,则剔除所述文档对象链。


6.一种网络爬虫的页面列表信息自动提取系统,其特征在于,包括:
超文本标记语言文档获取模块,用于获取待提取的页面的超文本标记语言文档;
超文本标记语言对象集合确定模...

【专利技术属性】
技术研发人员:姜建武李景文陆妍玲
申请(专利权)人:桂林理工大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1