网页数据获取方法、装置及电子设备制造方法及图纸

技术编号：20866475 阅读：27 留言：0更新日期：2019-04-17 09:20

本公开提供一种网页数据获取方法、装置及电子设备，涉及互联网技术领域。方法应用于电子设备，方法包括：识别并记录网页中各资源的类型和位置；确定待获取资源；从记录的所述各资源的类型和位置中，查找出所述待获取资源的类型和位置；根据所述待获取资源的类型和位置生成爬虫程序；执行所述爬虫程序，从所述网页中获取所述待获取资源的数据。提升了网页数据获取便捷性。

全部详细技术资料下载

【技术实现步骤摘要】
网页数据获取方法、装置及电子设备
本公开涉及互联网
，具体而言，涉及一种网页数据获取方法、装置及电子设备。
技术介绍
爬虫又被称为网络爬虫、网页蜘蛛、网络机器人或者网页追逐者，是一种按照一定的规则，自动地获取万维网信息的程序或者脚本。随着网络的迅速发展，互联网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。随着网络的迅速发展，在很多场景中，需要从互联网中提取信息以供使用。搜索引擎(SearchEngine)作为辅助人们从互联网中检索信息的工具成为用户访问互联网的入口和指南。为了实现从互联网中提取信息，可以通过搜索引擎访问互联网，并采用爬虫程序获取网页数据。爬虫程序可以使用多种程序语言来实现，例如，可以使用静态编程语言如java、c#、C++等实现。又例如，可以使用动态脚本语言如perl、shell等实现。又例如，可以使用python实现。鉴于python抓取网页数据的接口较简洁；python的urllib2包提供了较为完整的访问网页的应用程序编程接口(ApplicationProgrammingInterface，API)；在python...

【技术保护点】
1.一种网页数据获取方法，其特征在于，应用于电子设备，所述方法包括：识别并记录网页中各资源的类型和位置；确定待获取资源；从记录的所述各资源的类型和位置中，查找出所述待获取资源的类型和位置；根据所述待获取资源的类型和位置生成爬虫程序；执行所述爬虫程序，从所述网页中获取所述待获取资源的数据。

【技术特征摘要】
1.一种网页数据获取方法，其特征在于，应用于电子设备，所述方法包括：识别并记录网页中各资源的类型和位置；确定待获取资源；从记录的所述各资源的类型和位置中，查找出所述待获取资源的类型和位置；根据所述待获取资源的类型和位置生成爬虫程序；执行所述爬虫程序，从所述网页中获取所述待获取资源的数据。2.根据权利要求1所述的网页数据获取方法，其特征在于，识别并记录网页中各资源的类型和位置的步骤，包括：获取所述网页的源代码；格式化所述源代码，删除所述源代码中的设定信息，其中，所述设定信息包括直译式脚本语言JS和层叠样式表CSS；从删除所述设定信息的源代码中提取超文本标记语言HTML标签，基于所述HTML标签获得并记录所述网页中各资源的类型和位置。3.根据权利要求1所述的网页数据获取方法，其特征在于，识别并记录网页中各资源的类型和位置的步骤，包括：获取所述网页的超文本传输协议HTTP数据包；格式化所述HTTP数据包，删除所述HTTP数据包中的设定信息，其中，所述设定信息包括直译式脚本语言JS和层叠样式表CSS；从删除所述设定信息的HTTP数据包中分析得到并记录所述网页中各资源的类型和位置。4.根据权利要求2或3所述的网页数据获取方法，其特征在于，所述资源的类型包括文字、图片、文档、音频和视频，所述电子设备中存储有各所述类型对应的操作提示；所述确定待获取资源的步骤，包括：检测所述网页上的用户操作；确定所述用户操作在所述网页中的操作位置；根据所述操作位置，以及记录的所述各资源的位置，得到所述操作位置对应的资源的类型，并选中该资源；从预存的各操作提示中查找出与选中的资源的类型对应的目标操作提示，并展示所述目标操作提示；检测用户选中的目标操作，将所述用户选中的目标操作对应的资源作为待获取资源。5.根据权利要求1所述的网页数据获取方法，其特征在于，根据所述待获取资源的类型和位置生成爬虫程序的步骤，包括：基于设定的爬虫程序生成模板，根据所述待获取资源的类型和位置生成爬虫程序；其中，生成的爬虫程序为python爬虫程序。6.一种网页数据获取装置，其特征在于，应用于电子设...

【专利技术属性】
技术研发人员：黄哲，田延峰，
申请(专利权)人：新华三大数据技术有限公司，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人