基于网页的样本数据获取方法、装置、设备及存储介质制造方法及图纸

技术编号：32248069 阅读：26 留言：0更新日期：2022-02-09 17:51

本申请提供一种基于网页的样本数据获取方法、装置、设备及存储介质，其中，基于网页的样本数据获取方法包括：基于目标网页的URL访问所述目标网页，并在所述目标网页访问成功时获取所述目标网页的网页源码；基于第一解码格式识别所述网页源码的内容；判断所述网页源码的内容是否为乱码内容；当所述网页源码的内容为乱码内容时，则基于所述第二解码格式对所述网页源码的内容进行识别，直至所述网页源码的内容为正确；基于所述网页源码的内容得到样本数据。本申请能够实现在获取网页内容而生成样本数据的过程中，提高服务器资源利用率和提高生成样本数据的执行速度。生成样本数据的执行速度。生成样本数据的执行速度。

全部详细技术资料下载

【技术实现步骤摘要】
基于网页的样本数据获取方法、装置、设备及存储介质

[0001]本申请涉及计算机
，具体而言，涉及一种基于网页的样本数据获取方法、装置、设备及存储介质。

技术介绍

[0002]目前，为了对网站进行分类需要获取针对网站分类的样本数据，而现有技术是利用调度器、下载器、爬虫、实体管道、Scrapy引擎五大组件对web站点进行抓取，并从页面中提取结构化的数据，最终得到样本数据，其中，现有技术的具体实现过程是：对一个站点配置启动地址，Scrapy运行时首先会从启动地址抓取，并根据配置中的XPath或者正则获取页面中的目标URL，然后在再次进行访问，如此循环，通过下载器对访问的URL地址结果进行处理，提取内容，并将处理好的内容数据持久化存库。
[0003]然而，由于Scrapy爬虫框架的运行是依据启动地址，并在本站点的页面中进行网络式爬取，然后对爬取到的符合要求的URL再次进行访问，并对提取到的内容做处理，最后进行存库，因此对已有URL地址并需要快速并发地提取到内容的需求场景，该方案并不适合，并在爬虫框架的频繁启动造成CPU...

【技术保护点】

【技术特征摘要】
1.一种基于网页的样本数据获取方法，其特征在于，所述方法包括：基于目标网页的URL访问所述目标网页，并在所述目标网页访问成功时获取所述目标网页的网页源码；基于第一解码格式识别所述网页源码的内容；判断所述网页源码的内容是否为乱码内容；当所述网页源码的内容为乱码内容时，则基于第二解码格式对所述网页源码的内容进行识别，直至所述网页源码的内容为正确；基于所述网页源码的内容得到样本数据。2.如权利要求1所述的方法，其特征在于，在所述基于第一解码格式识别所述网页源码的内容之前，所述方法还包括：当基于所述目标网页的URL访问所述目标网页失败时，更换访问所述目标网页的IP地址；基于更换后的IP地址和目标网页的URL访问所述目标网页。3.如权利要求1所述的方法，其特征在于，所述基于所述网页源码的内容得到样本数据，包括：去除所述网页源码的内容中的第一HMTL元素标签，并得到第一页面处理结果；基于所述第一页面处理结果，提取第二HMTL元素标签的文字内容；将所述第二HMTL元素标签的文字内容，作为所述样本数据。4.如权利要求3所述的方法，其特征在于，所述第一HMTL元素标签至少包括JS代码片段标签、CSS样式标签。5.如权利要求3所述的方法，其特征在于，在所述基于所述第一页面处理结果，提取第二HMTL元素标签的文字内容之前，所述方法还包括：将所述第一页面处理结果中的网页换行符转换为普通文本换行符；将所述第一页面处理结果中的连续空白符和连续的换行符合并。6.如权利要求1所述的方法，其特征在于，在所述基于所...

【专利技术属性】
技术研发人员：童兆丰，樊兴华，薛锋，
申请(专利权)人：北京微步在线科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人