一种基于规则可配置的网页数据解析方法技术

技术编号：19692488 阅读：32 留言：0更新日期：2018-12-08 11:21

本发明专利技术公开了一种基于规则可配置的网页数据解析方法，包括以下步骤：S1.Web端任务创建：Web应用程序向服务器端发送数据请求，任务配置信息填写完成后提交配置的信息；S2.网页采集：获取Web中通过任务配置配置的采集信息，后台根据传入的URL开始进行网页的抓取；S3.网页解析：获取Web中通过任务配置配置的解析信息，并获取采集网页后的列表信息进行数据解析；S4.数据下载：通过任务列表查看任务结果，在任务结果中可对采集的网页内容进行下载，也可对解析的数据进行查看和下载。本发明专利技术使用B/S架构的方式，方便使用，在对网页进行采集以及网页数据解析配置时，不需要进行大量操作。还可以方便的对网页中动态数据进行获取，并且使用协程，可以快速获取网页。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于规则可配置的网页数据解析方法
本专利技术属于网页数据处理领域，尤其涉及一种基于规则可配置的网页数据解析方法。
技术介绍
近年来，随着国内大数据战略越来越清晰，数据抓取和信息采集系列产品迎来了巨大的发展机遇，采集产品数量也出现迅猛增长。网页解析，即程序自动分析网页内容、获取信息，从而进一步处理信息，网页解析是实现网络爬虫中不可缺少而且十分重要的一环。但是，目前的网页数据解析方法在对网页数据解析配置时，操作复杂；或是在对网页中的动态数据获取时，速度较慢。
技术实现思路
为了解决上述问题，本专利技术提出一种基于规则可配置的网页数据解析方法，包括以下步骤：S1.Web端任务创建：Web应用程序向服务器端发送数据请求，在任务配置页面配置所需网页起始URL、网页采集规则和网页解析规则，接着通过配置数据所属的HTML标签进行数据的提起，任务配置信息填写完成后提交配置的信息；S2.网页采集：获取Web中通过任务配置配置的采集信息，后台根据传入的URL开始进行网页的抓取，根据配置的网页采集规则确定抓取方式，所述抓取方式包括增强模式和普通模式，所述增强模式结合使用Selenium与ChromeDriver，以及使用Python的UserAgent库构造访问头的方式去访问对应的URL，所述普通模式使用Python的aiohttp库和UserAgent库构造访问头的方式去访问对应的URL；访问成功完成后，将网页信息以及URL、页数以及页面等级保存到列表中；当网页都访问完成后，将抓取到网页信息以HTML文件的形式存入到服务器中，并将对应信息存入数据库；S3.网页解析：获取Web...

【技术保护点】
1.一种基于规则可配置的网页数据解析方法，其特征在于，包括以下步骤：S1. Web端任务创建：Web应用程序向服务器端发送数据请求，在任务配置页面配置所需网页起始URL、网页采集规则和网页解析规则，接着通过配置数据所属的HTML标签进行数据的提起，任务配置信息填写完成后提交配置的信息；S2. 网页采集：获取Web中通过任务配置配置的采集信息，后台根据传入的URL开始进行网页的抓取，根据配置的网页采集规则确定抓取方式，所述抓取方式包括增强模式和普通模式，所述增强模式结合使用Selenium与ChromeDriver，以及使用Python的UserAgent库构造访问头的方式去访问对应的URL，所述普通模式使用Python的aiohttp库和UserAgent库构造访问头的方式去访问对应的URL；访问成功完成后，将网页信息以及URL、页数以及页面等级保存到列表中；当网页都访问完成后，将抓取到网页信息以HTML文件的形式存入到服务器中，并将对应信息存入数据库；S3. 网页解析：获取Web中通过任务配置配置的解析信息，并获取采集网页后的列表信息进行数据解析，通过的Python的Beautifu...

【技术特征摘要】
1.一种基于规则可配置的网页数据解析方法，其特征在于，包括以下步骤：S1.Web端任务创建：Web应用程序向服务器端发送数据请求，在任务配置页面配置所需网页起始URL、网页采集规则和网页解析规则，接着通过配置数据所属的HTML标签进行数据的提起，任务配置信息填写完成后提交配置的信息；S2.网页采集：获取Web中通过任务配置配置的采集信息，后台根据传入的URL开始进行网页的抓取，根据配置的网页采集规则确定抓取方式，所述抓取方式包括增强模式和普通模式，所述增强模式结合使用Selenium与ChromeDriver，以及使用Python的UserAgent库构造访问头的方式去访问对应的URL，所述普通模式使用Python的aiohttp库和UserAgent库构造访问头的方式去访问对应的URL；访问成功完成后，将网页信息以及URL、页数以及页面等级保存到列表中；当网页都访问完成后，将抓取到网页信息以HTML文件的形式存入到服务器中，并将对应信息存入数据库；S3.网页解析：获取Web中通过任务配置配置的解析信息，并获取采集网页后的列表信息进行数据解析，通过的Python的BeautifulSoup库进行页面的解析；在解析时根据页面配置的HTML标签，以标签类型和值方式提取数据及相关标签；解析结束后，将数据存入数据库中；S4.数据下载：通过任务列表查看任务结果，在任务结果中可对采集的网页内容进行下载，也可对解析的数据进行查看和下载。2.根据权利要求1所述的一种基于规则...

【专利技术属性】
技术研发人员：曹亮，罗山城，
申请(专利权)人：成都信息工程大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人