基于pythonQT及智能算法的快速规则定制方法技术

技术编号：20221442 阅读：46 留言：0更新日期：2019-01-28 20:03

本发明专利技术公开了基于pythonQT及智能算法的快速规则定制方法，涉及网页规则定制技术领域。本发明专利技术包括输入待爬取页面的URL，客户端通过URL加载页面；基于selenium提取页面中导航列表项；通过智能算法提取详情页正文部分；通过js技术从页面中获取页面元素规则，返回客户端；规则上传服务端，后台爬虫程序根据规则进行爬取。本发明专利技术通过selenium提取页面中导航列表项并过滤掉纵坐标大于浏览器高度的

全部详细技术资料下载

【技术实现步骤摘要】
基于pythonQT及智能算法的快速规则定制方法
本专利技术属于网页规则定制
，特别是涉及基于pythonQT及智能算法的快速规则定制方法。
技术介绍
随着大数据技术的快速发展，数据作为其根本研究对象，发挥着越来越举足轻重的作用。数据如何高效快速地获取，成为了目前研究的重要课题之一。而爬虫作为互联网数据获取的基本技术手段，高效获取数据，优化改善势目前的技术势在必行。目前爬虫获取网页数据的基本思路是：(1)通过给定的目标网页地址，爬虫发起对该页面的请求，即发送一个Request，请求可以包含额外的hearder等信息。(2)获取请求服务器后响应的内容。如果服务器能够正常响应，会得到一个Response，Response的内容便是所要获取页面的内容。(3)解析内容。得到网页内容后，爬虫便会分析页面结构，爬取指定内容。(4)保存数据。保存数据形式不一，可以存为文本，也可以保存到数据库，又或者保存为特定格式的文件。对步骤(3)中的内容解析，目前常用的技术手段基本是，技术人员通过浏览器人工分析网站的页面结构，给出具体规则，然后后台爬虫根据规则对页面进行数据爬取。如果爬...

【技术保护点】
1.基于pythonQT及智能算法的快速规则定制方法，其特征在于，包括如下步骤：S00：输入待爬取页面的URL，客户端通过URL加载页面；S01：基于selenium提取页面中导航列表项；S02：通过智能算法提取详情页正文部分；S03：通过js技术从页面中获取页面元素规则，返回客户端；S04：规则上传服务端，后台爬虫程序根据规则进行爬取；其中，S01中提取页面中导航列表项具体过程如下：A00：通过selenium标记页面中的可见

【技术特征摘要】
1.基于pythonQT及智能算法的快速规则定制方法，其特征在于，包括如下步骤：S00：输入待爬取页面的URL，客户端通过URL加载页面；S01：基于selenium提取页面中导航列表项；S02：通过智能算法提取详情页正文部分；S03：通过js技术从页面中获取页面元素规则，返回客户端；S04：规则上传服务端，后台爬虫程序根据规则进行爬取；其中，S01中提取页面中导航列表项具体过程如下：A00：通过selenium标记页面中的可见<a>标签；A01：对标记过的<a>标签进行过滤；其中，S02中通过智能算法提取详情页正文部分具体过程如下：C00：将详情页中的html标签去除得到纯文本；C01：设定行块大小行数大小M、行块字数阈值并计算各行块的字符数N；C02：绘制以行数M为横坐标、行块字数N为纵坐标绘制行块曲线；CO3：获取骤降点与骤升点并确认正文区域。2.根据权利要求1所述的基于pythonQT及智能算法的快速规则定制方法，其特征在于，A01中过滤方式为：T00：遍历A00中筛选出的<a>标签，计算出标签的坐标位置并存放于标签横坐标于标签坐标数组中；T01：过滤掉纵坐标大于浏...

【专利技术属性】
技术研发人员：邢航，李森，汪明，
申请(专利权)人：科大国创软件股份有限公司，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人