基于pythonQT及智能算法的快速规则定制方法技术

技术编号:20221442 阅读:46 留言:0更新日期:2019-01-28 20:03
本发明专利技术公开了基于pythonQT及智能算法的快速规则定制方法,涉及网页规则定制技术领域。本发明专利技术包括输入待爬取页面的URL,客户端通过URL加载页面;基于selenium提取页面中导航列表项;通过智能算法提取详情页正文部分;通过js技术从页面中获取页面元素规则,返回客户端;规则上传服务端,后台爬虫程序根据规则进行爬取。本发明专利技术通过selenium提取页面中导航列表项并过滤掉纵坐标大于浏览器高度的

【技术实现步骤摘要】
基于pythonQT及智能算法的快速规则定制方法
本专利技术属于网页规则定制
,特别是涉及基于pythonQT及智能算法的快速规则定制方法。
技术介绍
随着大数据技术的快速发展,数据作为其根本研究对象,发挥着越来越举足轻重的作用。数据如何高效快速地获取,成为了目前研究的重要课题之一。而爬虫作为互联网数据获取的基本技术手段,高效获取数据,优化改善势目前的技术势在必行。目前爬虫获取网页数据的基本思路是:(1)通过给定的目标网页地址,爬虫发起对该页面的请求,即发送一个Request,请求可以包含额外的hearder等信息。(2)获取请求服务器后响应的内容。如果服务器能够正常响应,会得到一个Response,Response的内容便是所要获取页面的内容。(3)解析内容。得到网页内容后,爬虫便会分析页面结构,爬取指定内容。(4)保存数据。保存数据形式不一,可以存为文本,也可以保存到数据库,又或者保存为特定格式的文件。对步骤(3)中的内容解析,目前常用的技术手段基本是,技术人员通过浏览器人工分析网站的页面结构,给出具体规则,然后后台爬虫根据规则对页面进行数据爬取。如果爬取单一的网站,这种方本文档来自技高网...

【技术保护点】
1.基于pythonQT及智能算法的快速规则定制方法,其特征在于,包括如下步骤:S00:输入待爬取页面的URL,客户端通过URL加载页面;S01:基于selenium提取页面中导航列表项;S02:通过智能算法提取详情页正文部分;S03:通过js技术从页面中获取页面元素规则,返回客户端;S04:规则上传服务端,后台爬虫程序根据规则进行爬取;其中,S01中提取页面中导航列表项具体过程如下:A00:通过selenium标记页面中的可见

【技术特征摘要】
1.基于pythonQT及智能算法的快速规则定制方法,其特征在于,包括如下步骤:S00:输入待爬取页面的URL,客户端通过URL加载页面;S01:基于selenium提取页面中导航列表项;S02:通过智能算法提取详情页正文部分;S03:通过js技术从页面中获取页面元素规则,返回客户端;S04:规则上传服务端,后台爬虫程序根据规则进行爬取;其中,S01中提取页面中导航列表项具体过程如下:A00:通过selenium标记页面中的可见<a>标签;A01:对标记过的<a>标签进行过滤;其中,S02中通过智能算法提取详情页正文部分具体过程如下:C00:将详情页中的html标签去除得到纯文本;C01:设定行块大小行数大小M、行块字数阈值并计算各行块的字符数N;C02:绘制以行数M为横坐标、行块字数N为纵坐标绘制行块曲线;CO3:获取骤降点与骤升点并确认正文区域。2.根据权利要求1所述的基于pythonQT及智能算法的快速规则定制方法,其特征在于,A01中过滤方式为:T00:遍历A00中筛选出的<a>标签,计算出标签的坐标位置并存放于标签横坐标于标签坐标数组中;T01:过滤掉纵坐标大于浏...

【专利技术属性】
技术研发人员:邢航李森汪明
申请(专利权)人:科大国创软件股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1