【技术实现步骤摘要】
【国外来华专利技术】
本公开属于web抓取和数据收集技术的领域。本文中详述的方法和系统旨在优化web抓取过程,其中,优化是通过采用机器学习算法来实现的。
技术介绍
1、web抓取(也称为屏幕抓取、数据挖掘、web收获)在其最一般的意义上是从因特网自动搜集数据。从技术上说,它是通过除人类使用web浏览器或与应用编程接口(api)交互的程序以外的任何方式从因特网搜集数据的做法。web抓取通常是通过执行一个程序来完成的,该程序查询web服务器并自动请求数据,然后解析数据以提取所请求的信息。
2、web抓取器是为web抓取而编写的程序,它与其他访问信息的方式,比如web浏览器相比具有显著的优势。后者旨在以可读的方式为人类呈现信息,而web抓取器则擅长快速收集和处理大量数据。web抓取器能够同时收集、处理、聚合和呈现由数千甚至数百万个页面组成的大型数据库,而不是通过监视器一次打开一个页面(像web浏览器那样)。
3、在一些情况下,网站允许另一种自动方式经由api将其结构化数据从一个程序传送到另一个程序。通常,程序将经由超文本传送协议(http)
...【技术保护点】
1.一种在执行抓取请求时通过识别适当的参数来优化抓取请求的方法,所述方法包括:
2.按照权利要求1所述的方法,其中所述分类决策是“阻止”响应或“非阻止”响应。
3.按照任一前述权利要求特别是权利要求2所述的方法,其中接收到分类决策的“非阻止”响应的抓取请求参数集合比接收到“阻止”响应的抓取请求参数集合接收更高的分数。
4.按照任一前述权利要求特别是权利要求3所述的方法,其中接收到分类决策的“阻止”响应的抓取请求参数集合比接收到“非阻止”响应的抓取请求参数集合接收更低的分数。
5.按照任一前述权利要求特别是权利要求3所述的
...【技术特征摘要】
【国外来华专利技术】
1.一种在执行抓取请求时通过识别适当的参数来优化抓取请求的方法,所述方法包括:
2.按照权利要求1所述的方法,其中所述分类决策是“阻止”响应或“非阻止”响应。
3.按照任一前述权利要求特别是权利要求2所述的方法,其中接收到分类决策的“非阻止”响应的抓取请求参数集合比接收到“阻止”响应的抓取请求参数集合接收更高的分数。
4.按照任一前述权利要求特别是权利要求3所述的方法,其中接收到分类决策的“阻止”响应的抓取请求参数集合比接收到“非阻止”响应的抓取请求参数集合接收更低的分数。
5.按照任一前述权利要求特别是权利要求3所述的方法,其中如果对于后续抓取请求,分类决策接收到“阻止”响应,则利用新的经评分的抓取请求参数集合来重复在执行抓取请求时通过识别适当的参数来优化抓取请求的所述方法。
6.按照任一前述权利要求特别是权利要求5所述的方法,其中对于后续抓取请求重复在执行抓取请求时通过识别适当的参数来优化抓取请求的所述方法,直到分类决策是“非阻止”响应或达到最大尝试阈值为止。
7.按照任一前述权利要求特别是权利要求6所述的方法,其中来自“非阻止”响应的数据用于将来的抓取动作。
8.按照任一前述权利要求特别是权利要求1所述的方法,其中所述抓取请求参数集合的评分受针对抓取请求参数计算的总抓取请求成本的量的影响。
9.按照任一前述权利要求特别是权利要求1所述的方法,其中抓取请求参数的所述部分集合包括单个抓取请求参数或者包括以下任何参数的组合:
10.按照任一前述权利要求特别是权利要求1所述的方法,其中当在不同的参数集合内记录抓取请求参数的新分数时,修改所述机器学习算法。
11.按照任一前述权利要求特别是权利要求1所述的方...
【专利技术属性】
技术研发人员:M·佳莱维克斯,E·布尔巴,M·布里利亚斯克斯,
申请(专利权)人:奥科西拉博斯私人有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。