自适应数据收集优化制造技术

技术编号：39936123 阅读：20 留言：0更新日期：2024-01-08 22:11

公开了智能地优化数据收集请求的系统和方法。在一个实施例中，系统被配置为识别和选择适当参数的完整集合以执行数据收集请求。在另一个实施例中，系统被配置为识别和选择适当参数的部分集合以执行数据收集请求。本实施例可以实现机器学习算法以按照数据收集请求和目标的性质来识别和选择适当的参数。此外，实施例提供了基于数据收集参数的有效性来生成反馈数据的系统和方法。此外，实施例提供了基于反馈数据和总成本对适当参数集合进行评分的系统和方法，该适当参数集合和分数然后被存储在内部数据库中。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开属于web抓取和数据收集技术的领域。本文中详述的方法和系统旨在优化web抓取过程，其中，优化是通过采用机器学习算法来实现的。

技术介绍

1、web抓取(也称为屏幕抓取、数据挖掘、web收获)在其最一般的意义上是从因特网自动搜集数据。从技术上说，它是通过除人类使用web浏览器或与应用编程接口(api)交互的程序以外的任何方式从因特网搜集数据的做法。web抓取通常是通过执行一个程序来完成的，该程序查询web服务器并自动请求数据，然后解析数据以提取所请求的信息。

2、web抓取器是为web抓取而编写的程序，它与其他访问信息的方式，比如web浏览器相比具有显著的优势。后者旨在以可读的方式为人类呈现信息，而web抓取器则擅长快速收集和处理大量数据。web抓取器能够同时收集、处理、聚合和呈现由数千甚至数百万个页面组成的大型数据库，而不是通过监视器一次打开一个页面(像web浏览器那样)。

3、在一些情况下，网站允许另一种自动方式经由api将其结构化数据从一个程序传送到另一个程序。通常，程序将经由超文本传送协议(http)...

【技术保护点】

1.一种在执行抓取请求时通过识别适当的参数来优化抓取请求的方法，所述方法包括：

2.按照权利要求1所述的方法，其中所述分类决策是“阻止”响应或“非阻止”响应。

3.按照任一前述权利要求特别是权利要求2所述的方法，其中接收到分类决策的“非阻止”响应的抓取请求参数集合比接收到“阻止”响应的抓取请求参数集合接收更高的分数。

4.按照任一前述权利要求特别是权利要求3所述的方法，其中接收到分类决策的“阻止”响应的抓取请求参数集合比接收到“非阻止”响应的抓取请求参数集合接收更低的分数。

5.按照任一前述权利要求特别是权利要求3所述的方法，其中如果对于后...

【技术特征摘要】
【国外来华专利技术】

1.一种在执行抓取请求时通过识别适当的参数来优化抓取请求的方法，所述方法包括：

2.按照权利要求1所述的方法，其中所述分类决策是“阻止”响应或“非阻止”响应。

5.按照任一前述权利要求特别是权利要求3所述的方法，其中如果对于后续抓取请求，分类决策接收到“阻止”响应，则利用新的经评分的抓取请求参数集合来重复在执行抓取请求时通过识别适当的参数来优化抓取请求的所述方法。

6.按照任一前述权利要求特别是权利要求5所述的方法，其中对于后续抓取请求重复在执行抓取请求时通过识别适当的参数来优化抓取请求的所述方法，直到分类决策是“非阻止”响应或达到最大尝试阈值为止。

7.按照任一前述权利要求特别是权利要求6所述的方法，其中来自“非阻止”响应的数据用于将来的抓取动作。

8.按照任一前述权利要求特别是权利要求1所述的方法，其中所述抓取请求参数集合的评分受针对抓取请求参数计算的总抓取请求成本的量的影响。

9.按照任一前述权利要求特别是权利要求1所述的方法，其中抓取请求参数的所述部分集合包括单个抓取请求参数或者包括以下任何参数的组合：

10.按照任一前述权利要求特别是权利要求1所述的方法，其中当在不同的参数集合内记录抓取请求参数的新分数时，修改所述机器学习算法。

11.按照任一前述权利要求特别是权利要求1所述的方...

【专利技术属性】
技术研发人员：M·佳莱维克斯，E·布尔巴，M·布里利亚斯克斯，
申请(专利权)人：奥科西拉博斯私人有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人