用于RPA网页内容提取与处理的方法及系统技术方案

技术编号：40076786 阅读：30 留言：0更新日期：2024-01-17 01:30

本发明专利技术属于网络信息技术领域，具体涉及用于RPA网页内容提取与处理的方法及系统。方法包括：S1，通过前台配置及预览模块的流程配置界面，配置出数据提取规则和执行流程；S2，通过软件工具Node.js的Puppeteer自动化库，运行步骤S1配置出的执行流程，获得DOM对象或标签数据；S3，针对步骤S2提供的DOM对象或标签数据，根据步骤S1配置出的数据提取规则，解析并提取出用户需要得到的数据并进行数据清洗；S4，通过前台配置及预览模块的提取结果预览界面，将步骤S3提取清洗后的数据结果进行展示。本发明专利技术具有能够实现多场景内容的准确提取，动态及高效数据清洗和处理以及轻量级并可跨平台的特点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于网络信息，具体涉及用于rpa网页内容提取与处理的方法及系统。

技术介绍

1、自从自动化技术开始广泛应用以来，基于机器人流程自动化（robotic processautomation，rpa）的解决方案已成为众多企业和组织优化业务流程的重要工具。rpa技术利用软件机器人来模拟和执行重复性、规范性任务，从而减少了人工干预的需求，提高了工作效率和准确性。

2、随着 web 应用程序的发展，越来越多的网页内容通过 javascript 动态生成，传统的静态网页爬虫技术难以准确提取这些动态内容。这对于数据采集、信息监测和竞争情报等任务提出了挑战。鉴于传统爬虫技术的局限性，许多开发者开始采用基于浏览器的rpa自动化方法，如使用浏览器扩展、无头浏览器（headless browser）等来模拟用户操作，触发动态内容的生成，并实现数据提取，以弥补这些不足并提供更准确、高效的网页内容提取解决方案，但由于技术缺陷导致数据处理和运算方面不足。随着网页内容提取需求的增加，又出现了许多网页内容提取工具和框架，如 beautiful soup、scrapy 等，它们能够简化爬虫开发流程，提供丰富的功能和选项。

3、尽管现有技术在不同程度上能够实现网页内容提取，但皆存在不同的缺点，例如传统的静态网页爬虫技术，如xpath等技术对于动态生成的内容则存在局限性，而基于浏览器的自动化方法需要较大的计算资源，javascript运算低效率通病也同样是一个缺陷，并且现有的不管是静态网页爬虫技术还是自动化动态提取，皆只能提取tabl

4、因此，设计一种能够实现多场景内容的准确提取，动态及高效数据清洗和处理以及轻量级并可跨平台的用于rpa网页内容提取与处理的方法及系统，就显得十分重要。

技术实现思路

1、本专利技术是为了克服现有技术中，传统的网页内容提取技术存在只能提取table类型数据以及运算效率低、耗时耗力的问题，提供了一种能够实现多场景内容的准确提取，动态及高效数据清洗和处理以及轻量级并可跨平台的用于rpa网页内容提取与处理的方法及系统。

2、为了达到上述专利技术目的，本专利技术采用以下技术方案：

3、用于rpa网页内容提取与处理的方法，包括如下步骤；

4、s1，通过前台配置及预览模块的流程配置界面，配置出数据提取规则和执行流程；

5、s2，通过软件工具node.js的puppeteer自动化库，运行步骤s1配置出的执行流程，获得dom对象或标签数据；

6、s3，针对步骤s2提供的dom对象或标签数据，根据步骤s1配置出的数据提取规则，解析并提取出用户需要得到的数据并进行数据清洗；

7、s4，通过前台配置及预览模块的提取结果预览界面，将步骤s3提取清洗后的数据结果进行展示。

8、作为优选，步骤s1中，所述数据提取规则的配置过程包括如下步骤：

9、s11，创建一个table数据结构，并对所述table数据结构进行自定义命名；

10、s12，选择所述table数据结构对应的页面内的容器标签，并再选择所述table数据结构对应承载的类型内容；所述类型内容为table表格类型内容或list列表类型内容；

11、s13，若步骤s12中，所述table数据结构对应承载的是table表格类型内容，则直接进行创建；

12、s14，若步骤s12中，所述table数据结构对应承载的是list列表类型内容，则需要为所述table数据结构自定义配置一个或多个th表头；每个th表头均配置各自对应的提取规则。

13、作为优选，步骤s1中，所述执行流程的配置过程包括如下步骤：

14、s15，配置需要进行数据提取的网址；

15、s16，配置进入网址后需要执行的各种操作；所述操作包括键盘输入、鼠标点击、鼠标滚动和循环操作。

16、作为优选，步骤s2包括如下步骤：

17、s21，调用puppeteer自动化库的launch api工具创建一个无头浏览器；

18、s22，调用newpage api工具创建页面；

19、s23，通过goto api工具，进行跳转到配置执行流程过程中配置的目标网页地址，再根据后续配置的数组进行队列操作；

20、s23，当执行到采集步骤时，通过puppeteer自动化库提供的获取dom对象的api，获取到对应属性的标签数据或者获取到整个dom对象。

21、作为优选，步骤s3包括如下步骤：

22、s31，用c++语言编写dom对象解析及数据提取的编码；

23、s32，利用emscripten构建工具构建出.wasm文件与.js胶水代码文件；所述.js胶水代码文件包括javascript胶水代码；

24、s33，通过使用javascript胶水代码加载.wasm文件，并调用预留的数据提取api接口，将dom对象和提取规则传入到所述api接口中，最终返回处理后的表格数据。

25、作为优选，步骤s4包括如下步骤：

26、s41，将返回的数据结果，渲染到页面中的表格组件中；

27、s42，检查数据结果是否正确，若检查出有数据错误，则双击对应的数据条进行编辑修改，修改后点击确认保存。

28、s43，在数据检查及修改全部正确后，点击导出，前端用xlsx.js插件将最终表格数据导出为xlsx文件供用户使用。

29、作为优选，步骤s41中，当返回的数据结果条数超过单一页面表格组件的最大承载量时，则支持分页展示返回的数据结果。

30、本专利技术还提供了用于rpa网页内容提取与处理的系统，包括；

31、前台配置及预览模块，用于通过内置的流程配置界面，配置出数据提取规则和执行流程以及通过内置的提取结果预览界面，将提取清洗后的数据结果进行展示；

32、自动化操作模块，用于通过软件工具node.js的puppeteer自动化库，运行前台配置及预览模块配置出的执行流程，获得dom对象或标签数据；

33、数据处理模块，用于针对自动化操作模块提供的dom对象或标签数据，根据前台配置及预览模块配置出的数据提取规则，解析并提取出用户需要得到的数据并进行数据清洗。

34、本专利技术与现有技术相比，有益效果是：（1）本专利技术提出了自定义创造table及各部位th、tr、td结合dom树中各标签的方式进行网页内容提取，不再局限于只能提取网页的table标签，对于list类型也可以提取，并且不管是table类型还是list类型，最终都可以通过自定义配置规则的方式提取成功，最终转换为统一的table形式呈现给用户，供用户excel导出文件使用；（2）本专利技术提出了将puppeteer和webassembly本文档来自技高网...

【技术保护点】

1.用于RPA网页内容提取与处理的方法，其特征在于，包括如下步骤；

2.根据权利要求1所述的用于RPA网页内容提取与处理的方法，其特征在于，步骤S1中，所述数据提取规则的配置过程包括如下步骤：

3.根据权利要求2所述的用于RPA网页内容提取与处理的方法，其特征在于，步骤S1中，所述执行流程的配置过程包括如下步骤：

4.根据权利要求3所述的用于RPA网页内容提取与处理的方法，其特征在于，步骤S2包括如下步骤：

5.根据权利要求4所述的用于RPA网页内容提取与处理的方法，其特征在于，步骤S3包括如下步骤：

6.根据权利要求5所述的用于RPA网页内容提取与处理的方法，其特征在于，步骤S4包括如下步骤：

7.根据权利要求6所述的用于RPA网页内容提取与处理的方法，其特征在于，步骤S41中，当返回的数据结果条数超过单一页面表格组件的最大承载量时，则支持分页展示返回的数据结果。

8.用于RPA网页内容提取与处理的系统，用于实现权利要求1-7任一项所述的用于RPA网页内容提取与处理的方法，其特征在于，所述用于R

...

【技术特征摘要】

1.用于rpa网页内容提取与处理的方法，其特征在于，包括如下步骤；

2.根据权利要求1所述的用于rpa网页内容提取与处理的方法，其特征在于，步骤s1中，所述数据提取规则的配置过程包括如下步骤：

3.根据权利要求2所述的用于rpa网页内容提取与处理的方法，其特征在于，步骤s1中，所述执行流程的配置过程包括如下步骤：

4.根据权利要求3所述的用于rpa网页内容提取与处理的方法，其特征在于，步骤s2包括如下步骤：

5.根据权利要求4所述的用于rpa网页内容提取与处理的...

【专利技术属性】
技术研发人员：翟帅，
申请(专利权)人：杭州实在智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人