System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于RPA网页内容提取与处理的方法及系统技术方案_技高网

用于RPA网页内容提取与处理的方法及系统技术方案

技术编号:40076786 阅读:30 留言:0更新日期:2024-01-17 01:30
本发明专利技术属于网络信息技术领域,具体涉及用于RPA网页内容提取与处理的方法及系统。方法包括:S1,通过前台配置及预览模块的流程配置界面,配置出数据提取规则和执行流程;S2,通过软件工具Node.js的Puppeteer自动化库,运行步骤S1配置出的执行流程,获得DOM对象或标签数据;S3,针对步骤S2提供的DOM对象或标签数据,根据步骤S1配置出的数据提取规则,解析并提取出用户需要得到的数据并进行数据清洗;S4,通过前台配置及预览模块的提取结果预览界面,将步骤S3提取清洗后的数据结果进行展示。本发明专利技术具有能够实现多场景内容的准确提取,动态及高效数据清洗和处理以及轻量级并可跨平台的特点。

【技术实现步骤摘要】

本专利技术属于网络信息,具体涉及用于rpa网页内容提取与处理的方法及系统。


技术介绍

1、自从自动化技术开始广泛应用以来,基于机器人流程自动化(robotic processautomation,rpa)的解决方案已成为众多企业和组织优化业务流程的重要工具。rpa技术利用软件机器人来模拟和执行重复性、规范性任务,从而减少了人工干预的需求,提高了工作效率和准确性。

2、随着 web 应用程序的发展,越来越多的网页内容通过 javascript 动态生成,传统的静态网页爬虫技术难以准确提取这些动态内容。这对于数据采集、信息监测和竞争情报等任务提出了挑战。鉴于传统爬虫技术的局限性,许多开发者开始采用基于浏览器的rpa自动化方法,如使用浏览器扩展、无头浏览器(headless browser)等来模拟用户操作,触发动态内容的生成,并实现数据提取,以弥补这些不足并提供更准确、高效的网页内容提取解决方案,但由于技术缺陷导致数据处理和运算方面不足。随着网页内容提取需求的增加,又出现了许多网页内容提取工具和框架,如 beautiful soup、scrapy 等,它们能够简化爬虫开发流程,提供丰富的功能和选项。

3、尽管现有技术在不同程度上能够实现网页内容提取,但皆存在不同的缺点,例如传统的静态网页爬虫技术,如xpath等技术对于动态生成的内容则存在局限性,而基于浏览器的自动化方法需要较大的计算资源,javascript运算低效率通病也同样是一个缺陷,并且现有的不管是静态网页爬虫技术还是自动化动态提取,皆只能提取table类型数据,对于其他类型,例如list等皆无法做到有效格式化提取,无法满足用户实际需求。

4、因此,设计一种能够实现多场景内容的准确提取,动态及高效数据清洗和处理以及轻量级并可跨平台的用于rpa网页内容提取与处理的方法及系统,就显得十分重要。


技术实现思路

1、本专利技术是为了克服现有技术中,传统的网页内容提取技术存在只能提取table类型数据以及运算效率低、耗时耗力的问题,提供了一种能够实现多场景内容的准确提取,动态及高效数据清洗和处理以及轻量级并可跨平台的用于rpa网页内容提取与处理的方法及系统。

2、为了达到上述专利技术目的,本专利技术采用以下技术方案:

3、用于rpa网页内容提取与处理的方法,包括如下步骤;

4、s1,通过前台配置及预览模块的流程配置界面,配置出数据提取规则和执行流程;

5、s2,通过软件工具node.js的puppeteer自动化库,运行步骤s1配置出的执行流程,获得dom对象或标签数据;

6、s3,针对步骤s2提供的dom对象或标签数据,根据步骤s1配置出的数据提取规则,解析并提取出用户需要得到的数据并进行数据清洗;

7、s4,通过前台配置及预览模块的提取结果预览界面,将步骤s3提取清洗后的数据结果进行展示。

8、作为优选,步骤s1中,所述数据提取规则的配置过程包括如下步骤:

9、s11,创建一个table数据结构,并对所述table数据结构进行自定义命名;

10、s12,选择所述table数据结构对应的页面内的容器标签,并再选择所述table数据结构对应承载的类型内容;所述类型内容为table表格类型内容或list列表类型内容;

11、s13,若步骤s12中,所述table数据结构对应承载的是table表格类型内容,则直接进行创建;

12、s14,若步骤s12中,所述table数据结构对应承载的是list列表类型内容,则需要为所述table数据结构自定义配置一个或多个th表头;每个th表头均配置各自对应的提取规则。

13、作为优选,步骤s1中,所述执行流程的配置过程包括如下步骤:

14、s15,配置需要进行数据提取的网址;

15、s16,配置进入网址后需要执行的各种操作;所述操作包括键盘输入、鼠标点击、鼠标滚动和循环操作。

16、作为优选,步骤s2包括如下步骤:

17、s21,调用puppeteer自动化库的launch api工具创建一个无头浏览器;

18、s22,调用newpage api工具创建页面;

19、s23,通过goto api工具,进行跳转到配置执行流程过程中配置的目标网页地址,再根据后续配置的数组进行队列操作;

20、s23,当执行到采集步骤时,通过puppeteer自动化库提供的获取dom对象的api,获取到对应属性的标签数据或者获取到整个dom对象。

21、作为优选,步骤s3包括如下步骤:

22、s31,用c++语言编写dom对象解析及数据提取的编码;

23、s32,利用emscripten构建工具构建出.wasm文件与.js胶水代码文件;所述.js胶水代码文件包括javascript胶水代码;

24、s33,通过使用javascript胶水代码加载.wasm文件,并调用预留的数据提取api接口,将dom对象和提取规则传入到所述api接口中,最终返回处理后的表格数据。

25、作为优选,步骤s4包括如下步骤:

26、s41,将返回的数据结果,渲染到页面中的表格组件中;

27、s42,检查数据结果是否正确,若检查出有数据错误,则双击对应的数据条进行编辑修改,修改后点击确认保存。

28、s43,在数据检查及修改全部正确后,点击导出,前端用xlsx.js插件将最终表格数据导出为xlsx文件供用户使用。

29、作为优选,步骤s41中,当返回的数据结果条数超过单一页面表格组件的最大承载量时,则支持分页展示返回的数据结果。

30、本专利技术还提供了用于rpa网页内容提取与处理的系统,包括;

31、前台配置及预览模块,用于通过内置的流程配置界面,配置出数据提取规则和执行流程以及通过内置的提取结果预览界面,将提取清洗后的数据结果进行展示;

32、自动化操作模块,用于通过软件工具node.js的puppeteer自动化库,运行前台配置及预览模块配置出的执行流程,获得dom对象或标签数据;

33、数据处理模块,用于针对自动化操作模块提供的dom对象或标签数据,根据前台配置及预览模块配置出的数据提取规则,解析并提取出用户需要得到的数据并进行数据清洗。

34、本专利技术与现有技术相比,有益效果是:(1)本专利技术提出了自定义创造table及各部位th、tr、td结合dom树中各标签的方式进行网页内容提取,不再局限于只能提取网页的table标签,对于list类型也可以提取,并且不管是table类型还是list类型,最终都可以通过自定义配置规则的方式提取成功,最终转换为统一的table形式呈现给用户,供用户excel导出文件使用;(2)本专利技术提出了将puppeteer和webassembly本文档来自技高网...

【技术保护点】

1.用于RPA网页内容提取与处理的方法,其特征在于,包括如下步骤;

2.根据权利要求1所述的用于RPA网页内容提取与处理的方法,其特征在于,步骤S1中,所述数据提取规则的配置过程包括如下步骤:

3.根据权利要求2所述的用于RPA网页内容提取与处理的方法,其特征在于,步骤S1中,所述执行流程的配置过程包括如下步骤:

4.根据权利要求3所述的用于RPA网页内容提取与处理的方法,其特征在于,步骤S2包括如下步骤:

5.根据权利要求4所述的用于RPA网页内容提取与处理的方法,其特征在于,步骤S3包括如下步骤:

6.根据权利要求5所述的用于RPA网页内容提取与处理的方法,其特征在于,步骤S4包括如下步骤:

7.根据权利要求6所述的用于RPA网页内容提取与处理的方法,其特征在于,步骤S41中,当返回的数据结果条数超过单一页面表格组件的最大承载量时,则支持分页展示返回的数据结果。

8.用于RPA网页内容提取与处理的系统,用于实现权利要求1-7任一项所述的用于RPA网页内容提取与处理的方法,其特征在于,所述用于RPA网页内容提取与处理的系统包括;

...

【技术特征摘要】

1.用于rpa网页内容提取与处理的方法,其特征在于,包括如下步骤;

2.根据权利要求1所述的用于rpa网页内容提取与处理的方法,其特征在于,步骤s1中,所述数据提取规则的配置过程包括如下步骤:

3.根据权利要求2所述的用于rpa网页内容提取与处理的方法,其特征在于,步骤s1中,所述执行流程的配置过程包括如下步骤:

4.根据权利要求3所述的用于rpa网页内容提取与处理的方法,其特征在于,步骤s2包括如下步骤:

5.根据权利要求4所述的用于rpa网页内容提取与处理的...

【专利技术属性】
技术研发人员:翟帅
申请(专利权)人:杭州实在智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1