一种基于RPA的网页数据采集及处理方法及系统技术方案

技术编号:41494069 阅读:27 留言:0更新日期:2024-05-30 14:39
本发明专利技术提供一种基于RPA的网页数据采集及处理方法及系统,所述方法包括:步骤1,通过RPA采集网页数据;步骤2,识别并补齐网页数据的标签,形成完整的HTML文件;步骤3,将HTML文件存储于预建的静态文件夹中;步骤4,根据静态文件夹的访问路径创建URL;步骤5,当用户访问URL时,将IP和端口地址拼接成访问链接,以便用户通过访问链接跳转至所采集的网页进行查看。该技术方案解决了不规则网页标签中所需信息的采集、存储和展示问题。

【技术实现步骤摘要】

本申请涉及网页数据采集,尤其涉及一种基于rpa的网页数据采集及处理方法及系统。


技术介绍

1、随着信息化和数字化的快速发展,需要处理的数据量急剧增加,传统的数据采集方式,如人工录入或使用特定软件,不仅效率低下,而且容易出错。为了解决这一问题,机器人流程自动化(rpa)技术应运而生。rpa能够模拟人类在计算机上的操作,自动执行重复性、规则性的工作,从而提高工作效率,减少人为错误。然而,现有的rpa技术采集数据的过程通常通过html标签进行所需数据的定位,当所采集的网页标签发生变化或所需的同样字段的数据在网页所呈现的方式不一致时,将无法实现获取数据的完整性。


技术实现思路

1、有鉴于此,本专利技术提供一种基于rpa的网页数据采集及处理方法及系统,以解决现有技术在采集的网页标签发生变化或所需的同样字段的数据与网页所呈现的方式不一致时,将无法实现获取数据的完整性的技术问题。

2、本专利技术提供一种基于rpa的网页数据采集及处理方法,所述方法包括:步骤1,通过rpa采集网页数据;步骤2,识别并补齐网页数据的本文档来自技高网...

【技术保护点】

1.一种基于RPA的网页数据采集及处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述一种基于RPA的网页数据采集及处理方法,其特征在于,所述步骤1包括:

3.根据权利要求2所述一种基于RPA的网页数据采集及处理方法,其特征在于,所述步骤2包括:

4.根据权利要求1所述一种基于RPA的网页数据采集及处理方法,其特征在于,所述步骤3包括:

5.根据权利要求4所述一种基于RPA的网页数据采集及处理方法,其特征在于,所述步骤3还包括:

6.根据权利要求1所述一种基于RPA的网页数据采集及处理方法,其特征在于,步骤4具体为:根据...

【技术特征摘要】

1.一种基于rpa的网页数据采集及处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述一种基于rpa的网页数据采集及处理方法,其特征在于,所述步骤1包括:

3.根据权利要求2所述一种基于rpa的网页数据采集及处理方法,其特征在于,所述步骤2包括:

4.根据权利要求1所述一种基于rpa的网页数据采集及处理方法,其特征在于,所述步骤3包括:

5.根据权利要求4所述一种基于rpa的网页数据采集及处理方法,其特征在于,所述步骤3还包括:

6.根据权利要求1所述一种基于rpa的网页数据采集及处理方法,其特征在于,步骤4具体为:根据静态文件夹的访问路径,将路径对应展示为url。

7.一种实现权利要求1-6所述...

【专利技术属性】
技术研发人员:夏禹李隆譞王健李晔祝轶晨刘正平
申请(专利权)人:东风悦享科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1