基于页面状态理解和大模型驱动的制造技术

技术编号：39754787 阅读：9 留言：0更新日期：2023-12-17 23:53

本发明专利技术属于

全部详细技术资料下载

【技术实现步骤摘要】
基于页面状态理解和大模型驱动的RPA流程执行系统及方法

[0001]本专利技术属于
RPA
流程配置
，具体涉及基于页面状态理解和大模型驱动的
RPA
流程执行系统及方法
。

技术介绍

[0002]机器人流程自动化（
Robotic Process Automation
，
RPA
）是一项自动化技术，它通过模拟人的动作，在计算机中代替人进行点击
、
输入等一系列操作，能够大大提升工作效率，将人力从繁琐的规则性强且重复性强的任务中解放出来
。
[0003]现有的
RPA
系统一般需要通过拖拉拽组件的形式构建自动化流程，要求业务人员对
RPA
客户端深入学习后才能将各个操作步骤对应到合适的组件去搭建流程，且需要具备一定的编程思维，有一定学习和使用门槛
。
[0004]目前对于
RPA
的流程搭建，主要涉及到以下技术：
1.RPA(
机器人流程自动化
)
技术：
RPA
技术通过模拟人的动作，在计算机中代替人进行点击
、
输入等一系列操作，能够大大提升工作效率，将人力从繁琐的规则性强且重复性强的任务中解放出来
。
常见的
RPA
流程构建形式为拖拉拽的形式进行动作录入，用户将操作过程中的每一步点击
、
输入等动作对应到
RPA/>中的组件，最终形成整套
RPA
流程
。
[0005]2.
页面元素识别技术：页面元素识别是
RPA
技术的重要组成部分，
RPA
技术的核心是操作页面元素，因此识别页面元素是基本要求
。
其包括但不限于元素识别
、OCR
文字识别
、
图标元素分类等技术，目的在于获取页面上的各元素位置
、
文本内容
、
图标含义，以供
RPA
流程执行使用
。
[0006]3.
大模型技术：大模型是指一系列深度学习中非常庞大的神经网络模型，因其通常具有数亿甚至数百亿千亿个参数，故而被统称为大模型
。
以
ChatGPT
为代表的大语言模型集成了自然语言处理
(NLP)
任务的各项能力，如问答
、
总结
、
推理等
。
其强大的推理能力也为图像理解提供了支撑，使得将大语言模型结合图像编码器融入图像特征训练的“视觉
‑
语言多模态大模型”具备图像描述
、
目标定位的能力，如
GLIP、Kosmos
‑
2、Qwen
‑
VL
等
。
[0007]然而，上述现有的相关技术却具有如下局限性：
1.
现有的
RPA
系统仍然具备一定的使用门槛和繁琐的交互动作，且抗干扰性差：虽然
IPA
的组件推荐模式已经大大降低了
RPA
的使用门槛，使得用户无需学习上百个流程组件就能搭建自动化流程，但是还是需要较为熟悉操作流程
。
如想要在一个
OA
系统执行简单的请假动作，不同的
OA
系统操作步骤不一致，用户在流程搭建之前需要先去熟悉业务流程；且在流程搭建时还是要人工进行一系列的点击和输入动作，整个过程依然较为繁琐
。
此外，目前的
RPA
系统的抗干扰能力较差，所搭建的固定的流程仅能按照固定的步骤运行，一旦出现异常情况，会直接执行失败
。
如一个登录正常的登录流程在输入账号密码点击登录后即可完成登录，但是部分网页在点击登录后会偶尔弹出验证码页面，预设的固定
步骤的流程无法应对该种情况，导致流程运行失败
。
[0008]2.
现有的页面识别技术仅能获取割裂的元素信息：要想通过语言描述实现流程的执行，就需要
RPA
系统能够理解语言内容，并结合页面状态给出反馈
。
具体来说，当需要执行动作“点击登录按钮”时，页面识别模型应能够输出“登录按钮”的坐标
。
而现有的页面识别技术分别使用不同的模型识别不同的内容，如使用检测模型识别图标
、
输入框等，使用
OCR
模型识别文本内容，但是无法将所获取的元素信息联系起来，导致无法充分利用所识别的元素信息
。
如需要在一个登录界面输入账号和密码时，检测模型识别出两个输入框，
OCR
识别出“账号”和“密码”字段，但是却难以直接区分账号和密码的输入框，因此无法通过语言描述直接定位出目标元素
。
[0009]因此，设计一种能够仅需用户通过自然语言详细描述自己的业务需求，即可完成流程拆解
、
页面识别及动作执行的基于页面状态理解和大模型驱动的
RPA
流程执行系统及方法，就显得十分重要
。

技术实现思路

[0010]本专利技术是为了克服现有技术中，目前
RPA
流程搭建，存在使用门槛高
、
便捷性差的问题，提供了一种能够仅需用户通过自然语言详细描述自己的业务需求，即可完成流程拆解
、
页面识别及动作执行的基于页面状态理解和大模型驱动的
RPA
流程执行系统及方法
。
[0011]为了达到上述专利技术目的，本专利技术采用以下技术方案：基于页面状态理解和大模型驱动的
RPA
流程执行系统，包括：业务流程拆解模块，用于将语言描述的业务需求指令，拆解成具体的操作步骤指令；页面状态理解及目标定位模块，用于描述页面内容和定位目标元素；动作执行模块，用于接收来自业务流程拆解模块的操作步骤指令和来自页面理解及目标定位模块的目标元素位置，并通过组件调用执行相应的操作动作
。
[0012]作为优选，所述业务流程拆解模块包含大语言模型；所述大语言模型由通用大语言模型在一个包含“业务指令
‑
流程步骤”数据样本的语料库中训练得到
。
[0013]作为优选，所述通用大语言模型包括
ChatGPT。
[0014]作为优选，所述页面状态理解及目标定位模块包含一个用于理解和识别计算机页面的视觉
‑
语言多模态大模型；所述视觉
‑
语言多模态大模型由基础的多模态大模型在若干个网页及应用软件界面的图像数据样本上训练得到；所述图像数据样本包含页面截图
、
对页面各元素的描述及元素间关系描述
。
[0015]作为优选，所述多模本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
基于页面状态理解和大模型驱动的
RPA
流程执行系统，其特征在于，包括：业务流程拆解模块，用于将语言描述的业务需求指令，拆解成具体的操作步骤指令；页面状态理解及目标定位模块，用于描述页面内容和定位目标元素；动作执行模块，用于接收来自业务流程拆解模块的操作步骤指令和来自页面理解及目标定位模块的目标元素位置，并通过组件调用执行相应的操作动作
。2.
根据权利要求1所述的基于页面状态理解和大模型驱动的
RPA
流程执行系统，其特征在于，所述业务流程拆解模块包含大语言模型；所述大语言模型由通用大语言模型在一个包含“业务指令
‑
流程步骤”数据样本的语料库中训练得到
。3.
根据权利要求2所述的基于页面状态理解和大模型驱动的
RPA
流程执行系统，其特征在于，所述通用大语言模型包括
ChatGPT。4.
根据权利要求1所述的基于页面状态理解和大模型驱动的
RPA
流程执行系统，其特征在于，所述页面状态理解及目标定位模块包含一个用于理解和识别计算机页面的视觉
‑
语言多模态大模型；所述视觉
‑
语言多模态大模型由基础的多模态大模型在若干个网页及应用软件界面的图像数据样本上训练得到；所述图像数据样本包含页面截图
、
对页面各元素的描述及元素间关系描述
。5.
根据权利要求4所述的基于页面状态理解和大模型驱动的
RPA
流程执行系统，其特征在于，所述多模态大模型包括
Kosmos
‑2模型和
Qwen
‑
vl
模型
。6.
根据权利要求2所述的基于页面状态理解和大模型驱动的
RPA
...

【专利技术属性】
技术研发人员：宋志龙，
申请(专利权)人：杭州实在智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人