用多模态大模型智能体对具备人机接口的设备进行泛用性的无侵入自动操作的方法技术

技术编号:46439864 阅读:2 留言:0更新日期:2025-09-19 20:42
本发明专利技术提供了一种用多模态大模型智能体对具备人机接口的设备进行泛用性的无侵入自动操作的方法,包括:步骤1,信号捕获:边缘设备获取目标设备的输出信号;步骤2,数据上传:边缘计算设备读取其视频流或者将步骤1采集的原始信号转换为可解析的数字信号,然后分割为独立屏幕截图并进行预处理,随后将处理后的截图及识别结果上传至服务器;步骤3,指令生成下发:服务器分析数据后生成后续操作指令,回传至边缘计算设备;步骤4:边缘计算设备将操作指令转化为具体HID信号,发送至目标设备,完成自动化操作闭环。本发明专利技术的有益效果是:本发明专利技术方法能通过与人类操作员完全相同的方式对目标设备进行自动控制,能应用于任何人类可操作的电子设备。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种用多模态大模型智能体对具备人机接口的设备进行泛用性的无侵入自动操作的方法


技术介绍

1、随着信息技术的迅猛发展,多数业务流程已实现从纸质文档作业向基于个人计算机、信息平台及互联网的电子化操作模式转型。此类业务以复杂且高度重复的操作为核心特征,典型范例包括:基于excel工具实施数据分类整理与运算处理后的数据库录入操作;大规模文件重命名及文件夹结构调整工程;以及软件应用程序功能测试的循环执行等。由于作业流程中涉及部分主观判断环节,实现完全自动化存在显著技术障碍,目前仍主要依赖人工操作完成。然而值得注意的是,尽管这类业务对专业技术要求相对有限,但其消耗的人力资源规模却呈现出异常庞大的特征,这在企业经营维度构成了显著的效率悖论。

2、特别需要指出的是,大中型企业所采用的定制化系统与专用平台因架构复杂性,往往要求新入职员工接受长达1—2个月的岗前培训方能胜任基础工作。当发生岗位交接时,同样会产生等量级的培训成本支出。这种系统性复杂度与人力资源投入之间的正相关关系,使得开发能够替代复杂业务流程的自动化技术解决方案,成本文档来自技高网...

【技术保护点】

1.一种用多模态大模型智能体对具备人机接口的设备进行泛用性的无侵入自动操作的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,在所述步骤1中,所述边缘计算设备获取/识别目标设备输出信号的方式包括:

3.根据权利要求1所述的方法,其特征在于,在所述步骤2中,通过将屏幕截图中的界面元素像素坐标映射至实际物理坐标实现操作定位,具体为:边缘计算设备向服务器传输截图时,需同步发送经过分辨率适配处理后的缩放比例系数,服务器基于接收的缩放后图像分析得出操作坐标后,利用该比例系数逆向计算出目标设备实际屏幕坐标系下的精确位置,从而规避不同设备分辨率差异导致...

【技术特征摘要】

1.一种用多模态大模型智能体对具备人机接口的设备进行泛用性的无侵入自动操作的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,在所述步骤1中,所述边缘计算设备获取/识别目标设备输出信号的方式包括:

3.根据权利要求1所述的方法,其特征在于,在所述步骤2中,通过将屏幕截图中的界面元素像素坐标映射至实际物理坐标实现操作定位,具体为:边缘计算设备向服务器传输截图时,需同步发送经过分辨率适配处理后的缩放比例系数,服务器基于接收的缩放后图像分析得出操作坐标后,利用该比例系数逆向计算出目标设备实际屏幕坐标系下的精确位置,从而规避不同设备分辨率差异导致的定位偏差。

4.根据权利要求2所述的方法,其特征在于,该方法在边缘计算设备端需预先定义包含所有人机交互接口操作的基础动作指令集,通过将底层操作原子化,使得服务器能便捷调用组合指令。

5.根据权利要求4所述的方法,其特征在于,所述人机交互接口包括计算机类hid和物理控制面板,针对计算机类...

【专利技术属性】
技术研发人员:谭振祺
申请(专利权)人:北协福建数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1