当前位置: 首页 > 专利查询>清华大学专利>正文

计算机操作辅助方法、系统、电子设备及存储介质技术方案

技术编号:33772501 阅读:12 留言:0更新日期:2022-06-12 14:25
本申请公开了一种计算机操作辅助方法、系统、电子设备及存储介质,该方法包括:采集计算机的当前屏幕显示信息,对当前屏幕显示信息进行处理,得到多个关键帧图像;将多个关键帧图像输入预先构建的操作辅助模型进行识别,得到当前屏幕显示信息对应的目标辅助动作;控制计算机执行目标辅助动作,以辅助计算机操作。本申请的实施例可以根据用户的习惯,自动的学习,模仿用户的习惯做出决策,并且可以在无人工干预的情况下自动化的操作。由此,解决了目前计算机操作辅助应用范围小、功能死板、操作复杂等问题。复杂等问题。复杂等问题。

【技术实现步骤摘要】
计算机操作辅助方法、系统、电子设备及存储介质


[0001]本申请涉及人工智能
,特别涉及一种计算机操作辅助方法、系统、电子设备及存储介质。

技术介绍

[0002]随着科技的进步,越来越多的技术已经被人们认可,并被用于各行各业中,其中对于一些重复的、枯燥的、消耗大量人工劳动的任务也逐渐被一些自动化软件代替。例如,某一任务要求每天打卡签到,具体为:早上8点需要打开办公软件,找到打卡的功能,进入打卡的界面,然后点击打卡按钮完成打卡,最后退出该办公软件,在下午17点时需要再次打开办公软件,完成和早上一样的操作。这显然是一个重复且枯燥的任务,一些自动化操作助手,也可以完成该任务,例如,按键精灵,它可以模拟鼠标和键盘的动作,通过制作脚本完成一些信息发布、报表提交、邮件整理等任务,但是这些操作是死板的、不灵活的,并且需要人工提前编写程序,也就是需要制作这些任务的脚本来完成该任务,这也是目前已有的自动化操作助手的弊端。如果可以设计一款在使用时无需人工编写程序、全自动化的操作助手,那可以节省更多的人力物力,带来更大的社会收益。
[0003]在现有的自动化操作助手中,由于执行的操作都是基于模型的,也就是将需要处理的任务提前通过编写程序制作为脚本,但由于这些模型是提前写好的、不可变的,不能灵活的使用,对于实际应用中必须做到和模型一模一样才能匹配成功,这限制了该模型的使用场景,只能等待用户需要执行任务时,才会触发该脚本,这对于使用者及其不便,对于使用者要有更高的要求,需要自学一套符合该操作助手的编程范式,并且该操作助手对于数据的要求比较严格,对于处理的任务比较死板,它最大的缺点就是缺乏自主学习的能力。举例来说,如果设定一个任务是点击某个按钮,如果使用目前已有的自动化操作助手,它需要提前设定好按钮的形状、大小、颜色、相对位置等信息并存于模型设置之中,在实际应用中,当检测到与模型完全相匹配的设置之后才会触发这个脚本,接着去执行点击按钮的操作,如果在实际应用中按钮的相对位置、大小或颜色发生了变化,则无法与模型匹配,哪怕只有几个像素值的差别,那将无法执行对应操作。因此,这限制了该操作助手的应用范围和功能。如何找到一个万能的模型,也就是说,让该操作助手自动的学习出一个万能的模型,可以检测出任何形状、颜色、大小的按钮,这可以消除目前已有方法的死板,同时带来更大的灵活性和可靠性。
[0004]但是,目前相关技术中将人工智能与自动化操作助手结合的研究并不是很多,如果在自动化操作助手的设计中加入人工智能的优势,也就是说让人工智能自动的学习一些日常的操作,学习一些重复、耗时的任务,这将带来双重收益的同时,让人工智能的技术更好的服务用户。

技术实现思路

[0005]本申请提供一种计算机操作辅助方法、系统、电子设备及存储介质,以解决目前计
算机的自动化操作应用范围小、功能死板、操作复杂等问题。
[0006]本申请第一方面实施例提供一种计算机操作辅助方法,包括以下步骤:采集计算机的当前屏幕显示信息,对所述当前屏幕显示信息进行处理,得到多个关键帧图像;将所述多个关键帧图像输入预先构建的操作辅助模型进行识别,得到所述当前屏幕显示信息对应的目标辅助动作;控制所述计算机执行所述目标辅助动作,以辅助计算机操作。
[0007]可选地,在本申请的一个实施例中,所述对所述当前屏幕显示信息进行处理,得到多个关键帧图像,包括:由所述当前屏幕显示信息获取所述计算机的视频数据,以将所述视频数据作为所述当前屏幕显示信息,通过数据转换得到当前屏幕的多张图像数据,或采集当前屏幕的多张图像数据;根据预设提取规则从所述多张图像数据中提取所述多个关键帧图像。
[0008]可选地,在本申请的一个实施例中,所述将所述多个关键帧图像输入预先构建的操作辅助模型进行识别,得到所述当前屏幕显示信息对应的目标辅助动作,包括:将所述多个关键帧图像输入所述预先构建的操作辅助模型进行识别,对多个识别结果进行取平均或加权后得到所述多个关键帧图像对应的目标辅助动作。
[0009]可选地,在本申请的一个实施例中,所述采集计算机的当前屏幕显示信息之前,还包括:采集计算机的输出信息以及对应的用户的输入信息组成输入

输出数据组;对所述输入

输出数据组进行数据标注,利用标注后的输入

输出数据组进行模型训练,得到所述操作辅助模型。
[0010]可选地,在本申请的一个实施例中,所述输入

输出数据组包括计算机的屏幕显示信息和用户鼠标或键盘输入信息。
[0011]本申请第二方面实施例提供一种计算机操作辅助系统,包括:处理模块,用于采集计算机的当前屏幕显示信息,对所述当前屏幕显示信息进行处理,得到多个关键帧图像;识别模块,用于将所述多个关键帧图像输入预先构建的操作辅助模型进行识别,得到所述当前屏幕显示信息对应的目标辅助动作;控制模块,用于控制所述计算机执行所述目标辅助动作,以辅助计算机操作。
[0012]可选地,在本申请的一个实施例中,所述处理模块,包括:转换单元,用于由所述当前屏幕显示信息获取所述计算机的视频数据,以将所述视频数据作为所述当前屏幕显示信息,通过数据转换得到当前屏幕的多张图像数据,或采集当前屏幕的多张图像数据;提取单元,用于根据预设提取规则从所述多张图像数据中提取所述多个关键帧图像。
[0013]可选地,在本申请的一个实施例中,所述识别模块,具体用于,将所述多个关键帧图像输入所述预先构建的操作辅助模型进行识别,对多个识别结果进行取平均或加权后得到所述多个关键帧图像对应的目标辅助动作。
[0014]可选地,在本申请的一个实施例中,所述处理模块之前,还包括:采集模块,用于采集计算机的输出信息以及对应的用户的输入信息组成输入

输出数据组;建模模块,用于对所述输入

输出数据组进行数据标注,利用标注后的输入

输出数据组进行模型训练,得到所述操作辅助模型。
[0015]可选地,在本申请的一个实施例中,所述输入

输出数据组包括计算机的屏幕显示信息和用户鼠标或键盘输入信息。
[0016]本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存
储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以执行如上述实施例所述的计算机操作辅助方法。
[0017]本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以执行如上述实施例所述的计算机操作辅助方法。
[0018]由此,本申请至少具有如下有益效果:
[0019]本申请通过结合人工智能技术,自动的学习出一个可以拟合用户习惯的模型,在没有人工干预的情况下,完成自动化的操作,本申请应用范围较广,可以用于各种场景,包括不限于自动化办公、自动回复邮件、自动整理文件等。并且操作方便,使用人群广,可以被任何人员使用,可以节省软件开发的周期,进而可以节省大量的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机操作辅助方法,其特征在于,包括以下步骤:采集计算机的当前屏幕显示信息,对所述当前屏幕显示信息进行处理,得到多个关键帧图像;将所述多个关键帧图像输入预先构建的操作辅助模型进行识别,得到所述当前屏幕显示信息对应的目标辅助动作;控制所述计算机执行所述目标辅助动作,以辅助计算机操作。2.根据权利要求1所述的方法,其特征在于,所述对所述当前屏幕显示信息进行处理,得到多个关键帧图像,包括:由所述当前屏幕显示信息获取所述计算机的视频数据,以将所述视频数据作为所述当前屏幕显示信息,通过数据转换得到当前屏幕的多张图像数据,或采集当前屏幕的多张图像数据;根据预设提取规则从所述多张图像数据中提取所述多个关键帧图像。3.根据权利要求1或2所述的方法,其特征在于,所述将所述多个关键帧图像输入预先构建的操作辅助模型进行识别,得到所述当前屏幕显示信息对应的目标辅助动作,包括:将所述多个关键帧图像输入所述预先构建的操作辅助模型进行识别,对多个识别结果进行取平均或加权后得到所述多个关键帧图像对应的目标辅助动作。4.根据权利要求1所述的方法,其特征在于,所述采集计算机的当前屏幕显示信息之前,还包括:采集计算机的输出信息以及对应的用户的输入信息组成输入

输出数据组;对所述输入

输出数据组进行数据标注,利用标注后的输入

输出数据组进行模型训练,得到所述操作辅助模型。5.根据权利要求1所述的方法,其特征在于,所述输入

输出数据组包括计算机的屏幕显示信息和用户鼠标或键盘输入信息。6.一种计算机操作辅助系统,其特征在于,包括:处理模块,用于采集计算机的当前屏幕显示信息,对所述当前屏幕显示信息进行处理,得到多个关键帧图像;识别模块,用于将所述多个关键帧图像输...

【专利技术属性】
技术研发人员:张清天郝晓龙吴华强
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1