一种应用人工智能的方法与装置制造方法及图纸

技术编号:38875023 阅读:13 留言:0更新日期:2023-09-22 14:09
大模型的主要目的是通过使用一个统一的模型来处理不同的任务,因此在应用领域中,开发更加通用的方法,以利用大模型的特点和能力,将成为非常有价值的工作。人类在电子设备中获取信息,最重要的方式就是通过显示设备。因为多模态大模型价格昂贵,处理速度较慢,成熟速度不及文字型人工智能大模型,因此发明专利技术基于文字型大模型的方法与装置实现上述目标非常具有现实意义。本发明专利技术的目的在于,提供一种以显示信息为主要输入信息,来提供更加通用的人工智能应用的方法与装置。人工智能应用的方法与装置。人工智能应用的方法与装置。

【技术实现步骤摘要】
一种应用人工智能的方法与装置


[0001]本专利技术属于大模型人工智能领域,特别是涉及一种应用人工智能的方法与装置。

技术介绍

[0002]大模型人工智能已成为社会生产力革命中的重要突破,例如OpenAI推出的GPT4.0大模型。这些强大的模型将在未来不断发展和增强,如何快速应用这些模型的能力,进一步提升社会生产力,已经成为不同领域研究的重要方向。大模型的主要目的是通过使用一个统一的模型来处理不同的任务,因此在应用领域中,开发更加通用的方法,以利用大模型的特点和能力,将成为非常有价值的工作。
[0003]人类在电子设备中获取信息,最重要的方式就是通过显示设备。这些显示设备,使各种系统越来越适应人类的习惯。如果人工智能可以从显示设备中获取同人类一样的海量信息,将极大丰富人工智能的应用领域,并且能够更加减轻人类的工作。
[0004]已有工作中,可以将显示的信息,直接发送给多模态大模型,使其进行对屏幕信息的识别与处理,返回可用信息甚至直接操控设备,但因为多模态大模型价格昂贵,处理速度较慢,成熟速度不及文字型人工智能大模型,因此专利技术基于文字型大模型的方法与装置实现上述目标非常具有现实意义。

技术实现思路

[0005]鉴于上述描述,本专利技术的目的在于,提供一种以显示信息为主要输入信息,来提供更加通用的人工智能应用的方法与装置。
[0006]为实现上述功能,本专利技术使用文字型人工智能大模型作为主要的信息处理中枢,该模型需要可以输入文字信息。
[0007]现有面向于人类使用的设备中,为人类设计的具有可阅读性的显示信息,通常为显示器显示的信息。
[0008]针对显示信息,对其内容信息进行文字映射。映射的规则为,如果为纯文本信息,则直接映射成文字,如果是可操作模块,则映射成模块描述。例如,显示的“确定”按钮,则需要直接映射为“确定按钮”,而不能单纯映射为“确定”。可以根据需要对映射规则进行修改。
[0009]对于人工智能大模型的输入信息为:显示信息映射后的文字信息,另外还需要指定大模型对于上述信息输入后,所需要的执行的任务,以及输出信息的格式、输出信息的位置。
[0010]人工智能大模型的输出信息为:执行完所需任务后,按指定格式指定位置输出任务结果。输出的数据结果将传输应用程序指定的位置,包括但不限于云空间、服务器、客户端,用于后续进一步加工处理与显示。
[0011]具体实现方法的步骤为:S1提取显示设备中的信息,信息通常提取于显示设备的帧缓存(frame buffer)或
应用程序被操作系统所绘制后的窗口(surface);S2将信息按照指定的采样频率,生成文字映射;S3将文字映射发送给大模型,同时指定任务需求、数据格式和输出位置;S4根据指定的输出位置,大模型返回信息,等待应用程序或系统进一步处理。
[0012]需要说明的是,返回的信息,可能存储在云端或者远端服务器上,等待应用程序拉取,也可以将返回信息直接向应用程序或系统推送,此为默认位置。
[0013]为了进一步实现本方法人工智能系统的可用性,可以将步骤S2中文字映射,加入其在显示信息中的位置信息,即显示内容被映射为一对信息,文字+位置,其可以根据大模型返回的信息,对系统进行类似人类的操作,部分或全部替代人类。
[0014]具体实现方法的步骤为:S5在步骤S2中生成的文字映射,加入文字所在显示信息的位置信息;S6将大模型返回的控制相关文本序列,与位置信息一起,通过一个控制指令翻译器,转化为控制指令,对系统进行类似人类的操作。
[0015]例如,大模型返回的文字序列是“点击确定按钮”,则控制指令翻译器将该文字序列,以及对应“确定按钮”的位置信息,转化为对系统点击操作的调用。操作类型包括但不限于,点击,长按,滑动。控制指令翻译器,可以模仿人类的方式直接进行系统输入。当然也可以将位置映射信息直接输入大模型,大模型直接返回包含位置信息,例如“点击确定按钮(200,200)”,控制指令翻译器直接提取坐标位置进行点击。这两种对位置的使用方法,是等效的。
[0016]人类会有一些操作会有指引作用,会改变大模型的注意力,因此也可以将这些信息发送给大模型进行一并处理。
[0017]S7将人类的某些操作记录,生成文字映射,发给大模型。
[0018]例如,用户点击了“刷新”按钮,但刷新前后页面没有任何变化。将用户点击刷新按钮这个操作,发送给大模型,则大模型会知道再刷新那一刻,页面信息没有变化,并对这个信息进行进一步决策。如果不发送操作信息,则大模型需要自行刷新页面以确认页面信息变化。
[0019]本专利技术所涉及的应用多模态人工智能的装置,包括以下模块:D1显示信息采集模块,负责以一定频率采集显示图像,可以指定图像采集的区域;D2显示信息文字映射模块,负责将显示信息,进行文字+位置映射;D3应用存储模块,存储有,需要实现的任务的描述信息,任务返回信息的格式要求,信息返回位置要求;D4大模型输入模块,即大模型的输入接口,将设备D2与D3的信息,合并后输入大模型;D5大模型输出模块,将大模型输出的信息,根据设备D3中信息返回位置要求,放入指定位置;D6应用程序处理模块,将设备D5中的信息取回,并整理显示。
[0020]可选模块还将包括:D7控制指令翻译器,将设备D5返回的控制相关文本,与位置信息一起,转化为系统控制指令,包括但不限于点击,长按,滑动,文本输入。
[0021]如上所述,本专利技术所述的方法与装置,具有以下有益效果:能够更贴近地模拟人类的行为,从而更加接近于个人助理的能力;只使用文字型人工智能大模型即可。
附图说明
[0022]图1显示为方法基本逻辑图。
[0023]图2显示为示例信息显示内容。
实施方式
[0024]举例:自动回复节日消息。说明本专利技术的广阔应用前景。
[0025]用户A向用户B发送了一条节日祝福(如图2)。
[0026]在信息显示界面(步骤S1),将显示信息提取出来(步骤S2),提取出来的信息为:+100011

21 14:31市委、市政府祝您春节快乐!北京市全域禁止燃放烟花爆竹,请您自觉遵守页面中有一个“添加按钮”(121,865),有一个“文本输入框”(271,865),有一个“发送按钮”(961,865)(位置信息为步骤S5)。
[0027]现在要求大模型进行如下操作:这是一个短信界面上显示的内容,请帮我草拟一条回复信息(步骤S3)。并且告诉我,在页面上点击哪里可以输入文字,然后告诉我点击哪里可以发送文字。
[0028]上述要求使用了默认输出位置,即返回到客户端;上述要求的输出格式为,先返回回复信息的内容,后返回操作。
[0029]大模型的返回信息为:感谢市委、市政府的祝福。我们将自觉遵守全域禁放烟花爆竹的规定,共同维护城市的安宁和环境的清洁。祝您们春节愉快!(步骤S4)点击文本输入框,输入文字,点击发送按钮。
[0030]指令翻译器根据文本“本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用人工智能的方法,其特征在于,针对显示信息,对其内容信息进行文字映射。对于人工智能大模型的输入信息为:显示信息映射后的文字信息,另外还需要指定大模型对于上述信息输入后,所需要的执行的任务,以及输出信息的格式、输出信息的位置。人工智能大模型的输出信息为:执行完所需任务后,按指定格式指定位置输出任务结果。输出的数据结果将传输应用程序指定的位置,包括但不限于云空间、服务器、客户端,用于后续进一步加工处理与显示。具体实现方法的步骤为:S1提取显示设备中的信息,信息通常提取于显示设备的帧缓存或应用程序被操作系统所绘制后的窗口;S2将信息按照指定的采样频率,生成文字映射;S3将文字映射发送给大模型,同时指定任务需求、数据格式和输出位置;S4根据指定的输出位置,大模型返回信息,等待应用程序或系统进一步处理。2.根据权利要求1所述的一种应用人工智能的方法,其特征在于,可以根据位置信息进行类似人类的操作,具体实施步骤为:S5在步骤S2中生成的文字映射,加入文字所在显示信息的位置信息;S6将大模型返回的控制相关文本...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:北京鹅厂科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1