经由机器学习语言模型的链的透明且可控的人智交互制造技术

技术编号:36870155 阅读:14 留言:0更新日期:2023-03-15 19:45
本公开涉及经由机器学习语言模型的链接的透明且可控的人智交互。本公开提供经由机器学习语言模型的链的透明且可控的人智交互。特别地,尽管现有语言模型(例如,所谓的“大型语言模型”(LLM))在简单任务上展示令人印象深刻的潜力,但是当辅助人类进行更复杂的任务时,它们的范围广度、缺乏透明度和不充足的可控性能够使它们不太有效。作为响应,本公开引入了将机器学习语言模型(例如,LLM)的实例化链接在一起的概念,其中一个实例化的输出变成下一实例化的输入,依此类推,从而每步聚合增益。从而每步聚合增益。从而每步聚合增益。

【技术实现步骤摘要】
经由机器学习语言模型的链的透明且可控的人智交互
[0001]相关申请
[0002]本申请基于并且要求具有申请2021年10月1日的美国临时专利申请 No.63/251,264和具有申请日2022年3月2日的美国临时专利申请No. 63/315,648中的每一个的权益,它们中的每一个以其全文通过引用并入本文。


[0003]本公开总体涉及经由机器学习的语言建模。更具体地,本公开涉及经由机器学习语言模型的链的透明且可控的人智交互,在一些实例中,包括用于定期地构建和/或编辑包括一个或多个机器学习语言模型的实例化序列的模型链的图形用户界面。

技术介绍

[0004]语言模型包括对语言进行建模的模型(例如,机器学习模型)。例如,语言模型能够接收和处理输入数据以生成输出数据,其中输入数据和/或输出数据以诸如例如自然语言(例如,英语、法语、普通话等)或编程语言 (例如,C+、Java、Python等)等语言来表达。
[0005]最近,(例如,在参数数量、训练数据容量、架构复杂度等方面)明显很大的机器学习语言模型已经提供了高质量的语言建模。这些明显很大的模型在本领域中被称为大型语言模型(LLM)。
[0006]LLM已经为人智协作引入了新可能性。对(例如,来自互联网的) 大量(例如,数十亿)输入进行预训练,像GPT

3的LLM现在能够执行各种各样的任务,范围从翻译到问答,甚至是高级的故事书写。它们的成功来自于它们纯粹使用提示(例如,其可以是任务的自然语言描述)来适应各种期望任务的能力。例如,可以简单地通过用关键字“English:Hello! French:”指示源语言和目标语言来将LLM适配为充当翻译引擎。基于该提示,模型可能输出正确的法语翻译:“Bonjour!”。
[0007]基于自然语言的提示编程的相对容易性暗示了LLM和其它语言模型可以是用于现实任务的有用辅助,其中用户根据他们自己的需要定制模型。鉴于此,自然语言处理(NLP)的最近工作已经开始检查LLM主要在综合任务上的算法能力。
[0008]然而,许多现实任务能够相当复杂(例如,调试软件代码,概述长的论文),并且可能提出对从单个模型运行中解决的当前语言模型(例如,当前LLM)的挑战。例如,由于其查找、细化和连接多个功能块的能力有限,当解决需要多步推理的任务时,LLM产生较低质量的输出。同样,它们可能无法捕获同时平衡多个目标的许多任务的微妙之处。
[0009]除了固有地受限于复杂问题之外,LLM还难以与其交互,因为它们可能是不透明的并且难以调试或解释。由于LLM能够接受任何自然语言提示,终端用户可能难以破译如何改变他们的提示以补救意外的模型输出。它们也可能难以理解LLM的能力和限制。通常不清楚如何能够改变提示来直接改进复杂的多任务问题上的LLM性能。
[0010]因此,在本领域中需要改进语言模型的可解释性、可控性和性能的系统和方法。

技术实现思路

[0011]本公开的一个示例方面涉及一种链接一个或多个机器学习语言模型以提供改进的可解释性的计算系统。计算系统包括一个或多个处理器和一个或多个非暂时性计算机可读介质,这些非暂时性计算机可读介质共同存储当由一个或多个处理器执行时使得计算系统执行操作的指令。这些操作包括接收初始语言输入。这些操作包括利用模型链处理初始语言输入以生成语言输出。模型链包括包括一个或多个机器学习语言模型的多个模型实例化。每个模型实例化被配置为接收和处理模型输入以生成模型输出,其中,模型输入的至少一部分包括描述由模型实例化在模型输入上执行以生成模型输出的任务的模型提示。模型链中的多个模型实例化被顺序地排列,使得除了模型链中的初始模型实例化之外,模型链中的每个模型实例化的相应模型输入包括来自模型链中的顺序上先前的模型实例化的相应模型输出。这些操作包括提供语言输出作为输出。
[0012]在一些实施方式中,操作还包括:提供可视化模型链并且使得用户能够模块化地构建模型链的用户界面。
[0013]在一些实施方式中,操作还包括:提供使得用户能够编辑对模型链中的每个模型实例化的相应提示的用户界面。
[0014]在一些实施方式中,对模型链中的每个模型实例化的相应提示从与原语子任务相对应的多个预定义模板提示中是用户可选择的。
[0015]在一些实施方式中,操作还包括:提供可视化并且使得能够编辑模型链中的模型实例化中的至少一个的相应模型输出的用户界面;经由用户界面接收修改模型链中的模型实例化中的所述至少一个的相应模型输出的用户输入;以及在将相应模型输出输入到模型链中的顺序上后续模型实例化中之前,根据用户输入来修改相应模型输出。
[0016]在一些实施方式中,用户输入:改变模型链中的模型实例化中的所述至少一个的相应模型输出的内容;从模型链中的模型实例化中的所述至少一个的相应模型输出中删除内容;或者将内容添加到模型链中的模型实例化中的所述至少一个的相应模型输出。
[0017]在一些实施方式中,所述一个或多个机器学习语言模型包括单个机器学习语言模型;并且所述多个模型实例化包括单个机器学习语言模型的多个模型实例化。
[0018]在一些实施方式中,所述一个或多个机器学习语言模型包括两个或更多个不同的机器学习语言模型;并且所述多个模型实例化包括所述两个或更多个不同的机器学习语言模型的多个模型实例化。
[0019]在一些实施方式中,模型链被配置成对初始语言输入执行元任务以生成语言输出;并且模型链中的一个或多个机器学习语言模型的多个模型实例化中的每一个被配置为执行元任务的多个不同组件子任务中的相应一个。元任务能够包括复杂任务,该复杂任务具有多个组件子任务或通过执行多个组件子任务来生效。
[0020]在一些实施方式中,模型链中的多个模型实例化中的至少一个的相应模型输入包括:来自模型链中的顺序上先前的模型实例化的模型输出;以及来自模型链中的每一个均在模型链中的所述顺序上先前的模型实例化之前的一个或多个模型实例化的模型输出。
[0021]在一些实施方式中,语言输出包括自然语言输出。
[0022]在一些实施方式中,语言输出包括编程语言输出。
[0023]在一些实施方式中,机器学习语言模型中的至少一个与计算系统分开存储并且经
由应用编程接口访问。
[0024]另一示例方面涉及实现语言模型链的模块化构建、控制和可解释性的计算机实现方法。该方法包括接收初始语言输入。该方法包括提供可视化并且使得用户能够编辑被配置为处理初始语言输入以生成语言输出的模型链的用户界面,其中,模型链包括顺序地排列的一个或多个机器学习语言模型的多个模型实例化,使得除了模型链中的初始模型实例化之外,模型链中的每个模型实例化的相应模型输入包括来自模型链中的顺序上先前的模型实例化的相应模型输出。该方法包括利用模型链处理初始语言输入以生成语言输出。该方法包括提供指示模型链中的多个模型实例化中的一个或多个的相应模型输出的数据以用于在用户界面内显示。
[0025]在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种链接一个或多个机器学习语言模型以提供改进的可解释性的计算系统,所述计算系统包括:一个或多个处理器;以及共同存储指令的一个或多个非暂时性计算机可读介质,所述指令在由所述一个或多个处理器执行时使所述计算系统执行操作,所述操作包括:接收初始语言输入;利用模型链处理所述初始语言输入以生成语言输出,其中,所述模型链包括一个或多个机器学习语言模型的多个模型实例化,其中,每个模型实例化被配置为接收和处理模型输入以生成模型输出,其中,所述模型输入的至少一部分包括描述由所述模型实例化在所述模型输入上执行以生成所述模型输出的任务的模型提示,以及其中,所述模型链中的所述多个模型实例化被顺序地排列,使得除了所述模型链中的初始模型实例化之外,所述模型链中的每个模型实例化的相应模型输入包括来自所述模型链中的顺序上先前的模型实例化的相应模型输出;以及提供所述语言输出作为输出。2.根据权利要求1所述的计算系统,其中,所述操作还包括:提供用户界面,所述用户界面被配置为提供所述模型链的可视化并且接收用于所述模型链的模块化构造的用户输入。3.根据权利要求1所述的计算系统,其中,所述操作还包括:提供用户界面,所述用户界面被配置为接收用于编辑对所述模型链中的每个模型实例化的相应模型提示的用户输入。4.根据权利要求1所述的计算系统,其中,对所述模型链中的每个模型实例化的相应模型提示是用户能从与原语子任务相对应的多个预定义模板提示中选择的。5.根据权利要求1所述的计算系统,其中,所述操作还包括:提供用户界面,所述用户界面可视化并且能够编辑所述模型链中的所述多个模型实例化中的至少一个的相应模型输出;经由所述用户界面接收修改所述模型链中的所述多个模型实例化中的所述至少一个的所述相应模型输出的用户输入;以及在将所述相应模型输出输入到所述模型链中的顺序上后续模型实例化中之前,根据所述用户输入来修改所述相应模型输出。6.根据权利要求5所述的计算系统,其中,响应于接收到的用户输入,所述操作还包括:改变所述模型链中的所述多个模型实例化中的所述至少一个的所述相应模型输出的内容;从所述模型链中的所述多个模型实例化中的所述至少一个的所述相应模型输出中删除内容;或者将内容添加到所述模型链中的所述多个模型实例化中的所述至少一个的所述相应模型输出。7.根据权利要求1所述的计算系统,其中:所述一个或多个机器学习语言模型包括单个机器学习语言模型;以及
所述多个模型实例化包括所述单个机器学习语言模型的多个模型实例化。8.根据权利要求1所述的计算系统,其中:所述一个或多个机器学习语言模型包括两个或更多个不同的机器学习语言模型;以及所述多个模型实例化包括所述两个或更多个不同的机器学习语言模型的多个模型实例化。9.根据权利要求1所述的计算系统,其中:所述模型链被配置为对所述初始语言输入执行元任务以生成所述语言输出;以及所述模型链中的所述一个或多个机器学习语言模型的所述多个模型实例化中的每一个被配置为执行所述元任务的多个不同组件子任务中的相应一个。...

【专利技术属性】
技术研发人员:卡里
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1