一种基于强化学习的自动选择构建提示方法及系统技术方案

技术编号：41229660 阅读：3 留言：0更新日期：2024-05-09 23:46

一种基于强化学习的自动选择构建提示方法及系统，涉及预训练语言模型、自然语言理解和人机智能对话技术领域。本发明专利技术为实现自动选择anchor tokens，为各种训练样本上训练不同prompt而提出。本发明专利技术通过强化学习即根据输入tokens和mask tokens的特征做出决策，同时学习策略以最大化模型性能作为奖励来自动确定哪些tokens可以保留为anchor tokens，哪些需要替换为可学习tokens的方式，从而为每一个任务构建不同的prompt。本发明专利技术提出自动选择anchor tokens方法来代替p‑tuning中的人工选择anchor tokens的方式，基于强化学习的方法来实现自动选择的anchor tokens。与p‑tuning相比本发明专利技术性能优越。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于文本数据处理、字符处理，具体涉及基于强化学习的自动选择构建提示方法及系统。

技术介绍

1、最近的研究工作表明，基于提示学习的范式可以缩小下游任务与预训练任务之间的差距[1]，在基于提示学习的范式中，提示微调是指根据当前下游任务设计的一段内容，然后与原始输入结合，将当前任务转换为掩码mlm(掩码语言模型)任务和生成任务。一般来说，提示就是指上面提到的为下游任务所设计的那一段内容。正确的提示对模型执行的准确性和任务都有很大影响。设计最合适的提示，进一步利用预训练语言模型的能力，让语言模型解决下游任务的问题，是一项具有挑战性的任务[2][3][4]。

2、硬提示(又称离散提示)和软提示(又称连续提示)是两种类型的提示。硬提示[3][4]由可解释和可重复使用的手工制作的单词和token组成,而软提示[5][6]由底层lm的嵌入空间中的连续token组成。硬性提示是可移植性、灵活性和简单性。然而，为特定任务找到合适的硬提示可能具有挑战性。相比之下，软提示是自动构建的，无需任何手动干预。软提示的可学习参数可以根据下游任务的训练数据来学习，并通过基于梯度的算法进行优化。软硬提示范式不使用可学习的提示模板或手动提示，而是选择一些可学习的token嵌入到硬提示模板中[2][7][8][9]。与软提示相比，软硬提示减少了参数数量[1][10]和避免了手工设计的prompt。

3、p-tuning[8]是典型的软硬提示范例之一。在p-tuning中，可学习tokens可以调整以适应当前的下游任务，而保留的离散to

4、文献号为cn113297364a的现有技术公开了一种面向对话系统中的自然语言理解方法及装置(zl202110632046.5)，其能够实现提升智能对话系统中的意图分类和槽位识别的准确率，该现有技术通过引入预训练模型和使用新的预训练任务提升自然语言理解模块的语义表示能力，通过引入领域适应预训练和任务适应预训练提升自然语言理解模块在特定领域上的表现。同时通过对模型进行知识蒸馏，提升模型推理速度，缓解对话系统的迟滞感。

5、文献号为cn112860871a的现有技术公开了一种自然语言理解模型训练方法、自然语言理解方法及装置(zl202110286974.0)，其公开的自然语言理解模型训练方法包括：获取模型训练语料，抽取每种自然语言理解任务的训练语料的特征，根据每种自然语言理解任务的训练语料的特征，分别对预设的多层感知机模型进行模型训练，得到每种自然语言理解任务对应的自然语言理解子模型，根据自然语言理解子模型，获取自然语言理解模型。本申请通过抽取每种自然语言理解任务的训练语料的特征，根据每种自然语言理解任务的训练语料的特征，分别对预设的多层感知机模型进行模型训练，从而减小模型整体规模，大大减少了gpu资源的需求，提升了资源利用率，并且缩短了系统响应时间。

6、可见，现有技术中，关于如何自动选择anchor tokens、如何为各种训练样本上训练不同prompt tokens，并没有人研究。

技术实现思路

1、本专利技术要解决的技术问题为：

2、本专利技术的目的是提供了一种基于强化学习的自动选择构建提示方法及系统，以实现通过强化学习的方式自动选择anchor tokens的方式为各种训练任务构造不同的prompt，使得深度网络提高性能。

3、本专利技术为解决上述技术问题所采用的技术方案为:

4、一种基于强化学习的自动选择构建提示方法，通过自动选择的方式构建提示，所述方法的实现过程为：

5、给定一个数据集从中抽取以及一个预训练的语言模型其中xk表示中的其中一条数据，yk表示xk的标签,xn中的n表示batch size为n。而xk＝{x0,…,xξ}，其中xi(0≤i<ξ)代表xk中的每个单词,ξ表示句子长度。p-tuning首先利用预定义的提示p构造模板t＝{[p0:i],x,[pi+1:m],yk}，其中[p0:i]和[pi+1:m]表示一系列伪tokens。其中的伪tokens，从预训练语言模型中的词表的倒数的m个token作为伪tokens，它们都无法被人类直接理解。而对于预定义的p的构建，其实是由具有实际的意义的人类能够理解的词语组成的t″＝{[a0:i],x,[ai+1:m],yk}而来的。其中[a0:i]和[ai+1:m]表示一系列的anchor tokens，它们都具有实际的意义，将t″中的[a0:i]和[ai+1:m]被伪tokens随机的替换将会得到t。

6、p-tuning使用prompt encoder将t映射到e(t)＝{e([p0:i]),e(x),e([pi+1:m；]),e(y)}，其中e(·)表示相应内容的embedding，pi(0≤i<m)表示伪tokens。p-tuning手动选择一些token作为anchor tokens，随着anchor tokens的引入，t的模板将会被更改为t′：

7、t′＝{[p0:i],[a0:j],x,[aj+1:l],[pi+1:m],y}

8、其中pi(0≤i<m)是伪tokens，aj(0≤j<l)是anchor tokens。

9、然后，p-tuning使用prompt encoder将非anchor tokens映射到输入embedding，而anchor tokens则是使用预先训练的嵌入层进行编码，编码后，模板映射到：

10、e(t′)＝{h0,…,hi,a0,…,aj,e(x),aj+1,…,al,hi+1,…,hm,h(y)}

11、其中hi(0≤i<m)是由带有两层mlp的双向lstm构建的prompt encoder获得的，aj(0≤j<l)是嵌入层e编码的anchor tokens的embedding。

12、在p-tuning的基础上引入correctors模型来自动选择anchor tokens aj。使用自动选择的一些token作为anchor tokens的方式将t的模板更改为t′。模板t中的prompttokens由冻结的预训练语言模型编码且该模型记为mf。由mf编码的每个prompt tokens的输出被输入到correctors模型中，以决定哪一个将充当anchor tokens。anchor tokens则是使用预先训练的嵌入层进行编码。而剩下的其他prompt tokens将被送入到promptencoder以生成其相应的embedding。选择双向长短期记忆网络(lstm)并使用relu激活的两层多层感知器(mlp本文档来自技高网...

【技术保护点】

1.一种基于强化学习的自动选择构建提示方法，其特征在于通过自动选择的方式构建提示，所述方法的实现过程为：

2.根据权利要求1所述的一种基于强化学习的自动选择构建提示方法，其特征在于，在p-tuning的基础上引入correctors模型来自动选择anchor tokens Aj，具体为：

3.根据权利要求1或2所述的一种基于强化学习的自动选择构建提示方法，其特征在于，通过强化学习算法使用损失函数调整correctors的参数，具体为：

4.根据权利要求3所述的一种基于强化学习的自动选择构建提示方法，其特征在于，所述方法还包括训练过程，具体为：

5.一种基于强化学习的自动选择构建提示方法的应用，其特征在于：所述方法应于自然语言理解和文本分类中。

6.一种基于强化学习的自动选择构建提示系统，其特征在于：该系统具有与上述权利要求1-4任一项权利要求的步骤对应的程序模块，运行时执行上述的一种基于强化学习的自动选择构建提示方法中的步骤。

7.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所

...

【技术特征摘要】

1.一种基于强化学习的自动选择构建提示方法，其特征在于通过自动选择的方式构建提示，所述方法的实现过程为：

2.根据权利要求1所述的一种基于强化学习的自动选择构建提示方法，其特征在于，在p-tuning的基础上引入correctors模型来自动选择anchor tokens aj，具体为：

3.根据权利要求1或2所述的一种基于强化学习的自动选择构建提示方法，其特征在于，通过强化学习算法使用损失函数调整correctors的参数，具体为：

4.根据权利要求3所述的一种基于强化学习的自动选择构建提示方法，其特征在于，...

【专利技术属性】
技术研发人员：叶展宏，韩咏，钟雨彤，林锐蓝，齐浩亮，孔蕾蕾，
申请(专利权)人：佛山科学技术学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人