预训练模型提示向量的确定方法、装置及电子设备制造方法及图纸

技术编号：34291975 阅读：22 留言：0更新日期：2022-07-27 09:42

本公开公开了一种预训练模型提示向量的确定方法、装置和电子设备，尤其涉及自然语言处理、深度学习等人工智能技术领域。其中，方案为：获取第一个提示向量及样本数据对应的第一向量；将第一向量与第一个提示向量融合后，输入至预训练模型中，以获取第一个提示向量对应的奖励值；基于奖励值，对第一个提示向量进行修正，以确定第二个提示向量；基于第二个提示向量，返回执行上述获取奖励值的操作，直至确定样本数据对应的目标提示向量。由此，可以基于奖励值对提示向量进行修正，以确定出下一个提示向量，也即通过前向推断，确定目标提示向量，节省了计算资源，同时也节省了确定目标提示向量的时间，提高了效率，为工业化部署提供了条件。了条件。了条件。

全部详细技术资料下载

【技术实现步骤摘要】
预训练模型提示向量的确定方法、装置及电子设备

[0001]本公开涉及计算机
，具体涉及自然语言处理、深度学习等人工智能
，尤其涉及一种预训练模型提示向量的确定方法、装置、电子设备和存储介质。

技术介绍

[0002]随着计算机技术的发展，自然语言处理应用的也越来越广泛。
[0003]相关技术中，可以通过在预训练模型输入端加一组连续的提示prompt向量，之后在固定预训练模型参数的情况下，利用训练样本对提示向量进行反向传播与优化，以确定最佳的提示向量。通常预训练模型参数可能较大，层数可能较深，涉及的计算量可能较大，从而可能导致计算提示向量的时间过长。由此，如何节省计算提示向量的时间，显得至关重要。

技术实现思路

[0004]本公开提供了一种预训练模型提示向量的确定方法、装置、电子设备和存储介质。
[0005]本公开一方面，提供了一种预训练模型提示向量的确定方法，包括：
[0006]获取第一个提示向量及样本数据对应的第一向量；
[0007]将所述第一向量与所述第一个提示向量融合后，输入至预训练模型中，以获取所述第一个提示向量对应的奖励值；
[0008]基于所述奖励值，对所述第一个提示向量进行修正，以确定第二个提示向量；
[0009]基于所述第二个提示向量，返回执行上述获取奖励值的操作，直至确定所述样本数据对应的目标提示向量。
[0010]本公开的另一方面，提供了一种预训练模型提示向量的确定装置，包括：
[0011]获取模块，用于获取...

【技术保护点】

【技术特征摘要】
1.一种预训练模型提示向量的确定方法，其中，包括：获取第一个提示向量及样本数据对应的第一向量；将所述第一向量与所述第一个提示向量融合后，输入至预训练模型中，以获取所述第一个提示向量对应的奖励值；基于所述奖励值，对所述第一个提示向量进行修正，以确定第二个提示向量；基于所述第二个提示向量，返回执行上述获取奖励值的操作，直至确定所述样本数据对应的目标提示向量。2.如权利要求1所述的方法，其中，所述返回执行上述获取奖励值的操作，包括：响应于第N+1个提示向量对应的奖励值为m，其中，N为大于1的正整数，m为实数；获取与所述第N+1个提示向量相邻的前L个提示向量,其中，L为小于或等于N，且大于1的正整数；将所述前L个提示向量进行融合，以获取融合后的向量；基于所述奖励值m对所述融合后的向量进行修正，以生成第N+2个提示向量。3.如权利要求1所述的方法，其中，所述返回执行上述获取奖励值的操作，包括：获取与第N+1个提示向量相邻的前L个提示向量及所述前L个提示向量中每个提示向量对应的奖励值,其中，L为小于或等于N，且大于1的正整数，N为大于1的正整数；基于前L个提示向量中每个所述提示向量对应的奖励值，对每个所述提示向量进行修正，以获取修正后的L个提示向量；将所述修正后的L个提示向量进行融合，以生成第N+2个提示向量。4.如权利要求3所述的方法，其中，所述基于前L个提示向量中每个所述提示向量对应的奖励值，对每个所述提示向量进行修正，以获取修正后的L个提示向量，包括：根据前L个提示向量中每个提示向量对应的奖励值，确定每个所述提示向量对应的权重；基于每个所述提示向量对应的权重，对每个所述提示向量进行修正，以获取修正后的L个提示向量。5.如权利要求1
‑
4中任一所述的方法，其中，所述基于所述第二个提示向量，返回执行上述获取奖励值的操作，直至确定所述样本数据对应的目标提示向量，包括：记录候选提示向量序列，其中，所述候选提示向量序列中每相邻的两个候选提示向量对应的序号值间的差值为K，K为正整数；将验证数据对应的第二向量与候选提示向量融合后，输入至所述预训练模型中，以确定所述验证数据对应的预测标签；基于所述验证数据对应的预测标签与标注标签的差异，确定所述候选提示向量对应的奖励值；将最高奖励值对应的候选提示向量确定为目标提示向量。6.如权利要求5所述的方法，其中，在所述基于所述验证数据对应的预测标签与标注标签的差异，确定所述候选提示向量对应的奖励值之后，还包括：在最高奖励值为多个的情况下，将所述多个最高奖励值中最小序号值对应的候选提示向量，确定为目标提示向量。7.一种预训练模型提示向量的确定装置，其中，所述装置包括：
获取模块，用于获取第一个提示向量及样本数据对应的第一向量；输入模块，用于将所述第一向量与所述第一个提示向量融合后，输入至预训练模型中，以获取所述第一...

【专利技术属性】
技术研发人员：柴业坤，王硕寰，孙宇，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人