文本预测的方法及装置制造方法及图纸

技术编号：40738229 阅读：4 留言：0更新日期：2024-03-25 19:59

本说明书实施例提供一种文本预测的方法及装置，在基于大模型进行文本预测过程中，为当前词预测下文时，根据当前业务请求及历史生成文本，确定将当前词作为起始词的若干个预取词组，然后对各个预取词组并行执行前向预测，从而确定基于若干个预取词组匹配到的最长词序列，根据最长词序列确定相应的若干输出词作为当前词的下文。如此，可以通过预取和并行计算提高词预测速率。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书一个或多个实施例涉及计算机，尤其涉及一种文本预测的方法及装置。

技术介绍

1、语言大模型(large language model，llm)，即大规模语言模型，或称为大模型，通常具有较大的参数量级，如十亿级。语言大模型是一种基于深度学习的自然语言处理模型，它能够学习到自然语言的语法和语义，从而可以生成人类可读的文本。利用大模型生成文本的过程中，通常包括对输入文本的转换、压缩等流程，再根据得到的表征向量预测或生成目标文本。在目标文本生成过程中，可以按照字符出现顺序依次进行。也就是说逐个字或词进行文本串行生成。因此，如何提高文本生成效率，是语言大模型使用过程中值得研究的重要技术问题。

技术实现思路

1、本说明书一个或多个实施例描述了一种文本预测的方法及装置，用以解决
技术介绍
提到的一个或多个问题。

2、根据第一方面，提供一种文本预测的方法，用于基于大模型进行文本生成过程中，为当前词预测下文，所述方法包括：根据当前业务请求及历史生成文本，确定将当前词作为起始词的若干个预取词组；对各个预取词组并行执行前向预测，从而确定基于所述若干个预取词组匹配到的最长词序列，其中，针对单个预取词组，按照预取词组中各个词的出现顺序以词数量逐个递增的方式确定至少一个候选词序列，所述最长词序列通过以下比对结果确定：并行为各个预取词组对应的全部候选词序列预测下一个词，并将预测得到的词与相应候选词序列在相应预取词组中的相应词进行比对，得到各个比对结果；根据所述最长词序列确定相应的若干输出词作为当前词的下文。

3、根据一个实施例，单个预取词组至多包含预定数量的预取词，且单个预取词组在当前业务请求及历史生成文本中的出现频次满足以下条件：大于预定频次阈值，或者按照由大到小的顺序排列在前n个。

4、根据一个实施例，所述对各个预取词组并行执行前向预测包括：根据各个预取词组中各个词的位置，确定各个预取词的位置标识以及相应的注意力掩码矩阵，其中，所述预取词是预取词组中的词；基于所述位置标识和所述掩码矩阵执行前向预测。

5、根据一个实施例，所述若干个预取词组通过以当前词为根节点的字典树中各条词路径上的节点确定，且不同预取词组在同一次序的相同预取词按照字典树结构进行合并。

6、根据一个实施例，各个预取词分别对应的各个位置标识由字典树中的节点位置确定，且按照对应于字典树中的节点次序依次排列，所述掩码矩阵的各列分别对应各个预取词，所述掩码矩阵的各行分别对应各个候选词序列，且与候选词序列中的各个词对应的各个元素为预定字符。

7、根据一个实施例，所述若干个预取词组存在以下第一词组的情况下，所述最长词序列包括，所述第一词组以及根据最长候选词序列预测的下一个词：所述第一词组中的全部预取词与为第一词组确定的各个候选词序列预测的下一个词均一致。

8、根据一个实施例，在全部预取词组中当前词的下一个词均与针对当前词预测的下一个词不一致的情况下，所述最长词序列包括针对当前词预测的下一个词。

9、根据一个实施例，所述方法还包括：在未预测到结束符的情况下，通过所述最长词序列中的最后一个词更新当前词。

10、根据一个实施例，所述大模型基于注意力机制实现，已预测到的各个词以及各个预取词对应的k、v值以kvs缓存形式存储是否被选中的状态，所述方法还包括：根据所述最长词序列更新kvs缓存中各个词的k、v值状态。

11、根据第二方面，还提供一种文本预测的装置，用于基于大模型进行文本生成过程中，为当前词预测下文，所述装置包括：

12、预取单元，配置为根据当前业务请求及历史生成文本，确定将当前词作为起始词的若干个预取词组；

13、预测单元，配置为对各个预取词组并行执行前向预测，从而确定基于所述若干个预取词组匹配到的最长词序列，其中，针对单个预取词组，按照预取词组中各个词的出现顺序以词数量逐个递增的方式确定至少一个候选词序列，所述最长词序列通过以下比对结果确定：并行为各个预取词组对应的全部候选词序列预测下一个词，并将预测得到的词与相应候选词序列在相应预取词组中的相应词进行比对，得到各个比对结果；

14、更新单元，配置为根据所述最长词序列确定相应的若干输出词作为当前词的下文。

15、根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

16、根据第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

17、通过本说明书实施例提供的装置和方法，在基于大模型进行文本预测过程中，为当前词预测下文时，根据当前业务请求及历史生成文本，确定将当前词作为起始词的若干个预取词组，然后对各个预取词组并行执行前向预测，从而确定在若干个预取词组中匹配到的最长词序列，根据最长词序列确定相应的若干输出词作为当前词的下文。如此，可以通过预取和并行计算提高词预测速率。

本文档来自技高网...

【技术保护点】

1.一种文本预测的方法，用于基于大模型进行文本生成过程中，为当前词预测下文，所述方法包括：

2.如权利要求1所述的方法，其中，单个预取词组至多包含预定数量的预取词，且单个预取词组在当前业务请求及历史生成文本中的出现频次满足以下条件：大于预定频次阈值，或者按照由大到小的顺序排列在前n个。

3.如权利要求1所述的方法，其中，所述对各个预取词组并行执行前向预测包括：

4.如权利要求3所述的方法，其中，所述若干个预取词组通过以当前词为根节点的字典树中各条词路径上的节点确定，且不同预取词组在同一次序的相同预取词按照字典树结构进行合并。

5.如权利要求4所述的方法，其中，各个预取词分别对应的各个位置标识由字典树中的节点位置确定，且按照对应于字典树中的节点位置依次排列，所述掩码矩阵的各列分别对应各个预取词，所述掩码矩阵的各行分别对应各个候选词序列，且与候选词序列中的各个词对应的各个元素为预定字符。

6.如权利要求1所述的方法，其中，所述若干个预取词组存在以下第一词组的情况下，所述最长词序列包括，所述第一词组以及根据最长候选词序列预测的

7.如权利要求1所述的方法，其中，在全部预取词组中当前词的下一个词均与针对当前词预测的下一个词不一致的情况下，所述最长词序列包括针对当前词预测的下一个词。

8.如权利要求1所述的方法，其中，所述方法还包括：

9.如权利要求1所述的方法，其中，所述大模型基于注意力机制实现，已预测到的各个词以及各个预取词对应的k、v值以kvs缓存形式存储是否被选中的状态，所述方法还包括：

10.一种文本预测的装置，用于基于大模型进行文本生成过程中，为当前词预测下文，所述装置包括：

11.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9中任一项的所述的方法。

12.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项所述的方法。

...

【技术特征摘要】

1.一种文本预测的方法，用于基于大模型进行文本生成过程中，为当前词预测下文，所述方法包括：

3.如权利要求1所述的方法，其中，所述对各个预取词组并行执行前向预测包括：

6.如权利要求1所述的方法，其中，所述若干个预取词组存在以下第一词组的情况下，所述最长词序列包括，所...

【专利技术属性】
技术研发人员：赵耀，韩旭东，李震，庄晨熠，沙剑，曾晓东，顾进杰，张冠男，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人