由电子设备执行的方法、电子设备和计算机可读存储介质技术

技术编号：41222980 阅读：5 留言：0更新日期：2024-05-09 23:42

提供了一种由电子设备执行的方法、电子设备和计算机可读存储介质，所述由电子设备执行的方法包括：使用第一语言模型，提取第一训练序列的第一通用知识表征；以及使用第一通用知识表征，更新第二语言模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能领域，并且更具体地，涉及一种由电子设备执行的方法、电子设备和计算机可读存储介质。

技术介绍

1、语言模型(language model)通过特定任务的训练来学习自然语言中的统计规律与语义表示，预训练的语言模型可以被应用于其他自然语言处理任务(可称为下游任务)，例如，机器阅读理解(例如，斯坦福问答数据集任务(standford question answeringdataset，squad)任务)、文本分类(例如，命名实体识别(named entity recognition，ner))、关系提取(例如，多类型自然语言推理(multi-genre natural languageinference，mnli))等等。

2、然而，现有的语言模型更新方法存在知识遗忘的问题。

技术实现思路

1、本公开提供了一种由电子设备执行的方法、电子设备和计算机可读存储介质，以解决上述相关技术中的至少一个问题。

2、根据本公开的实施例的第一方面，提供了一种由电子设备执行的方法，包括：使用第一语言模型，提取第一训练序列的第一通用知识表征；以及使用第一通用知识表征，更新第二语言模型。

3、可选地，使用第一通用知识表征，更新第二语言模型的步骤包括：使用第二语言模型，提取第一训练序列的第二通用知识表征并确定第一训练序列对应的预测结果；以及基于第一通用知识表征、第二通用知识表征和所述预测结果更新第二语言模型。

4、可选地，基于第一通用知识表征、

5、可选地，使用第一语言模型，提取第一训练序列的第一通用知识表征的步骤包括：使用第一语言模型中的第一编码器，确定第一训练序列的第一隐状态；以及基于第一隐状态，确定第一训练序列中各个词元的第一预测概率，其中，所述各个词元的第一预测概率被作为第一通用知识表征。

6、可选地，使用第二语言模型，提取第一训练序列的第二通用知识表征的步骤包括：使用第二语言模型中的第二编码器，确定第一训练序列的第二隐状态；以及基于第二隐状态，确定所述训练序列中各个词元的第二预测概率，其中，所述各个词元的第二预测概率被作为第二通用知识表征。

7、可选地，第一编码器或第二编码器为变换器(transformer)编码器。

8、可选地，所述方法还包括：获取第二训练序列的掩码序列，其中，在所述掩码序列中第二训练序列中的至少部分词元被掩码；基于第二训练序列和所述掩码序列更新第一语言模型。

9、可选地，基于第二训练序列和所述掩码序列更新第一语言模型的步骤包括：使用第一语言模型中的第一编码器，确定所述掩码序列的第三隐状态和第二训练序列的第四隐状态；基于第三隐状态，确定所述掩码序列中各个词元的第三预测概率；基于第四隐状态，确定第二训练序列中各个词元的第四预测概率；基于第三预测概率，确定第三损失；基于第四预测概率，确定第四损失；基于第三损失和第四损失，更新第一语言模型。

10、可选地，基于第三预测概率，确定第三损失的步骤包括：基于第二区段中的每个词元的第三预测概率以及与第二区段中的每个词元对应的真实词元，确定第三损失，以及其中，基于第四预测概率，确定第四损失的步骤包括：基于第三区段中的每个词元的第四预测概率以及第二区段中的每个词元的第三预测概率，确定第四损失，其中，第二区段指示针对所述至少部分词元的将所述至少部分词元掩码的序列，第三区段指示针对所述至少部分词元的未将所述至少部分词元掩码的非掩码序列。

11、可选地，使用第一语言模型中的第一编码器，确定所述掩码序列的第三隐状态和第二训练序列的第四隐状态的步骤包括：基于所述掩码序列和第二训练序列，确定上下文掩码矩阵，在所述上下文掩码矩阵中，非掩码词元对应的列中的元素值均为第一值，掩码词元对应的列中，对角线上的元素值为第一值，其它元素值为第二值，其中第一值为0，第二值大于预设值；基于所述上下文掩码矩阵，使用第一语言模型中的第一编码器，确定所述掩码序列的第三隐状态和第二训练序列的第四隐状态。

12、可选地，所述方法还包括：向用户提供第二语言模型的设置界面，其中，所述设置界面中包括以下项中的至少一项：自更新开启指示界面；同意获取第一训练序列的界面；第一训练序列的选择界面；下载第二语言模型的界面，以及自更新频率设置界面。

13、可选地，第一训练序列与用户使用所述电子设备的用户行为有关。

14、可选地，第二语言模型是机器翻译模型，其中，使用第一语言模型，提取第一训练序列的第一通用知识表征的步骤包括：将与第一训练序列相应的源语句和目标语句输入第一语言模型，以通过第一语言模型获得针对所述源语句的词元的第五预测概率和针对所述目标语句的词元的第六预测概率，其中，第五预测概率和第六预测概率被作为第一通用识表征，使用第二语言模型，提取第一训练序列的第二通用知识表征并确定第一训练序列对应的预测结果的步骤包括：使用所述机器翻译模型的编码器的编码部分获得针对所述源语句的词元的第七预测概率，使用所述机器翻译模型的编码器的解码部分获得针对所述目标语句的第八预测概率，并使用所述机器翻译模型的编码器确定针对所述源语句和所述目标语句的预测结果，其中，第七预测概率和第八预测概率被作为第二通用知识表征，其中，基于第一通用知识表征和第二通用知识表征确定第一损失的步骤包括：基于第五预测概率和第七预测概率获得编码器的编码部分的损失，和/或基于第六预测概率和第八预测概率获得编码器的解码部分的损失，其中，基于所述预测结果确定第二损失的步骤包括：基于针对所述源语句和所述目标语句的预测结果确定第二损失，以及其中，基于第一损失和第二损失，更新第二语言模型的步骤包括：基于所述编码部分的损失和第二损失调整所述编码部分的参数，和/或基于所述解码部分的损失和第二损失调整所述解码部分的参数。

15、可选地，所述编码部分的多个层中的任一层输出的表征矩阵在被更新之后被输出。

16、可选地，所述编码部分的任一层输出的表征矩阵基于第五预测概率以及所述任一层输出的针对所述源语句的词元的预测概率被更新。

17、可选地，在所述解码部分为非自回归解码部分的情况下，所述解码部分的多个层中的任一层输出的表征矩阵在被变换之后被输出。

18、可选地，所述解码部分的任一层输出的表征矩阵基于所述解码部分的多头注意力网络使用针对所述目标语句的词元矩阵而被变换，其中，所述词元矩阵包括与所述目标语句中的每个词元对应的输入向量，所述输入向量包括词元向量和位置向量。

19、根据本公开的实施例的第二方面，提供了一种电子设备，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如本文所述本文档来自技高网...

【技术保护点】

1.一种由电子设备执行的方法，包括：

2.如权利要求1所述的方法，其中，使用第一通用知识表征，更新第二语言模型的步骤包括：

3.如权利要求2所述的方法，基于第一通用知识表征、第二通用知识表征和所述预测结果更新第二语言模型的步骤包括：

4.如权利要求1所述的方法，其中，使用第一语言模型，提取第一训练序列的第一通用知识表征的步骤包括：

5.如权利要求2所述的方法，其中，使用第二语言模型，提取第一训练序列的第二通用知识表征的步骤包括：

6.如权利要求4或5所述的方法，第一编码器或第二编码器为变换器Transformer编码器。

7.如权利要求1所述的方法，其中，所述方法还包括：

8.如权利要求7所述的方法，其中，基于第二训练序列和所述掩码序列更新第一语言模型的步骤包括：

9.如权利要求8所述的方法，其中，基于第三预测概率，确定第三损失的步骤包括：

10.如权利要求8所述的方法，其中，使用第一语言模型中的第一编码器，确定所述掩码序列的第三隐状态和第二训练序列的第四隐状态的步骤包括：

11.如权利要求1-10中任一项所述的方法，其中，所述方法还包括：

12.如权利要求1-10中任一项所述的方法，其中，第一训练序列与用户使用所述电子设备的用户行为有关。

13.如权利要求3所述的方法，其中，第二语言模型是机器翻译模型，其中，使用第一语言模型，提取第一训练序列的第一通用知识表征的步骤包括：

14.如权利要求13所述的方法，其中，所述编码部分的多个层中的任一层输出的表征矩阵在被更新之后被输出。

15.如权利要求14所述的方法，其中，所述编码部分的任一层输出的表征矩阵基于第五预测概率以及所述任一层输出的针对所述源语句的词元的预测概率被更新。

16.如权利要求13所述的方法，其中，在所述解码部分为非自回归解码部分的情况下，所述解码部分的多个层中的任一层输出的表征矩阵在被变换之后被输出。

17.如权利要求16所述的方法，其中，所述解码部分的任一层输出的表征矩阵基于所述解码部分的多头注意力网络使用针对所述目标语句的词元矩阵而被变换，

18.一种电子设备，其特征在于，包括：

19.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到17中的任意一项所述的方法。

...

【技术特征摘要】

1.一种由电子设备执行的方法，包括：

2.如权利要求1所述的方法，其中，使用第一通用知识表征，更新第二语言模型的步骤包括：

3.如权利要求2所述的方法，基于第一通用知识表征、第二通用知识表征和所述预测结果更新第二语言模型的步骤包括：

4.如权利要求1所述的方法，其中，使用第一语言模型，提取第一训练序列的第一通用知识表征的步骤包括：

5.如权利要求2所述的方法，其中，使用第二语言模型，提取第一训练序列的第二通用知识表征的步骤包括：

6.如权利要求4或5所述的方法，第一编码器或第二编码器为变换器transformer编码器。

7.如权利要求1所述的方法，其中，所述方法还包括：

8.如权利要求7所述的方法，其中，基于第二训练序列和所述掩码序列更新第一语言模型的步骤包括：

9.如权利要求8所述的方法，其中，基于第三预测概率，确定第三损失的步骤包括：

10.如权利要求8所述的方法，其中，使用第一语言模型中的第一编码器，确定所述掩码序列的第三隐状态和第二训练序列的第四隐状态的步骤包括：

11.如权利要求1-10中任一项所述的方法，其中，所述方法还包括：...

【专利技术属性】
技术研发人员：庄毅萌，胡硕，刘松，
申请(专利权)人：北京三星通信技术研究有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人