【技术实现步骤摘要】
一种基于对抗训练的语言模型预训练方法、系统及电子设备
本专利技术涉及到自然语言处理领域,特别涉及一种基于对抗训练的语言模型预训练方法、系统及电子设备。
技术介绍
语言模型的预训练是自然语言处理中的重要先行步骤,其目的是从大规模未经标注的语料中,学习字或词在带有上下文基础上的表达方式——高维空间的一个向量。预训练模型的意义在于为后续的特定任务的训练提供初始化的字词表达向量,进而降低后续任务的训练时间,提升后续任务的效果。因此,一个好的预训练方法,对自然处理处理的大量任务,有至关重要的作用。现有的语言预训练模型中有的仅考虑了前文的信息,而忽略了后文的信息,有的仅提取上下文信息中对预测某一个位置词有帮助的信息,而忽略了文本的整体信息、非预测词之间的相关信息,因此他们对于上下文关系、文本整体信息的提取不够充分,从而影响了语言预训练模型在后续任务中的表现。此外,现有的预训练方法往往会在训练中对训练文本添加<MASK>干扰,这带来了两个问题:一是<MASK>干扰本身不会在后续任务的输入文本中出现,也就是说,训练文本和后续任务输入文本并不一致,这影响了预训练模型在后续任务中的表现;二是<MASK>干扰过于单一,以此训练使得预训练模型仅注重文本的一部分信息,信息提取不完善。如何克服现有语言预训练模型的不足,成了继续解决的问题。
技术实现思路
为克服现有技术中存在的问题,本专利技术提供了一种基于对抗训练的语言模型预训练方法、系统及电子设备。本专 ...
【技术保护点】
1.一种基于对抗训练的语言模型预训练方法,其特征在于:所述语言预训练模型包括语义提取网络与鉴别网络,其包括以下步骤:/n步骤S1,提供一个语义提取网络、鉴别网络及原始文本;/n步骤S2,将原始文本中的词转换为第一初始词向量,并输入至语义提取网络,通过语义提取网络提取原始文本的第一向量;/n步骤S3,对原始文本进行修改,将修改文本中的词转换为第二初始词向量,并输入至语义提取网络,通过语义提取网络提取修改文本的第二向量;/n步骤S4,将第一向量和第二向量输入鉴别网络,以获得鉴别网络对于第一向量与第二向量的鉴别结果;/n步骤S5,根据鉴别网络对于第一向量与第二向量的鉴别结果以对语义提取网络及鉴别网络进行优化;/n步骤S6,重复上述步骤S2-S5,直至第一向量与第二向量可通过鉴别网络的鉴别,以获得优化后的语义提取网络与鉴别网络。/n
【技术特征摘要】
1.一种基于对抗训练的语言模型预训练方法,其特征在于:所述语言预训练模型包括语义提取网络与鉴别网络,其包括以下步骤:
步骤S1,提供一个语义提取网络、鉴别网络及原始文本;
步骤S2,将原始文本中的词转换为第一初始词向量,并输入至语义提取网络,通过语义提取网络提取原始文本的第一向量;
步骤S3,对原始文本进行修改,将修改文本中的词转换为第二初始词向量,并输入至语义提取网络,通过语义提取网络提取修改文本的第二向量;
步骤S4,将第一向量和第二向量输入鉴别网络,以获得鉴别网络对于第一向量与第二向量的鉴别结果;
步骤S5,根据鉴别网络对于第一向量与第二向量的鉴别结果以对语义提取网络及鉴别网络进行优化;
步骤S6,重复上述步骤S2-S5,直至第一向量与第二向量可通过鉴别网络的鉴别,以获得优化后的语义提取网络与鉴别网络。
2.如权利要求1所述的基于对抗训练的语言模型预训练方法,其特征在于:对原始文本的修改方式包括对部分词语掩膜、打乱原始顺序。
3.如权利要求2所述的基于对抗训练的语言模型预训练方法,其特征在于:所述语义提取网络包括词级语义提取网络与句级语义提取网络;
步骤S2进一步包括:
步骤S21,将所述原始文本中的每个句子进行分词;
步骤S22,将分词之后的每个句子中的每个词转化为第一初始词向量;
步骤S23,在所述每个句子的句首添加识别字符并将所述识别字符转化为第一字符向量;
步骤S24,将所述步骤S22中的第一初始词向量与所述步骤S23中的第一字符向量输入至词级语义提取网络、句级语义提取网络以获得与每个句子对应的第一向量,所述第一向量包括第一词向量与第一句向量;
步骤S3进一步包括以下步骤:
步骤S31,对原始文本进行修改,将所述修改文本中的每个句子进行分词;
步骤S32,将分词之后的每个句子中的每个词转化为第二初始词向量;
步骤S33,在所述每个句子的句首添加识别字符并将所述识别字符转化为第二字符向量;
步骤S34,将所述步骤S32中的第二初始词向量与所述步骤S33中的第二字符向量分别输入至词级语义提取网络与句级语义提取网络以获得与每个句子对应的第二向量,所述第二向量包括第二词向量与第二句向量。
4.如权利要求3所述的基于对抗训练的语言模型预训练方法,其特征在于:所述鉴别网络包括词向量鉴别网络;
步骤S4进一步包括:
步骤S411,将第一词向量与第二词向量输入至词向量鉴别网络;
步骤S412,词向量鉴别网络将第一词向量与第二词向量相互配对并计算;
步骤S413,获得词向量鉴别网络的词向量鉴别结果...
【专利技术属性】
技术研发人员:宋思睿,宋彦,
申请(专利权)人:创新工场广州人工智能研究有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。