一种基于对抗训练的语言模型预训练方法、系统及电子设备技术方案

技术编号:23400511 阅读:44 留言:0更新日期:2020-02-22 12:43
本发明专利技术涉及一种基于对抗训练的语言模型预训练方法包括:步骤S1,提供一个语义提取网络、鉴别网络及原始文本;步骤S2,将原始文本中的词转换为第一初始词向量,并输入至语义提取网络,通过语义提取网络提取原始文本的第一向量;步骤S3,对原始文本进行修改,将修改文本中的词转换为第二初始词向量,并输入至语义提取网络,通过语义提取网络提取修改文本的第二向量;步骤S4,将第一向量和第二向量输入鉴别网络,以获得鉴别网络的鉴别结果;步骤S5,根据鉴别网络的鉴别结果以对语义提取网络及鉴别网络进行优化;步骤S6,重复上述步骤S2‑S5,直至第一向量与第二向量可通过鉴别网络的鉴别,以获得优化后的语义提取网络与鉴别网络。

A language model pre training method, system and electronic equipment based on confrontation training

【技术实现步骤摘要】
一种基于对抗训练的语言模型预训练方法、系统及电子设备
本专利技术涉及到自然语言处理领域,特别涉及一种基于对抗训练的语言模型预训练方法、系统及电子设备。
技术介绍
语言模型的预训练是自然语言处理中的重要先行步骤,其目的是从大规模未经标注的语料中,学习字或词在带有上下文基础上的表达方式——高维空间的一个向量。预训练模型的意义在于为后续的特定任务的训练提供初始化的字词表达向量,进而降低后续任务的训练时间,提升后续任务的效果。因此,一个好的预训练方法,对自然处理处理的大量任务,有至关重要的作用。现有的语言预训练模型中有的仅考虑了前文的信息,而忽略了后文的信息,有的仅提取上下文信息中对预测某一个位置词有帮助的信息,而忽略了文本的整体信息、非预测词之间的相关信息,因此他们对于上下文关系、文本整体信息的提取不够充分,从而影响了语言预训练模型在后续任务中的表现。此外,现有的预训练方法往往会在训练中对训练文本添加<MASK>干扰,这带来了两个问题:一是<MASK>干扰本身不会在后续任务的输入文本中出现,也就是说,训练文本和后续任务输入文本并不一致,这影响了预训练模型在后续任务中的表现;二是<MASK>干扰过于单一,以此训练使得预训练模型仅注重文本的一部分信息,信息提取不完善。如何克服现有语言预训练模型的不足,成了继续解决的问题。
技术实现思路
为克服现有技术中存在的问题,本专利技术提供了一种基于对抗训练的语言模型预训练方法、系统及电子设备。本专利技术解决技术问题的方案是提供一种基于对抗训练的语言模型预训练方法,其特征在于:所述语言预训练模型包括语义提取网络与鉴别网络,其包括以下步骤:步骤S1,提供一个语义提取网络、鉴别网络及原始文本;步骤S2,将原始文本中的词转换为第一初始词向量,并输入至语义提取网络,通过语义提取网络提取原始文本的第一向量;步骤S3,对原始文本进行修改,将修改文本中的词转换为第二初始词向量,并输入至语义提取网络,通过语义提取网络提取修改文本的第二向量;步骤S4,将第一向量和第二向量输入鉴别网络,以获得鉴别网络对于第一向量与第二向量的鉴别结果;步骤S5,根据鉴别网络对于第一向量与第二向量的鉴别结果以对语义提取网络及鉴别网络进行优化;步骤S6,重复上述步骤S2-S5,直至第一向量与第二向量可通过鉴别网络的鉴别,以获得优化后的语义提取网络与鉴别网络。优选地,对原始文本的修改方式包括对部分词语掩膜、打乱原始顺序。优选地,所述语义提取网络包括词级语义提取网络与句级语义提取网络;步骤S2进一步包括:步骤S21,将所述原始文本中的每个句子进行分词;步骤S22,将分词之后的每个句子中的每个词转化为第一初始词向量;步骤S23,在所述每个句子的句首添加识别字符并将所述识别字符转化为第一字符向量;步骤S24,将所述步骤S22中的第一初始词向量与所述步骤S23中的第一字符向量输入至词级语义提取网络、句级语义提取网络以获得与每个句子对应的第一向量,所述第一向量包括第一词向量与第一句向量;步骤S3进一步包括以下步骤:步骤S31,对原始文本进行修改,将所述修改文本中的每个句子进行分词;步骤S32,将分词之后的每个句子中的每个词转化为第二初始词向量;步骤S33,在所述每个句子的句首添加识别字符并将所述识别字符转化为第二字符向量;步骤S34,将所述步骤S32中的第二初始词向量与所述步骤S33中的第二字符向量分别输入至词级语义提取网络与句级语义提取网络以获得与每个句子对应的第二向量,所述第二向量包括第二词向量与第二句向量。优选地,所述鉴别网络包括词向量鉴别网络;步骤S4进一步包括:步骤S411,将第一词向量与第二词向量输入至词向量鉴别网络;步骤S412,词向量鉴别网络将第一词向量与第二词向量相互配对并计算;步骤S413,获得词向量鉴别网络的词向量鉴别结果。优选地,所述词向量鉴别网络包括第一全连接层;步骤S412进一步包括:步骤S4121,词向量鉴别网络对第一词向量与第二词向量进行配对;步骤S4122,词向量鉴别网络通过第一全连接层对第一词向量与第二词向量进行计算并输出结果;其中,词向量鉴别结果由第一全连接层输出。优选地,所述鉴别网络包括句向量鉴别网络;步骤S4进一步包括:步骤S421,将第一句向量和第二句向量输入句向量鉴别网络;步骤S422,句向量鉴别网络将第一句向量、第二句向量随机放入第一位置、第二位置,并进行计算;步骤S423,获得句向量鉴别网络的句向量鉴别结果。优选地,所述句向量鉴别网络包括第二全连接层;步骤S422进一步包括:步骤S4221,句向量鉴别网络将第一句向量、第二句向量随机放入第一位置、第二位置;步骤S4222,句向量鉴别网络通过第二全连接层对第一位置、第二位置进行计算,并输出结果;句向量鉴别结果由第二全连接层输出。优选地,步骤S5进一步包括以下步骤:步骤S51,建立关于所述语义提取网络与鉴别网络的目标函数;步骤S52,根据鉴别网络的鉴别结果计算所述目标函数;步骤S53,对所述目标函数求导,并更新所述语义提取网络与鉴别网络的参数。优选地,包括:输入模块;用于输入原始文本;词转换模块;用于将原始文本中的词转换为第一初始词向量,并用于将原始文本进行修改后的修改文本中的词转换为第二初始词向量;语义提取网络;用于通过第一初始词向量提取原始文本的第一向量;并用于通过第二初始词向量提取修改文本的第二向量;鉴别网络;用于鉴别第一向量与第二向量的匹配度以获得鉴别结果;优化模块,用于根据鉴别网络对于第一向量与第二向量的鉴别结果以对语义提取网络及鉴别网络进行优化。优选地,所述存储器中存储有计算机程序,所述计算机程序被设置为运行时执行所述权利要求1至9任一项中所述的基于对抗训练的语言模型预训练方法;所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的基于乱序重排的自然语言模型预训练方法。与现有技术相比,本专利技术的基于对抗训练的语言模型预训练方法具有以下优点:1.将原始文本与修改文本同时送入预训练模型中,通过对抗任务的训练,使得预训练模型能对受干扰的文本和原文本都准确提取信息,从而避免了进行后续任务时的输入文本与训练时的输入文本不一致的情况,保证了本基于对抗训练的自然语言预训练模型在预训练阶段与后续任务阶段能够保持同样的语义提取能力。2.通过采用词干扰与顺序干扰并存的方式来进行自然语言模型的预训练任务,使得预训练语言模型能够更全面、更准确的提取到句子中各词的语义信息以及整个句子的语义信息。3.通过对词、句两种层次的文本同时进行对抗训练,可使得本基于对抗训练的自然语言预训练模型充分提取文本中不同层次的语义信息,使得本基于对抗训练的自然语言预训练模型可在不同的层次理解文本信息,以便于后续任务的完成。【附图说明】图1是本专利技术第一实施例一种基于对抗训练的语言模型预训练方法的流程示意图。图2是本专利技术第一实施例中步骤S2的细节流程示意图。图3是本专利技术第一实施例通过本文档来自技高网...

【技术保护点】
1.一种基于对抗训练的语言模型预训练方法,其特征在于:所述语言预训练模型包括语义提取网络与鉴别网络,其包括以下步骤:/n步骤S1,提供一个语义提取网络、鉴别网络及原始文本;/n步骤S2,将原始文本中的词转换为第一初始词向量,并输入至语义提取网络,通过语义提取网络提取原始文本的第一向量;/n步骤S3,对原始文本进行修改,将修改文本中的词转换为第二初始词向量,并输入至语义提取网络,通过语义提取网络提取修改文本的第二向量;/n步骤S4,将第一向量和第二向量输入鉴别网络,以获得鉴别网络对于第一向量与第二向量的鉴别结果;/n步骤S5,根据鉴别网络对于第一向量与第二向量的鉴别结果以对语义提取网络及鉴别网络进行优化;/n步骤S6,重复上述步骤S2-S5,直至第一向量与第二向量可通过鉴别网络的鉴别,以获得优化后的语义提取网络与鉴别网络。/n

【技术特征摘要】
1.一种基于对抗训练的语言模型预训练方法,其特征在于:所述语言预训练模型包括语义提取网络与鉴别网络,其包括以下步骤:
步骤S1,提供一个语义提取网络、鉴别网络及原始文本;
步骤S2,将原始文本中的词转换为第一初始词向量,并输入至语义提取网络,通过语义提取网络提取原始文本的第一向量;
步骤S3,对原始文本进行修改,将修改文本中的词转换为第二初始词向量,并输入至语义提取网络,通过语义提取网络提取修改文本的第二向量;
步骤S4,将第一向量和第二向量输入鉴别网络,以获得鉴别网络对于第一向量与第二向量的鉴别结果;
步骤S5,根据鉴别网络对于第一向量与第二向量的鉴别结果以对语义提取网络及鉴别网络进行优化;
步骤S6,重复上述步骤S2-S5,直至第一向量与第二向量可通过鉴别网络的鉴别,以获得优化后的语义提取网络与鉴别网络。


2.如权利要求1所述的基于对抗训练的语言模型预训练方法,其特征在于:对原始文本的修改方式包括对部分词语掩膜、打乱原始顺序。


3.如权利要求2所述的基于对抗训练的语言模型预训练方法,其特征在于:所述语义提取网络包括词级语义提取网络与句级语义提取网络;
步骤S2进一步包括:
步骤S21,将所述原始文本中的每个句子进行分词;
步骤S22,将分词之后的每个句子中的每个词转化为第一初始词向量;
步骤S23,在所述每个句子的句首添加识别字符并将所述识别字符转化为第一字符向量;
步骤S24,将所述步骤S22中的第一初始词向量与所述步骤S23中的第一字符向量输入至词级语义提取网络、句级语义提取网络以获得与每个句子对应的第一向量,所述第一向量包括第一词向量与第一句向量;
步骤S3进一步包括以下步骤:
步骤S31,对原始文本进行修改,将所述修改文本中的每个句子进行分词;
步骤S32,将分词之后的每个句子中的每个词转化为第二初始词向量;
步骤S33,在所述每个句子的句首添加识别字符并将所述识别字符转化为第二字符向量;
步骤S34,将所述步骤S32中的第二初始词向量与所述步骤S33中的第二字符向量分别输入至词级语义提取网络与句级语义提取网络以获得与每个句子对应的第二向量,所述第二向量包括第二词向量与第二句向量。


4.如权利要求3所述的基于对抗训练的语言模型预训练方法,其特征在于:所述鉴别网络包括词向量鉴别网络;
步骤S4进一步包括:
步骤S411,将第一词向量与第二词向量输入至词向量鉴别网络;
步骤S412,词向量鉴别网络将第一词向量与第二词向量相互配对并计算;
步骤S413,获得词向量鉴别网络的词向量鉴别结果...

【专利技术属性】
技术研发人员:宋思睿宋彦
申请(专利权)人:创新工场广州人工智能研究有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1