基于生成器-判别器架构的语言表征模型预训练方法技术

技术编号:37443882 阅读:23 留言:0更新日期:2023-05-06 09:15
本发明专利技术公开了一种基于生成器

【技术实现步骤摘要】
基于生成器

判别器架构的语言表征模型预训练方法


[0001]本专利技术设计一种语言表征模型预训练方法,尤其涉及一种基于生成器

判别器架构的语言表征模型预训练方法,属于自然语言处理


技术介绍

[0002]生成语言表征模型工作,本质是通过不同预训练方法对于模型中参数进行训练,对模型进行预训练的方法主要有:基于令牌(Token)级别的掩码语言模型(MLM)、句子边界目标预测(SBO)、词频逆文档频率预测(TF

IDF)、令牌损坏预测(TCP)等。基于句子级别的下一个句子预测(NSP)、句子距离预测(SDP)、句子顺序预测(SO)等。经前人实验验证,以上方法均可通过训练模型参数,实现对于不同下游任务的广泛适用性。其中,谷歌团队在NAACL发表的《BERT:Pre

training of Deep Bidirectional Transformers for Language Understanding》采用双向Transformer的Encoder结构,完成掩码语本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于生成器

判别器架构的语言表征模型预训练方法,其特征在于包括以下步骤:步骤1:语料数据预处理:语料数据以文本序列形式出现:将其修剪至预设的最大长度,对语料数据以单词为单位进行文本分割,分割出的每一个单词作为一个Token,在词汇表中逐一查找各Token对应的词嵌入表示得到词嵌入张量,根据Token所属不同文本段得到相应的词句分块张量,根据Token在文本序列中的索引位置,得到位置编码张量表示;分别加和各Token的词嵌入张量、词句分块张量、位置编码张量得到在低维稠密向量上各Token的嵌入表示e(x),将在低维稠密向量上的各Token嵌入表示e(x)划分为训练数据集和验证数据集,进行集中存储;步骤2:搭建生成器

判别器架构,包括以下具体模块:所述生成器

判别器架构包括依次串联的输入层、生成器、判别器、输出层;生成器、判别器结构相同,均为多层预训练文本编码器单元,由串联的6层编码器和1层隐层单元组成,各层编码器块均包括1层自注意层和1层前馈神经网络,节点是为256;每层编码器均负责对输入的Token嵌入表示e(x)进行多头注意力计算

残差连接、第一归一化处理

前馈神经网络训练

残差连接、第二归一化处理,隐层负责进行结果输出;输入层负责对训练示例或验证示例的嵌入表示进行跨度掩码处理,输出层是最终结果输出的出口;步骤3:使用跨度掩码

替代检测方法进行预训练:输入层将训练示例进行掩码处理,输出被掩码的示例文本至生成器进行预测;生成器的6层编码器对示例文本依次进行多头注意力计算

残差连接、第一归一化处理

前馈神经网络训练

残差连接、第二归一化处理,充分根据上下文预测被掩码处理文本的位置,生成完整文本序列输出至判别器进行Token的替代检测;判别器的6层编码器块对完整文本序列依次进行多头注意力计算

残差连接、第一归一化处理

前馈神经网络训练

残差连接、第二归一化处理,以优化损失为目标,根据上下文判断每一个Token是否与模型原始输入不一致,对完整文本序列进行替代判别,针对每一个Token位置输出被替代过或没有替代过标记;判别结果经输出层进行输出;步骤4:语言表征模型训练:以生成器、判别器联合损失函数最小为目标进行训练;其中生成器损失函数为L
Gen
,判别器损失函数为L
Dis
,两模块损失加和作为模型的整体损失,以min∑(L
Gen
+L
Dis
)为目标函数,输入训练示例对模型进行训练:生成器的目标函数为:判别器的目标函数为:式中,训练示例x=[x1,

,x
n
];n表示训练示例分词后的Token个数;k为选择的随机遮盖位置数量,k=[0.15n],x
masked
表示遮盖位置Token被跨度掩码...

【专利技术属性】
技术研发人员:赵书良丁雪怡刘林帆孙婧涵杨依涵穆翔宇
申请(专利权)人:河北师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1