【技术实现步骤摘要】
语义表示模型的预训练方法、装置、电子设备和存储介质
本公开涉及计算机
,具体涉及深度学习、自然语言处理等人工智能
,尤其涉及语义表示模型的预训练方法、装置、电子设备和存储介质。
技术介绍
目前,自然语言理解领域的流行技术都取得了良好的效果。相关技术中,一般使用大量的无监督文本进行语义表示模型自监督的预训练学习,再结合任务对应的有监督数据对预训练的语义表示模型进行微调参数。语义表示模型是得到下游自然语言理解任务对应的处理模型的基础。
技术实现思路
本公开提供了一种语义表示模型的预训练方法、装置、设备以及存储介质。根据本公开的一方面,提供了一种语义表示模型的预训练方法,包括:获取样本文本中的至少一个待掩码字符片段;将所述样本文本中所述至少一个待掩码字符片段中的每个所述待掩码字符片段分别替换为一个掩码字符,以得到处理后的样本文本;根据所述待掩码字符片段和所述处理后的样本文本,对语义表示模型进行预训练。根据本公开的另一方面,提供了一种语义表示模型的预训练装置,包括:获取模块,用于获取样本文本中的至少一个待掩码字符片段;替换模块,用于将所述样本文本中所述至少一个待掩码字符片段中的每个所述待掩码字符片段分别替换为一个掩码字符,以得到处理后的样本文本;训练模块,用于根据所述待掩码字符片段和所述处理后的样本文本,对语义表示模型进行预训练。根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一 ...
【技术保护点】
1.一种语义表示模型的预训练方法,包括:/n获取样本文本中的至少一个待掩码字符片段;/n将所述样本文本中所述至少一个待掩码字符片段中的每个所述待掩码字符片段分别替换为一个掩码字符,以得到处理后的样本文本;/n根据所述待掩码字符片段和所述处理后的样本文本,对语义表示模型进行预训练;/n所述根据所述待掩码字符片段和所述处理后的样本文本,对语义表示模型进行预训练,包括:/n将所述处理后的样本文本输入到语义表示模型中,以得到所述掩码字符的字符预测结果;/n根据所述字符预测结果和所述待掩码字符片段,训练所述语义表示模型;/n所述语义表示模型包括嵌入层、语义表示层和分类层,所述将所述处理后的样本文本输入到语义表示模型中,以得到所述掩码字符的字符预测结果,包括:/n获取所述处理后的样本文本中各个字符的位置向量和字符向量;/n通过所述嵌入层对各个字符的位置向量和字符向量进行联合,以得到各个字符对应的联合向量;/n将所述各个字符对应的联合向量输入到语义表示层,以得到所述掩码字符的语义表示向量;/n将所述掩码字符的语义表示向量输入到所述分类层,以得到所述掩码字符的字符预测结果。/n
【技术特征摘要】
1.一种语义表示模型的预训练方法,包括:
获取样本文本中的至少一个待掩码字符片段;
将所述样本文本中所述至少一个待掩码字符片段中的每个所述待掩码字符片段分别替换为一个掩码字符,以得到处理后的样本文本;
根据所述待掩码字符片段和所述处理后的样本文本,对语义表示模型进行预训练;
所述根据所述待掩码字符片段和所述处理后的样本文本,对语义表示模型进行预训练,包括:
将所述处理后的样本文本输入到语义表示模型中,以得到所述掩码字符的字符预测结果;
根据所述字符预测结果和所述待掩码字符片段,训练所述语义表示模型;
所述语义表示模型包括嵌入层、语义表示层和分类层,所述将所述处理后的样本文本输入到语义表示模型中,以得到所述掩码字符的字符预测结果,包括:
获取所述处理后的样本文本中各个字符的位置向量和字符向量;
通过所述嵌入层对各个字符的位置向量和字符向量进行联合,以得到各个字符对应的联合向量;
将所述各个字符对应的联合向量输入到语义表示层,以得到所述掩码字符的语义表示向量;
将所述掩码字符的语义表示向量输入到所述分类层,以得到所述掩码字符的字符预测结果。
2.根据权利要求1所述的方法,其中,所述分类层包括粗粒度分类子层和细粒度分类子层,所述将所述掩码字符的语义表示向量输入到所述分类层,以得到所述掩码字符的字符预测结果,包括:
将所述掩码字符的语义表示向量输入到所述粗粒度分类子层,以得到所述掩码字符的粗粒度预测结果;
将所述掩码字符的语义表示向量输入到所述细粒度分类子层,以得到所述掩码字符的细粒度预测结果。
3.根据权利要求2所述的方法,其中,所述根据所述字符预测结果和所述待掩码字符片段,训练所述语义表示模型,包括:
根据所述粗粒度预测结果、所述细粒度预测结果和所述待掩码字符片段,确定所述语义表示模型的损失函数值;
根据所述损失函数值,对所述语义表示模型中的所述语义表示层的参数进行调整。
4.根据权利要求3所述的方法,其中,根据所述粗粒度预测结果、所述细粒度预测结果和所述待掩码字符片段,确定所述语义表示模型的损失函数值,包括:
根据所述粗粒度预测结果和所述待掩码字符片段,确定出第一损失函数值;
将所述细粒度预测结果和所述待掩码字符片段中的各个字符进行比较,并根据比较结果,确定出第二损失函数值;
根据所述第一损失函数值和所述第一损失函数值,确定所述语义表示模型的损失函数值。
5.一种语义表示模型的预训练装置,包括:
获取模块,用于获取样本文本中的至少一个待掩码字符片段;
替换模块,用于将所述样本...
【专利技术属性】
技术研发人员:肖东凌,李宇琨,张涵,孙宇,田浩,吴华,王海峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。