语义表示模型的预训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号：29615250 阅读：15 留言：0更新日期：2021-08-10 18:30

本公开提供了一种语义表示模型的预训练方法、装置、电子设备和存储介质，涉及计算机技术领域，尤其涉深度学习、自然语言处理等人工智能技术领域。具体实现方案为：通过获取样本文本中的至少一个待掩码字符片段，并将样本文本中的每个待掩码字符片段分别替换为一个掩码字符，以得到处理后的样本文本，从而根据待掩码字符片段和处理后的样本文本，对语义表示模型进行预训练。由此，在语义表示模型的预训练过程中，利用一个掩码字符对样本文本中的一个待掩码字符片段进行掩码，并基于处理后的样本文本和待掩码字符片段对语义表示模型进行预训练，避免了将掩码字符的长度信息提供给模型，提升了预训练模型表示能力的训练效果及模型性能。

全部详细技术资料下载

【技术实现步骤摘要】
语义表示模型的预训练方法、装置、电子设备和存储介质
本公开涉及计算机
，具体涉及深度学习、自然语言处理等人工智能
，尤其涉及语义表示模型的预训练方法、装置、电子设备和存储介质。
技术介绍
目前，自然语言理解领域的流行技术都取得了良好的效果。相关技术中，一般使用大量的无监督文本进行语义表示模型自监督的预训练学习，再结合任务对应的有监督数据对预训练的语义表示模型进行微调参数。语义表示模型是得到下游自然语言理解任务对应的处理模型的基础。
技术实现思路
本公开提供了一种语义表示模型的预训练方法、装置、设备以及存储介质。根据本公开的一方面，提供了一种语义表示模型的预训练方法，包括：获取样本文本中的至少一个待掩码字符片段；将所述样本文本中所述至少一个待掩码字符片段中的每个所述待掩码字符片段分别替换为一个掩码字符，以得到处理后的样本文本；根据所述待掩码字符片段和所述处理后的样本文本，对语义表示模型进行预训练。根据本公开的另一方面，提供了一种语义表示模型的预训练装置，包括：获取模块，用于获取样本文本中的至少一个待掩码字符片段；替换模块，用于将所述样本文本中所述至少一个待掩码字符片段中的每个所述待掩码字符片段分别替换为一个掩码字符，以得到处理后的样本文本；训练模块，用于根据所述待掩码字符片段和所述处理后的样本文本，对语义表示模型进行预训练。根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一...

【技术保护点】
1.一种语义表示模型的预训练方法，包括：/n获取样本文本中的至少一个待掩码字符片段；/n将所述样本文本中所述至少一个待掩码字符片段中的每个所述待掩码字符片段分别替换为一个掩码字符，以得到处理后的样本文本；/n根据所述待掩码字符片段和所述处理后的样本文本，对语义表示模型进行预训练；/n所述根据所述待掩码字符片段和所述处理后的样本文本，对语义表示模型进行预训练，包括：/n将所述处理后的样本文本输入到语义表示模型中，以得到所述掩码字符的字符预测结果；/n根据所述字符预测结果和所述待掩码字符片段，训练所述语义表示模型；/n所述语义表示模型包括嵌入层、语义表示层和分类层，所述将所述处理后的样本文本输入到语义表示模型中，以得到所述掩码字符的字符预测结果，包括：/n获取所述处理后的样本文本中各个字符的位置向量和字符向量；/n通过所述嵌入层对各个字符的位置向量和字符向量进行联合，以得到各个字符对应的联合向量；/n将所述各个字符对应的联合向量输入到语义表示层，以得到所述掩码字符的语义表示向量；/n将所述掩码字符的语义表示向量输入到所述分类层，以得到所述掩码字符的字符预测结果。/n

【技术特征摘要】
1.一种语义表示模型的预训练方法，包括：
获取样本文本中的至少一个待掩码字符片段；
将所述样本文本中所述至少一个待掩码字符片段中的每个所述待掩码字符片段分别替换为一个掩码字符，以得到处理后的样本文本；
根据所述待掩码字符片段和所述处理后的样本文本，对语义表示模型进行预训练；
所述根据所述待掩码字符片段和所述处理后的样本文本，对语义表示模型进行预训练，包括：
将所述处理后的样本文本输入到语义表示模型中，以得到所述掩码字符的字符预测结果；
根据所述字符预测结果和所述待掩码字符片段，训练所述语义表示模型；
所述语义表示模型包括嵌入层、语义表示层和分类层，所述将所述处理后的样本文本输入到语义表示模型中，以得到所述掩码字符的字符预测结果，包括：
获取所述处理后的样本文本中各个字符的位置向量和字符向量；
通过所述嵌入层对各个字符的位置向量和字符向量进行联合，以得到各个字符对应的联合向量；
将所述各个字符对应的联合向量输入到语义表示层，以得到所述掩码字符的语义表示向量；
将所述掩码字符的语义表示向量输入到所述分类层，以得到所述掩码字符的字符预测结果。

2.根据权利要求1所述的方法，其中，所述分类层包括粗粒度分类子层和细粒度分类子层，所述将所述掩码字符的语义表示向量输入到所述分类层，以得到所述掩码字符的字符预测结果，包括：
将所述掩码字符的语义表示向量输入到所述粗粒度分类子层，以得到所述掩码字符的粗粒度预测结果；
将所述掩码字符的语义表示向量输入到所述细粒度分类子层，以得到所述掩码字符的细粒度预测结果。

3.根据权利要求2所述的方法，其中，所述根据所述字符预测结果和所述待掩码字符片段，训练所述语义表示模型，包括：
根据所述粗粒度预测结果、所述细粒度预测结果和所述待掩码字符片段，确定所述语义表示模型的损失函数值；
根据所述损失函数值，对所述语义表示模型中的所述语义表示层的参数进行调整。

4.根据权利要求3所述的方法，其中，根据所述粗粒度预测结果、所述细粒度预测结果和所述待掩码字符片段，确定所述语义表示模型的损失函数值，包括：
根据所述粗粒度预测结果和所述待掩码字符片段，确定出第一损失函数值；
将所述细粒度预测结果和所述待掩码字符片段中的各个字符进行比较，并根据比较结果，确定出第二损失函数值；
根据所述第一损失函数值和所述第一损失函数值，确定所述语义表示模型的损失函数值。

5.一种语义表示模型的预训练装置，包括：
获取模块，用于获取样本文本中的至少一个待掩码字符片段；
替换模块，用于将所述样本...

【专利技术属性】
技术研发人员：肖东凌，李宇琨，张涵，孙宇，田浩，吴华，王海峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人