语义表示模型的预训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:29615250 阅读:15 留言:0更新日期:2021-08-10 18:30
本公开提供了一种语义表示模型的预训练方法、装置、电子设备和存储介质,涉及计算机技术领域,尤其涉深度学习、自然语言处理等人工智能技术领域。具体实现方案为:通过获取样本文本中的至少一个待掩码字符片段,并将样本文本中的每个待掩码字符片段分别替换为一个掩码字符,以得到处理后的样本文本,从而根据待掩码字符片段和处理后的样本文本,对语义表示模型进行预训练。由此,在语义表示模型的预训练过程中,利用一个掩码字符对样本文本中的一个待掩码字符片段进行掩码,并基于处理后的样本文本和待掩码字符片段对语义表示模型进行预训练,避免了将掩码字符的长度信息提供给模型,提升了预训练模型表示能力的训练效果及模型性能。

【技术实现步骤摘要】
语义表示模型的预训练方法、装置、电子设备和存储介质
本公开涉及计算机
,具体涉及深度学习、自然语言处理等人工智能
,尤其涉及语义表示模型的预训练方法、装置、电子设备和存储介质。
技术介绍
目前,自然语言理解领域的流行技术都取得了良好的效果。相关技术中,一般使用大量的无监督文本进行语义表示模型自监督的预训练学习,再结合任务对应的有监督数据对预训练的语义表示模型进行微调参数。语义表示模型是得到下游自然语言理解任务对应的处理模型的基础。
技术实现思路
本公开提供了一种语义表示模型的预训练方法、装置、设备以及存储介质。根据本公开的一方面,提供了一种语义表示模型的预训练方法,包括:获取样本文本中的至少一个待掩码字符片段;将所述样本文本中所述至少一个待掩码字符片段中的每个所述待掩码字符片段分别替换为一个掩码字符,以得到处理后的样本文本;根据所述待掩码字符片段和所述处理后的样本文本,对语义表示模型进行预训练。根据本公开的另一方面,提供了一种语义表示模型的预训练装置,包括:获取模块,用于获取样本文本中的至少一个待掩码字符片段;替换模块,用于将所述样本文本中所述至少一个待掩码字符片段中的每个所述待掩码字符片段分别替换为一个掩码字符,以得到处理后的样本文本;训练模块,用于根据所述待掩码字符片段和所述处理后的样本文本,对语义表示模型进行预训练。根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的语义表示模型的预训练方法。根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例申请的电子设备的语义表示模型的预训练方法。根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本公开的语义表示模型的预训练方法。上述申请中的一个实施例具有如下优点或有益效果:通过获取样本文本中的至少一个待掩码字符片段,并将样本文本中的每个待掩码字符片段分别替换为一个掩码字符,以得到处理后的样本文本,从而根据待掩码字符片段和处理后的样本文本,对语义表示模型进行预训练。由此,在语义表示模型的预训练过程中,利用一个掩码字符对样本文本中的一个待掩码字符片段进行掩码,并基于处理后的样本文本和待掩码字符片段对语义表示模型进行预训练,避免了将掩码字符的长度信息提供给模型,提升了预训练模型表示能力的训练效果及模型性能。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是根据本公开一个实施例提供的一种语义表示模型的预训练方法的流程示意图;图2是根据本公开另一个实施例提供的一种语义表示模型的预训练方法的流程示意图;图3是根据本公开另一个实施例提供的语义表示模型的模型结构的示例图;图4是根据本公开一个实施例提供的一种语义表示模型的预训练装置的结构示意图;图5是根据本公开另一个实施例提供的一种语义表示模型的预训练装置的结构示意图;图6是用来实现本公开实施例的语义表示模型的预训练方法的电子设备的框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。下面参考附图描述本公开实施例的语义表示模型的预训练方法、装置、电子设备和存储介质。图1是根据本公开一个实施例提供的一种语义表示模型的预训练方法的流程示意图。其中,需要说明的是,本实施例的语义表示模型的预训练方法的执行主体为语义表示模型的预训练装置,语义表示模型的预训练装置可以由软件和/或硬件的方式实现,该实施例中的语义表示模型的预训练装置可以配置在服务器中,也可以配置在用于对服务器设备进行控制的电子设备中。如图1所示,该语义表示模型的预训练方法可以包括:步骤S101,获取样本文本中的至少一个待掩码字符片段。其中,样本文本可以为由文字、数字和符号等字符所组成的文本数据。在本实施例中,上述样本文本中待掩码字符片段可以为一段或者多段,该实施例对此不作具体限定。其中,上述待掩码字符片段中包括多个连续的字符。步骤S102,将样本文本中至少一个待掩码字符片段中的每个待掩码字符片段分别替换为一个掩码字符,以得到处理后的样本文本。其中,掩码字符可以是随机字符,或者是语义表示模型的预训练装置中预先设置的指定字符,该实施例对掩码字符不作具体限定。步骤S103,根据待掩码字符片段和处理后的样本文本,对语义表示模型进行预训练。在一些实施例中,把处理后的掩码文本以及待掩码字符片段输入到语义训练模型中进行预训练,以得到预训练后的语义表示模型。本公开提供了一种语义表示模型的预训练方法,通过获取样本文本中的至少一个待掩码字符片段,并将样本文本中的每个待掩码字符片段分别替换为一个掩码字符,以得到处理后的样本文本,从而根据待掩码字符片段和处理后的样本文本,对语义表示模型进行预训练。由此,在语义表示模型的预训练过程中,利用一个掩码字符对样本文本中的一个待掩码字符片段进行掩码,并基于处理后的样本文本和待掩码字符片段对语义表示模型进行预训练,避免了将掩码字符的长度信息提供给模型,提升了预训练模型表示能力的训练效果及模型性能。图2是根据本公开另一个实施例提供的一种语义表示模型的预训练方法的流程示意图。如图2所示,该语义表示模型的预训练方法可以包括:步骤S201,获取样本文本中的至少一个待掩码字符片段。步骤S202,将样本文本中至少一个待掩码字符片段中的每个待掩码字符片段分别替换为一个掩码字符,以得到处理后的样本文本。其中,需要说明的是,关于步骤S201至步骤S202的具体实现方式,可参见上述实施例中的相关描述。步骤S203,将处理后的样本文本输入到语义表示模型中,以得到掩码字符的字符预测结果。在本公开的一些实施例中,上述语义表示模型可以包括嵌入层、语义表示层和分类层,具体地,在获取处理后的样本文本后,可获取处理后的样本文本中各个字符的位置向量和字符向量,并将嵌入层对各个字符的位置向量和字符向量进行联合,以得到各个字符对应的联合向量,并将各个字符对应的联合向量输入到语义表示层,以得到掩码字符的语义表示向量,并将掩码字符的语义表示向量输入到分类层,以得到掩码字符的字符预测结果。在一些实施例本文档来自技高网...

【技术保护点】
1.一种语义表示模型的预训练方法,包括:/n获取样本文本中的至少一个待掩码字符片段;/n将所述样本文本中所述至少一个待掩码字符片段中的每个所述待掩码字符片段分别替换为一个掩码字符,以得到处理后的样本文本;/n根据所述待掩码字符片段和所述处理后的样本文本,对语义表示模型进行预训练;/n所述根据所述待掩码字符片段和所述处理后的样本文本,对语义表示模型进行预训练,包括:/n将所述处理后的样本文本输入到语义表示模型中,以得到所述掩码字符的字符预测结果;/n根据所述字符预测结果和所述待掩码字符片段,训练所述语义表示模型;/n所述语义表示模型包括嵌入层、语义表示层和分类层,所述将所述处理后的样本文本输入到语义表示模型中,以得到所述掩码字符的字符预测结果,包括:/n获取所述处理后的样本文本中各个字符的位置向量和字符向量;/n通过所述嵌入层对各个字符的位置向量和字符向量进行联合,以得到各个字符对应的联合向量;/n将所述各个字符对应的联合向量输入到语义表示层,以得到所述掩码字符的语义表示向量;/n将所述掩码字符的语义表示向量输入到所述分类层,以得到所述掩码字符的字符预测结果。/n

【技术特征摘要】
1.一种语义表示模型的预训练方法,包括:
获取样本文本中的至少一个待掩码字符片段;
将所述样本文本中所述至少一个待掩码字符片段中的每个所述待掩码字符片段分别替换为一个掩码字符,以得到处理后的样本文本;
根据所述待掩码字符片段和所述处理后的样本文本,对语义表示模型进行预训练;
所述根据所述待掩码字符片段和所述处理后的样本文本,对语义表示模型进行预训练,包括:
将所述处理后的样本文本输入到语义表示模型中,以得到所述掩码字符的字符预测结果;
根据所述字符预测结果和所述待掩码字符片段,训练所述语义表示模型;
所述语义表示模型包括嵌入层、语义表示层和分类层,所述将所述处理后的样本文本输入到语义表示模型中,以得到所述掩码字符的字符预测结果,包括:
获取所述处理后的样本文本中各个字符的位置向量和字符向量;
通过所述嵌入层对各个字符的位置向量和字符向量进行联合,以得到各个字符对应的联合向量;
将所述各个字符对应的联合向量输入到语义表示层,以得到所述掩码字符的语义表示向量;
将所述掩码字符的语义表示向量输入到所述分类层,以得到所述掩码字符的字符预测结果。


2.根据权利要求1所述的方法,其中,所述分类层包括粗粒度分类子层和细粒度分类子层,所述将所述掩码字符的语义表示向量输入到所述分类层,以得到所述掩码字符的字符预测结果,包括:
将所述掩码字符的语义表示向量输入到所述粗粒度分类子层,以得到所述掩码字符的粗粒度预测结果;
将所述掩码字符的语义表示向量输入到所述细粒度分类子层,以得到所述掩码字符的细粒度预测结果。


3.根据权利要求2所述的方法,其中,所述根据所述字符预测结果和所述待掩码字符片段,训练所述语义表示模型,包括:
根据所述粗粒度预测结果、所述细粒度预测结果和所述待掩码字符片段,确定所述语义表示模型的损失函数值;
根据所述损失函数值,对所述语义表示模型中的所述语义表示层的参数进行调整。


4.根据权利要求3所述的方法,其中,根据所述粗粒度预测结果、所述细粒度预测结果和所述待掩码字符片段,确定所述语义表示模型的损失函数值,包括:
根据所述粗粒度预测结果和所述待掩码字符片段,确定出第一损失函数值;
将所述细粒度预测结果和所述待掩码字符片段中的各个字符进行比较,并根据比较结果,确定出第二损失函数值;
根据所述第一损失函数值和所述第一损失函数值,确定所述语义表示模型的损失函数值。


5.一种语义表示模型的预训练装置,包括:
获取模块,用于获取样本文本中的至少一个待掩码字符片段;
替换模块,用于将所述样本...

【专利技术属性】
技术研发人员:肖东凌李宇琨张涵孙宇田浩吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1