本申请涉及自然语言处理领域,尤其涉及一种语言处理方法、装置及存储介质。所述方法包括:获取目标语言处理任务的待处理文本和第一提示信息,第一提示信息为任意长度的文本序列;将第一提示信息编码成第二提示信息,第二提示信息为固定长度的向量组;将第二提示信息与待处理文本进行拼接处理,得到拼接后的待处理文本;将拼接后的待处理文本输入至预先训练完成的目标语言模型中进行处理。本申请实施例设计并实现了一种方案,将任意长度的第一提示信息编码成固定长度的第二提示信息,将第二提示信息与待处理文本进行拼接后进行语言处理,解决了提示信息的长度严重受限于预训练语言模型的输入最大长度的问题,提升了语言处理效果。果。果。
【技术实现步骤摘要】
语言处理方法、装置及存储介质
[0001]本申请涉及自然语言处理(Natural Language Process,NLP)领域,尤其涉及一种语言处理方法、装置及存储介质。
技术介绍
[0002]语言模型(Language Model,LM)是对自然语言的文本序列的建模,目前一般使用神经网络进行建模。语言处理方法包括通过神经网络模型来预测一个自然语言的文本序列出现的概率,以条件生成语言模型为例,即给定自然语言文本序列的前半段,来预测后半段自然语言文本出现的概率,从而可以通过语言模型来解决一些自然语言处理任务。比如,自然语言处理任务为预测一句评价是好评还是差评,则在获取到给定的评价后,通过语言模型预测“这是一条好评”的概率和“这是一条差评”的概率,根据预测的概率大小确定该评价是好评还是差评。
[0003]语言模型的预训练(英文:Pre
‑
train)是采用大量自然语言的文本序列对语言模型进行训练的过程。预训练语言模型是通过预训练方式获得的预测一个自然语言文本序列出现的概率的语言模型。但是,直接使用预训练语言模型(Pre
‑
trained Language Model,PLM)来解决自然语言处理任务,效果一般较差。因此,针对某个具体的自然语言处理任务,根据该自然语言处理任务的训练样本对预训练语言模型进行全参微调,使得全参微调后的语言模型能够很好地解决该自然语言处理任务。但是,全参微调既需要训练样本又需要大量计算资源,同时全参微调后的模型参数的保存也需要占用存储空间。那么,针对大量的自然语言处理任务,则需要消耗大量的资源。随着语言模型的参数量越来越大,以及大规模语言模型的出现,使得全参微调的资源消耗量陡增。因此,为了提高直接使用预训练语言模型来解决自然语言处理任务的效果,目前通常采用的方式为:在每个待预测文本前拼接提示信息,然后将待预测文本和拼接的提示信息一起送入预训练语言模型中进行预测。
[0004]基于提示信息的方法,在解决自然语言处理任务上,不需要使用计算资源进行微调,所有的自然语言处理任务共用一个预训练语言模型,既节省了计算资源,又节省了存储空间。但是,此方法在自然语言处理任务上的效果还有很大的提升空间,并且效果还依赖提示信息的长度。同时,提示信息的长度严重受限于预训练语言模型的输入最大长度,无法验证更长的提示信息是否能带来更好的语言处理效果。
技术实现思路
[0005]有鉴于此,提出了一种语言处理方法、装置及存储介质。本申请实施例设计并实现了一种方案,将任意长度的第一提示信息编码成固定长度的第二提示信息,将第二提示信息与待处理文本进行拼接,一起送入预训练语言模型进行处理,解决了提示信息的长度严重受限于预训练语言模型的输入最大长度的问题,同时提升了预训练语言模型应用在自然语言处理任务上的效果。在解决自然语言处理任务上,保留了上述基于提示信息的方法的优势,同时可以使用更长的提示信息,并取得更好的语言处理效果。
[0006]第一方面,本申请的实施例提供了一种语言处理方法,所述方法包括:
[0007]获取目标语言处理任务的待处理文本和第一提示信息,所述第一提示信息为任意长度的文本序列,所述第一提示信息包括所述目标语言处理任务的描述信息和/或任务样例;
[0008]将所述第一提示信息编码成第二提示信息,所述第二提示信息为固定长度的向量组;
[0009]将所述第二提示信息与所述待处理文本进行拼接处理,得到拼接后的待处理文本;
[0010]将所述拼接后的待处理文本输入至预先训练完成的目标语言模型中进行处理。
[0011]在该实现方式中,通过获取目标语言处理任务的待处理文本和第一提示信息,第一提示信息为任意长度的文本序列,第一提示信息包括目标语言处理任务的描述信息和/或任务样例;将第一提示信息编码成第二提示信息,第二提示信息为固定长度的向量组;将第二提示信息与待处理文本进行拼接处理,得到拼接后的待处理文本;将拼接后的待处理文本输入至预先训练完成的目标语言模型中进行处理;解决了提示信息的长度严重受限于预训练语言模型的输入最大长度的问题,可以在基于提示信息的该方法中使用更长的第一提示信息,提升了语言模型应用在自然语言处理任务上的语言处理效果。
[0012]在一种可能的实现方式中,所述将所述第一提示信息编码成第二提示信息,包括:
[0013]根据所述第一提示信息,调用预先训练完成的编码模型输出得到所述第二提示信息,所述编码模型用于将任意长度的文本序列编码成固定长度的向量组。
[0014]在该实现方式中,根据第一提示信息,调用预先训练完成的编码模型输出得到第二提示信息,从而将任意长度的文本序列编码成固定长度的向量组,即将自然语言文本序列中蕴含的信息融合到定长的一个向量组中,解决了拼接在待处理文本中的提示信息的长度受限的问题。
[0015]在另一种可能的实现方式中,所述编码模型包括目标生成器和目标感知器,所述根据所述第一提示信息,调用预先训练完成的编码模型输出得到所述第二提示信息,包括:
[0016]将所述第一提示信息进行向量化得到第一向量组;
[0017]将所述第一向量组和目标模型参数输入至所述目标生成器中,输出得到固定长度的第二向量组,所述目标生成器包括用于进行向量融合的神经网络;
[0018]将所述第二向量组输入至目标感知器中,输出得到固定长度的所述第二提示信息,所述目标感知器包括用于进行向量维度变换的神经网络。
[0019]在该实现方式中,将第一提示信息进行向量化得到第一向量组;将第一向量组和目标模型参数输入至目标生成器中,输出得到固定长度的第二向量组,目标生成器包括用于进行向量融合的神经网络;将第二向量组输入至目标感知器中,输出得到固定长度的第二提示信息,目标感知器包括用于进行向量维度变换的神经网络;提供了编码模型的一种可能的网络结构设计,以便将任意长度的文本序列编码成固定长度的向量组。
[0020]在另一种可能的实现方式中,所述编码模型还包括文本编码器,所述第一提示信息包括多个任务样例,所述将所述第一提示信息进行向量化得到第一向量组,包括:
[0021]将所述第一提示信息进行拆分得到所述多个任务样例;
[0022]对于所述多个任务样例中的每个任务样例,将所述任务样例输入至所述文本编码
器中,输出得到第三向量组,所述文本编码器包括用于将文本序列进行向量化的神经网络;
[0023]将所述多个任务样例各自对应的所述第三向量组进行合并,得到所述第一向量组。
[0024]在该实现方式中,将第一提示信息进行拆分得到多个任务样例;对于多个任务样例中的每个任务样例,将任务样例输入至文本编码器中,输出得到第三向量组,文本编码器包括用于将文本序列进行向量化的神经网络;将多个任务样例各自对应的第三向量组进行合并,得到第一向量组;提供了一种可能的将第一提示信息进行向量化的方法,以便后续可以基于向量化提示即第二提示信息使用语言模型。
[0025]在另一本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语言处理方法,其特征在于,所述方法包括:获取目标语言处理任务的待处理文本和第一提示信息,所述第一提示信息为任意长度的文本序列,所述第一提示信息包括所述目标语言处理任务的描述信息和/或任务样例;将所述第一提示信息编码成第二提示信息,所述第二提示信息为固定长度的向量组;将所述第二提示信息与所述待处理文本进行拼接处理,得到拼接后的待处理文本;将所述拼接后的待处理文本输入至预先训练完成的目标语言模型中进行处理。2.根据权利要求1所述的方法,其特征在于,所述将所述第一提示信息编码成第二提示信息,包括:根据所述第一提示信息,调用预先训练完成的编码模型输出得到所述第二提示信息,所述编码模型用于将任意长度的文本序列编码成固定长度的向量组。3.根据权利要求2所述的方法,其特征在于,所述编码模型包括目标生成器和目标感知器,所述根据所述第一提示信息,调用预先训练完成的编码模型输出得到所述第二提示信息,包括:将所述第一提示信息进行向量化得到第一向量组;将所述第一向量组和目标模型参数输入至所述目标生成器中,输出得到固定长度的第二向量组,所述目标生成器包括用于进行向量融合的神经网络;将所述第二向量组输入至目标感知器中,输出得到固定长度的所述第二提示信息,所述目标感知器包括用于进行向量维度变换的神经网络。4.根据权利要求3所述的方法,其特征在于,所述编码模型还包括文本编码器,所述第一提示信息包括多个任务样例,所述将所述第一提示信息进行向量化得到第一向量组,包括:将所述第一提示信息进行拆分得到所述多个任务样例;对于所述多个任务样例中的每个任务样例,将所述任务样例输入至所述文本编码器中,输出得到第三向量组,所述文本编码器包括用于将文本序列进行向量化的神经网络;将所述多个任务样例各自对应的所述第三向量组进行合并,得到所述第一向量组。5.根据权利要求3所述的方法,其特征在于,所述编码模型还包括文本编码器,所述将所述第一提示信息进行向量化得到第一向量组,包括:将所述第一提示信息输入至所述文本编辑器中,输出得到所述第一向量组,所述文本编码器包括用于将文本序列进行向量化的...
【专利技术属性】
技术研发人员:王亚岛,蒋欣,糜飞,王雅圣,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。