语言处理方法、装置及存储介质制造方法及图纸

技术编号:36691058 阅读:47 留言:0更新日期:2023-02-27 19:58
本申请涉及自然语言处理领域,尤其涉及一种语言处理方法、装置及存储介质。所述方法包括:获取目标语言处理任务的待处理文本和第一提示信息,第一提示信息为任意长度的文本序列;将第一提示信息编码成第二提示信息,第二提示信息为固定长度的向量组;将第二提示信息与待处理文本进行拼接处理,得到拼接后的待处理文本;将拼接后的待处理文本输入至预先训练完成的目标语言模型中进行处理。本申请实施例设计并实现了一种方案,将任意长度的第一提示信息编码成固定长度的第二提示信息,将第二提示信息与待处理文本进行拼接后进行语言处理,解决了提示信息的长度严重受限于预训练语言模型的输入最大长度的问题,提升了语言处理效果。果。果。

【技术实现步骤摘要】
语言处理方法、装置及存储介质


[0001]本申请涉及自然语言处理(Natural Language Process,NLP)领域,尤其涉及一种语言处理方法、装置及存储介质。

技术介绍

[0002]语言模型(Language Model,LM)是对自然语言的文本序列的建模,目前一般使用神经网络进行建模。语言处理方法包括通过神经网络模型来预测一个自然语言的文本序列出现的概率,以条件生成语言模型为例,即给定自然语言文本序列的前半段,来预测后半段自然语言文本出现的概率,从而可以通过语言模型来解决一些自然语言处理任务。比如,自然语言处理任务为预测一句评价是好评还是差评,则在获取到给定的评价后,通过语言模型预测“这是一条好评”的概率和“这是一条差评”的概率,根据预测的概率大小确定该评价是好评还是差评。
[0003]语言模型的预训练(英文:Pre

train)是采用大量自然语言的文本序列对语言模型进行训练的过程。预训练语言模型是通过预训练方式获得的预测一个自然语言文本序列出现的概率的语言模型。但是,直接使用预训练语言模型(Pre<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语言处理方法,其特征在于,所述方法包括:获取目标语言处理任务的待处理文本和第一提示信息,所述第一提示信息为任意长度的文本序列,所述第一提示信息包括所述目标语言处理任务的描述信息和/或任务样例;将所述第一提示信息编码成第二提示信息,所述第二提示信息为固定长度的向量组;将所述第二提示信息与所述待处理文本进行拼接处理,得到拼接后的待处理文本;将所述拼接后的待处理文本输入至预先训练完成的目标语言模型中进行处理。2.根据权利要求1所述的方法,其特征在于,所述将所述第一提示信息编码成第二提示信息,包括:根据所述第一提示信息,调用预先训练完成的编码模型输出得到所述第二提示信息,所述编码模型用于将任意长度的文本序列编码成固定长度的向量组。3.根据权利要求2所述的方法,其特征在于,所述编码模型包括目标生成器和目标感知器,所述根据所述第一提示信息,调用预先训练完成的编码模型输出得到所述第二提示信息,包括:将所述第一提示信息进行向量化得到第一向量组;将所述第一向量组和目标模型参数输入至所述目标生成器中,输出得到固定长度的第二向量组,所述目标生成器包括用于进行向量融合的神经网络;将所述第二向量组输入至目标感知器中,输出得到固定长度的所述第二提示信息,所述目标感知器包括用于进行向量维度变换的神经网络。4.根据权利要求3所述的方法,其特征在于,所述编码模型还包括文本编码器,所述第一提示信息包括多个任务样例,所述将所述第一提示信息进行向量化得到第一向量组,包括:将所述第一提示信息进行拆分得到所述多个任务样例;对于所述多个任务样例中的每个任务样例,将所述任务样例输入至所述文本编码器中,输出得到第三向量组,所述文本编码器包括用于将文本序列进行向量化的神经网络;将所述多个任务样例各自对应的所述第三向量组进行合并,得到所述第一向量组。5.根据权利要求3所述的方法,其特征在于,所述编码模型还包括文本编码器,所述将所述第一提示信息进行向量化得到第一向量组,包括:将所述第一提示信息输入至所述文本编辑器中,输出得到所述第一向量组,所述文本编码器包括用于将文本序列进行向量化的...

【专利技术属性】
技术研发人员:王亚岛蒋欣糜飞王雅圣
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1