一种信息处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:23315570 阅读:17 留言:0更新日期:2020-02-11 17:58
本公开是关于一种信息处理方法、装置、计算机设备及存储介质,所述方法包括:利用机器翻译模型的编码器对待翻译词句进行编码,得到编码信息;保存所述全局注意力参数;利用所述机器翻译模型的解码器,在所述待翻译词句中每一个词语的所述编码信息的解码循环中,根据所述全局注意力参数确定所述解码器的全局注意力;根据所述全局注意力获得对应所述解码循环中所要预测的词语的预测结果。由于会将解码时需要用到的全局注意力参数保存起来,因此,在解码器需要利用全局注意力参数确定全局注意力时可以直接调取存储的全局注意力参数,而不需要再次通过处理编码信息得到全局注意力参数,减少解码过程中的计算量;从而提高机器翻译模型的推理效率。

An information processing method, device, computer equipment and storage medium

【技术实现步骤摘要】
一种信息处理方法、装置、计算机设备及存储介质
本公开涉及计算机
,尤其涉及信息处理方法、装置、计算机设备及存储介质。
技术介绍
机器翻译模型是由编码器和解码器构成,其中,编码器用于对输入的句子进行编码,输入到解码器,解码器用于从前向后根据编码器的输出和前面已经翻译的结果进行下一步的推理或预测。相关技术中,机器翻译模型在工作时需要处理较多的数据量,因而导致利用机器翻译模型进行推理或预测的效率低等问题。
技术实现思路
根据本公开实施例的第一方面,提供一种信息处理方法,包括:利用机器翻译模型的编码器对待翻译词句进行编码,得到所述编码信息;基于所述编码信息,获取并存储全局注意力参数;利用所述机器翻译模型的解码器,在所述待翻译词句中每一个词语的所述编码信息的解码循环中,根据所述全局注意力参数确定所述解码器的全局注意力;根据所述全局注意力获得对应所述解码循环中所要预测的词语的预测结果。可选地,所述全局注意力参数还包括至少以下之一:基于所述待翻译词句中每一个词语的所述编码信息中的第一序本文档来自技高网...

【技术保护点】
1.一种信息处理方法,其特征在于,包括:/n利用机器翻译模型的编码器对待翻译词句进行编码,得到编码信息;/n基于所述编码信息,获取并存储全局注意力参数;/n利用所述机器翻译模型的解码器,在所述待翻译词句中每一个词语的所述编码信息的解码循环中,根据所述全局注意力参数确定所述解码器的全局注意力;/n根据所述全局注意力获得对应所述解码循环中所要预测的词语的预测结果。/n

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:
利用机器翻译模型的编码器对待翻译词句进行编码,得到编码信息;
基于所述编码信息,获取并存储全局注意力参数;
利用所述机器翻译模型的解码器,在所述待翻译词句中每一个词语的所述编码信息的解码循环中,根据所述全局注意力参数确定所述解码器的全局注意力;
根据所述全局注意力获得对应所述解码循环中所要预测的词语的预测结果。


2.根据权利要求1所述的方法,其特征在于,所述全局注意力参数还包括至少以下之一:
基于所述待翻译词句中每一个词语的所述编码信息中的第一序列向量进行线性变换后得到的第二序列向量;
基于所述待翻译词句中每一个词语的所述编码信息中的第一内容向量进行线性变换后得到的第二内容向量。


3.根据权利要求1所述的方法,其特征在于,所述机器翻译模型包括N个编码器,所述N为编码器的总层数,所述N为大于或等于2的正整数;
所述利用机器翻译模型的编码器对待翻译词句进行编码,得到编码信息,包括:
利用所述机器翻译模型中第n层的所述编码器对第n-1层的所述编码器输出的第n-1层的第一编码信息进行编码,得到第n层的所述第二编码信息;
所述基于所述编码信息,获取并存储全局注意力参数,包括:
基于对应第n层的所述第二编码信息,获取并存储对应第n层的第一全局注意力参数以及第n层的层编号;其中,n为大于或等于2且小于或等于N的正整数。


4.根据权利要求3所述的方法,其特征在于,所述机器翻译模型包括N个解码器,所述N为解码器的总层数;
所述方法还包括:
根据当前所在解码器的第n层的层编号,读取与第n层编码器的层编号对应保存的第n层的所述第一全局注意力参数;
所述利用机器翻译模型的解码器,在所述待翻译词句中每一个词语的所述编码信息的解码循环中,根据所述全局注意力参数确定所述解码器的全局注意力,包括:
利用所述机器翻译模型中第n层所述解码器,在所述待翻译词句中每一个词语的第n层的第二编码信息的解码循环中,根据第n层的所述第一全局注意力参数确定所述第n层的所述解码器的第一全局注意力。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述机器翻译模型的所述编码器和/或所述解码器中至少一层的归一化运算中的R个第一归一化算子;其中,所述R为大于或等于2的正整数;
将所述第一归一化算子等效转换成第二归一化算子,其中,所述第二归一化算子的运算次数少于所述第一归一化算子的运算次数;
利用所述S个所述第二归一化算子执行所述归一化运算;其中,所述S为小于R的正整数。


6.根据权利要求5所述的方法,其特征在于,所述将所述第一归一化算子等效转换成第二归一化算子,包括:
将R个所述第一归一化算子对应的第一变量转换成向量;
根据所述向量,确定S个所述第二归一化算子。


7.一种信息处理装置,其特征在于,包括:
得到模块,被配置为利用机器翻译模型的编码器对待翻译词句进行编码,得到编码信息;
获取模块,被配置为基于所述编码信息,获取并存储全局注意力参数;
确定模块,被配置为利用所述机器翻译模型的解码器,在所述待翻译词句中每一...

【专利技术属性】
技术研发人员:吴晓琳
申请(专利权)人:北京小米智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1