【技术实现步骤摘要】
翻译模型的处理方法、装置和计算机可读存储介质
[0001]本公开涉及计算机
,特别涉及一种翻译模型的处理方法、 装置和计算机可读存储介质。
技术介绍
[0002]自回归模型(Autoregressive Model,ARM)广泛用于自然语言 生成(Neural Language Generation,NLG)任务,如机器翻译、对 话回复生成、图像字幕生成和视频描述生成,利用编码
‑
解码器框架 预测以已生成短句为条件的下一个单词。
[0003]针对机器翻译场景,ARM在训练时,真实翻译语句被用作已生 成短句,这迫使模型直接学习真实翻译语句的分布。但在测试或使用 时,已生成短语来自ARM的解码器本身,这与训练时的输入分布是 不同的。
技术实现思路
[0004]专利技术人发现:翻译模型在训练时和测试或使用时输入解码器部分 的数据不同,导致训练得到的翻译模型无法在测试和使用时实现准确 的翻译功能。
[0005]本公开所要解决的一个技术问题是:提高翻译模型训练的准确性。
...
【技术保护点】
【技术特征摘要】
1.一种翻译模型的处理方法,包括:获取多组训练语句,其中,每组训练语句包括:原语句和目标翻译语句;针对每组训练语句,将原语句输入翻译模型的编码器,得到所述原语句的特征向量,并将所述原语句的特征向量输入所述翻译模型的解码器;针对所述解码器生成的除句尾之外每个位置的词语,确定该词语和该词语之前的各个词语组成的已生成语句与所述目标翻译语句之间的语义相似度;根据所述语义相似度选取该词语或者所述目标翻译语句中与该词语相同位置的词语生成下一位置的词语;根据所述解码器生成的各个位置的词语组成的翻译语句与所述目标翻译语句的差异,对所述翻译模型进行训练。2.根据权利要求1所述的处理方法,其中,所述确定该词语和该词语之前的各个词语组成的已生成语句与所述目标翻译语句之间的语义相似度包括:将该词语和该词语之前的各个词语组成的已生成语句与所述目标翻译语句作为语句对,输入基于转换器的双向编码表征BERT模型,得到输出所述语句对的特征向量;将所述语句对的特征向量输入激活函数模块,得到所述已生成语句与所述目标翻译语句的语义相似度。3.根据权利要求1所述的处理方法,其中,所述确定该词语和该词语之前的各个词语组成的已生成语句与所述目标翻译语句之间的语义相似度包括:生成随机数,并将所述随机数与参考值对比,其中,所述参考值位于所述随机数的取值范围内;确定所述随机数是否小于所述参考值,在小于所述参考值的情况下,确定该词语和该词语之前的各个词语组成的已生成语句与所述目标翻译语句之间的语义相似度。4.根据权利要求3所述的处理方法,其中,所述参考值随训练次数的增大而增大。5.根据权利要求1所述的处理方法,其中,所述根据所述语义相似度选取该词语或者所述目标翻译语句中与该词语相同位置的词语生成下一位置的词语包括:在所述语义相似度高于阈值的情况下,根据该词语生成下一位置的词语;在所述语义相似度低于阈值的情况下,根据所述目标翻译语句中与该词语相同位置的词语生成下一位置的词语。6.根据权利要求5所述的处理方法,其中,所述阈值随训练次数的增加而增大。7.根据权利要求1所述的处理方法,其中,所述解码器包括多个解码模块,所述根据所述语义相似度选取该词语或者所述目标翻译语句中与该词语相同位置的词语生成下一位置的词语包括:根据所述语义相似度选取该词语或者所述目标翻译语句中与该词语相同位置的词语,作为输入词语;将该词语对应的解码模块输出的状态,所述输入词语的词向量输入下一位置的词语对应的解码模块,得到输出的下一位置的词语。8.根据权利要求1
‑
7任一项所述的处理方法,还包括:
将待翻译语句输入训练完成的翻译模型,得到对应的翻译语句。9.根据权利要求8所述的处理方法,其中,所述将待翻译语句输入训练完成的翻译模型,得到对应的翻译语句包括:...
【专利技术属性】
技术研发人员:张海楠,陈宏申,邹炎炎,丁卓冶,龙波,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。