机器翻译方法、装置、设备及存储介质制造方法及图纸

技术编号:33348136 阅读:69 留言:0更新日期:2022-05-08 09:47
本公开是关于一种机器翻译方法、装置、设备及存储介质,该方法包括:获取当前待翻译语句的源文本序列;将所述源文本序列及历史语句输入预先训练好的检测模型进行检测,得到处理后的源文本序列;将所述处理后的源文本序列输入至预先训练好的翻译模型中,得到与所述当前待翻译语句对应的目标文本序列,所述目标文本序列为所述源文本序列对应的翻译结果。本公开可以降低语音识别结果所受到的讲话者口音等因素的影响,提高语音识别结果的准确性,进而提高后续对语音识别结果进行翻译的准确性,从而可以提高机器翻译的质量,满足用户的需求。满足用户的需求。满足用户的需求。

【技术实现步骤摘要】
机器翻译方法、装置、设备及存储介质


[0001]本公开涉及神经机器翻译
,尤其涉及一种机器翻译方法、装置、设备及存储介质。

技术介绍

[0002]目前,机器同传通常是先利用语音识别技术将讲话者的讲话内容实时转化为源文本,然后利用机器将该源文本翻译为目标文本,最后显示在屏幕上或者通过语音合成将目标文本播放出来。
[0003]然而上述方案中,由于语音识别过程容易受到讲话者的口音等因素的影响,导致语音识别出的源文本中存在错误,进而会影响后续基于该源文本进行机器翻译得到的目标文本的准确性,无法满足人们对于机器翻译的高质量需求。

技术实现思路

[0004]为克服相关技术中存在的问题,本公开实施例提供一种机器翻译方法、装置、设备及存储介质,用以解决相关技术中的缺陷。
[0005]根据本公开实施例的第一方面,提供一种机器翻译方法,所述方法包括:
[0006]获取当前待翻译语句的源文本序列;
[0007]将所述源文本序列及历史语句输入预先训练好的检测模型进行检测,得到处理后的源文本序列,所述历史语句包括所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种机器翻译方法,其特征在于,所述方法包括:获取当前待翻译语句的源文本序列;将所述源文本序列及历史语句输入预先训练好的检测模型进行检测,得到处理后的源文本序列,所述历史语句包括所述当前待翻译语句之前已翻译的语句,所述检测模型用于检测所述源文本序列中的文本是否为错误文本;将所述处理后的源文本序列输入至预先训练好的翻译模型中,得到与所述当前待翻译语句对应的目标文本序列,所述目标文本序列为所述源文本序列对应的翻译结果。2.根据权利要求1所述的方法,其特征在于,所述将所述源文本序列及历史语句输入预先训练好的检测模型进行检测,包括:确定所述源文本序列中每个文本的发音信息,并将所述每个文本的发音信息组成发音信息序列;将所述发音信息序列和所述历史语句的目标文本序列输入至所述检测模型,得到所述检测模型预测的所述源文本序列中每个文本为正确文本的概率;将所述概率小于或等于设定概率阈值的文本,确认为错误文本。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:将所述源文本序列中的错误文本替换为相应的发音信息,得到处理后的源文本序列。4.根据权利要求2所述的方法,其特征在于,所述将所述发音信息序列和所述历史语句的目标文本序列输入至所述检测模型,得到所述检测模型预测的所述源文本序列中每个文本为正确文本的概率,包括:基于检测模型确定所述发音信息序列和所述历史语句的目标文本序列中的每个文本的目标向量;基于所述目标向量对应于所述检测模型中的编码器输出所述源文本序列中每个文本为正确文本的概率,所述目标向量包括所述文本的词语编码表示子向量、区块编码表示子向量以及位置编码表示子向量。5.根据权利要求1所述的方法,其特征在于,所述方法还包括预先基于以下方式训练所述检测模型:获取样本待翻译语句的样本源语料;确定所述样本源语料中每个样本源文本的发音信息,并将所述每个样本源文本的发音信息组成样本发音语料;获取所述样本发音语料中每个发音信息对应的样本目标文本,并将所述每个发音信息对应的样本目标文本组成样本目标语料;基于所述样本发音语料、所述样本目标语料以及样本历史语句的样本历史目标语料,训练所述检测模型,所述样本历史语句包括所述样本待翻译语句之前的已翻译语句。6.根据权利要求1所述的方法,其特征在于,所述方法还包括预先基于以下方式训练所述翻译模型:获取第一样本数据,所述第一样本数据包括源语料和对应的目标语料,所述...

【专利技术属性】
技术研发人员:李响穆畅
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1