【技术实现步骤摘要】
一种机器翻译方法、装置、电子设备及存储介质
本申请一般涉及自然语言处理
,具体涉及一种机器翻译方法、装置、电子设备及存储介质。
技术介绍
神经机器翻译(NeuralMachineTranslation,NMT)是指直接采用神经网络,以端到端方式进行翻译建模的机器翻译方法。早期的神经机器翻译采用词级别作为建模单元,而由于在大规模双语训练过程中,考虑到存储和效率的问题,词表只包含源语言或者目标语言中词频最高的词,这就会导致出现大量集外词(OutofVocabulary,OOV),造成翻译质量较低。目前,相关技术中以子词(Subword)作为文本建模单元,通过字节对编码(BytePairEncoding,BPE)方式来消除集外词,同时由于采用较小的词表,保证了模型可训练以及解码的速度。然而,在实现本专利技术的过程中,专利技术人发现相关技术至少存在如下问题:字节对编码方式在将原本的整词(WholeWord)文本序列转换为子词(Subword)文本序列之后,每个子词成为一个独立的“词语”,使得来源于一个整词的各个 ...
【技术保护点】
1.一种机器翻译方法,其特征在于,所述方法包括:/n获取待翻译源语句;/n将所述待翻译源语句的第一复合子词向量输入预先训练的机器翻译模型,确定所述待翻译源语句对应的目标译文语句;/n其中,所述第一复合子词向量根据所述待翻译源语句的第一子词序列与第一子词边界序列得到,所述第一子词边界序列用于表征所述第一子词序列中各个子词在对应整词内的位置。/n
【技术特征摘要】
1.一种机器翻译方法,其特征在于,所述方法包括:
获取待翻译源语句;
将所述待翻译源语句的第一复合子词向量输入预先训练的机器翻译模型,确定所述待翻译源语句对应的目标译文语句;
其中,所述第一复合子词向量根据所述待翻译源语句的第一子词序列与第一子词边界序列得到,所述第一子词边界序列用于表征所述第一子词序列中各个子词在对应整词内的位置。
2.根据权利要求1所述的机器翻译方法,其特征在于,所述机器翻译模型通过如下步骤训练而成:
根据对源语言语句和所述源语言语句对应的目标语言语句进行词语切分得到的整词序列,学习BPE编码规则,所述BPE编码规则包括源语言BPE编码规则和目标语言BPE编码规则;
基于所述源语言BPE编码规则确定所述源语言语句的第二复合子词向量,所述第二复合子词向量根据所述源语言语句的第二子词序列和第二子词边界序列得到;以及,基于所述目标语言BPE编码规则确定所述目标语言语句的第二子词序列;
根据所述源语言语句的第二复合子词向量与所述目标语言语句的第二子词序列进行编码和解码训练,得到所述机器翻译模型。
3.根据权利要求2所述的机器翻译方法,其特征在于,所述基于所述源语言BPE编码规则确定所述源语言语句的第二复合子词向量,所述第二复合子词向量根据所述源语言语句的第二子词序列和第二子词边界序列得到,包括:
根据所述源语言BPE编码规则,对所述源语言语句的整词序列再次进行切分,得到所述源语言语句的第二子词序列;
标注所述源语言语句的第二子词序列中各个子词在对应整词内的位置,得到所述第二子词边界序列;
转换所述源语言语句的第二子词序列为所述源语言语句的第二子词向量,以及所述第二子词边界序列为第二子词边界向量;
将所述源语言语句的第二子词向量与所述第二子词边界向量相加,生成所述第二复合子词向量。
4.根据权利要求3所述的机器翻译方法,其特征在于,所述第二子词边界序列包括源语言词表的位置标签。
5.根据权利要求1所述的机器翻译方法,其特征在于,所述第一复合子词向量根据所述待翻译源语句的第一子词序列与第一子词边界序列得到,包括:
根据源语言BPE编码规则,将所述待翻译源语句经过词语切分得到的整词序列转换为所述第一子词序列;
根据源语言词表的位置标签,对所述第一子词序列中各个子词在对应整词内的位置进行标注,得到所述第一子词边界序列;
分别转换所述第一子词序列为第一子词向量,以及所述第一子词边界序列为第一子词边界向量;
将所述第一子词向量与所述第一子词边界向量相加,生成所述第一复合子词向量。
6.一种机器翻译装置,其特征在于,所述装置包括:
获取模块,配置用于获取待翻译源语句;
翻译模块,配置用于将所述待翻译源语句的第一复合子词向量输入预先训练的机器翻译...
【专利技术属性】
技术研发人员:李响,
申请(专利权)人:北京小米松果电子有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。