一种基于K近邻的机器翻译方法、装置及介质制造方法及图纸

技术编号:32124564 阅读:25 留言:0更新日期:2022-01-29 19:12
本发明专利技术公开了一种基于K近邻的机器翻译方法、装置、介质及设备,属于语言翻译技术领域,主要包括:获取待翻译句子中每个源语言词的源语言词高维向量,并查询获取源语言词高维向量的K近邻高维向量;利用与K近邻高维向量中每个近邻高维向量对应的词翻译对齐结果中的目标语言词,以及目标语言词的高维向量得到目标语言K近邻候选集;以及根据源语言词高维向量与目标语言K近邻候选集中每一个高维向量之间的向量距离,得到源语言词的目标语言词翻译结果。本发明专利技术的应用在编码端寻找词语级别的K近邻,缩短了K近邻的搜索时间,并且在解码器解码每一个词的时候,通过参考K近邻的结果提升了编码器

【技术实现步骤摘要】
一种基于K近邻的机器翻译方法、装置及介质


[0001]本申请涉及语言翻译
,特别是一种基于K近邻的机器翻译方法、装置、存储介质及计算机设备。

技术介绍

[0002]目前现有技术包括两种基于K近邻(与待翻译的句子相像的句子/词语)来提高机器翻译模型的方法,第一种是寻找句子级别的K近邻,但这种方法受到句子相似程度的限制,当标注数据集中没有与待翻译句子非常像的句子时效果不佳;第二种是直接寻找词语级别的K近邻,但现有技术由于是在机器翻译的解码阶段进行K近邻的搜索,其时间复杂度极高且搜索无法并行,其速度相比原本的模型慢了两个数量级。

技术实现思路

[0003]本专利技术提供一种基于K近邻的机器翻译方法、装置、存储介质及计算机设备,在编码端寻找词语级别的K近邻,避免了在解码端寻找K近邻时间复杂度极高且搜索无法并行的问题,缩短了K近邻的搜索时间,并且在解码器解码每一个词的时候,通过参考K近邻的结果提升了编码器

解码器机器翻译模型的翻译效果。
[0004]为了解决上述问题,本专利技术采用的一个技术方案是:提供一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于K近邻的机器翻译方法,其特征在于,包括,利用编码器

解码器机器翻译模型获取待翻译句子中每个源语言词的源语言词高维向量,并从所述编码器

解码器机器翻译模型的训练数据集中每个词的高维向量中,查询获取所述源语言词高维向量的K近邻高维向量;利用所述训练数据集中与所述K近邻高维向量中每个近邻高维向量对应的词翻译对齐结果中的目标语言词,以及所述目标语言词的高维向量得到目标语言K近邻候选集;以及,根据所述源语言词高维向量与所述目标语言K近邻候选集中每一个高维向量之间的向量距离,对所述目标语言K近邻候选集中的所述目标语言词进行筛选,得到所述源语言词的目标语言词翻译结果。2.如权利要求1所述的基于K近邻的机器翻译方法,其特征在于,所述从所述编码器

解码器机器翻译模型的训练数据集中每个词的高维向量中,查询获取所述源语言词高维向量的K近邻高维向量的过程包括,将所述训练数据集中每个词的高维向量中与所述源语言词高维向量的向量距离最小的K个高维向量,确定为所述源语言词高维向量的K近邻高维向量。3.如权利要求1所述的基于K近邻的机器翻译方法,其特征在于,所述利用所述训练数据集中与所述K近邻高维向量中每个近邻高维向量对应的词翻译对齐结果中的目标语言词,以及所述目标语言词的高维向量得到目标语言K近邻候选集的过程包括,利用每个所述目标语言词及其对应的高维向量组成数据对,并利用所述数据对组成所述目标语言K近邻候选集。4.如权利要求1所述的基于K近邻的机器翻译方法,其特征在于,所述根据所述源语言词高维向量与所述目标语言K近邻候选集中每一个高维向量之间的向量距离,对所述目标语言K近邻候选集中的所述目标语言词进行筛选,得到所述源语言词的目标语言词翻译结果的过程包括,根据所述源语言词高维向量与所述目标语言K近邻候选集中每一个高维向量之间的向量距离,对所述目标语言K近邻候选集中的每个所述目标语言词为所述源语言词的目标语言词翻译结果的概率进行计算;选...

【专利技术属性】
技术研发人员:卢辰鑫何豪杰王思宽王铎李晓雅
申请(专利权)人:浙江香侬慧语科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1