一种文本翻译方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:39316884 阅读:5 留言:0更新日期:2023-11-12 15:59
本申请提供了一种文本翻译方法、装置、设备、存储介质及程序产品;本申请实施例可以应用于智慧交通、自动驾驶、车载等的文本翻译场景中,涉及人工智能技术;该方法包括:基于源文本和目标文本中前t

【技术实现步骤摘要】
一种文本翻译方法、装置、设备、存储介质及程序产品


[0001]本申请涉及人工智能技术,尤其涉及一种文本翻译方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]文本翻译是指通过机器翻译技术,将一种自然语言的文本转换为另一种自然语言的文本,属于人工智能技术的一个分支。机器翻译中的非参数方法,例如近邻机器翻译及其变体,允许其在推理期间直接访问存储在数据存储中的词元的缓存记录。然而,当数据存储会带来巨大的存储压力,从而造成文本翻译的高延迟。相关技术中,针对数据存储进行压缩时,可能会造成针对数据存储中重要程度较高的记录的误删除,从而出现随着文本翻译的效率的提高,文本翻译的准确度会相应降低的现象。

技术实现思路

[0003]本申请实施例提供一种文本翻译方法、装置、设备、计算机可读存储介质及计算机程序产品,能够在保证文本翻译的准确度的同时,提升文本翻译的效率。
[0004]本申请实施例的技术方案是这样实现的:
[0005]本申请实施例提供一种文本翻译方法,包括:
[0006]基于源文本和目标文本中前t

1个词元的预测结果,为所述目标文本中的第t个词元确定查询特征;第t个所述词元为当前等待预测的词元,t为正整数;
[0007]针对第t个所述词元的查询特征,从目标数据存储中检索得到K个索引特征;其中,K≥2,所述目标数据存储由对原始数据存储进行蒸馏得到;
[0008]基于K个所述索引特征分别与第t个所述词元的查询特征之间的距离,确定第t个所述词元的预测结果;
[0009]当针对所述目标文本中的最后一个所述词元得到预测结果时,完成针对所述源文本的文本翻译。
[0010]本申请实施例提供一种文本翻译装置,包括:
[0011]特征确定模块,用于基于源文本和目标文本中前t

1个词元的预测结果,为所述目标文本中的第t个词元确定查询特征;第t个所述词元为当前等待预测的词元,t为正整数;
[0012]特征检索模块,用于针对第t个所述词元的查询特征,从基于对原始数据存储进行蒸馏所得到的目标数据存储中检索得到K个索引特征;其中,K≥2,所述目标数据存储由对原始数据存储进行蒸馏得到;
[0013]预测确定模块,用于基于K个所述索引特征分别与第t个所述词元的查询特征之间的距离,确定第t个所述词元的预测结果;当针对所述目标文本中的最后一个所述词元得到预测结果时,完成针对所述源文本的文本翻译。
[0014]在本申请的一些实施例中,所述文本翻译装置还包括:蒸馏处理模块,用于利用训练源文本和训练目标文本中的每个分词信息的前缀,针对所述训练目标文本中的每个所述
分词信息生成上下文信息;所述训练源文本与所述训练目标文本为语言不同、含义相同的文本对;针对所述上下文信息所对应的特征和每个所述分词信息,生成映射记录,并基于每个所述分词信息的映射记录构建得到所述原始数据存储;针对所述原始数据存储进行蒸馏处理,得到所述目标数据存储。
[0015]在本申请的一些实施例中,所述蒸馏处理模块,还用于基于第i次迭代的输入数据存储中特征之间的距离,针对第i次迭代的输入数据存储中的特征进行合并,并基于所得到的合并特征,生成第i次迭代的输出数据存储;其中,第1次迭代的输入数据存储为所述原始数据存储;i为正整数;将第i次迭代的输出数据存储确定为第i+1次迭代的输入数据存储,开始第i+1次的迭代;当达到迭代结束条件时,将最后一次迭代的输出数据存储作为所述目标数据存储,完成针对所述原始数据存储的蒸馏处理;其中,所述迭代结束条件包括以下条件中的至少一个:所述输出数据存储与所述原始数据存储之间的压缩比达到压缩阈值、i达到最大迭代次数。
[0016]在本申请的一些实施例中,所述蒸馏处理模块,还用于基于第i次迭代的输入数据存储中的每个所述特征与每个所述特征的第i个所述近邻特征之间的距离,确定第i次迭代的输入数据存储中的每个所述特征的合并次序;按照所述合并次序,针对每个所述特征对应的分词信息与第i个所述近邻特征对应的分词信息进行比对,得到比对结果;当所述比对结果表征每个所述特征对应的分词信息与第i个所述近邻特征对应的分词信息相同时,将每个所述特征与第i个所述近邻特征进行合并,得到第i次迭代的所述合并特征;利用第i次迭代的所述合并特征,以及每个所述特征所对应的分词信息,生成第i次迭代的输出数据存储。
[0017]在本申请的一些实施例中,所述蒸馏处理模块,还用于基于每个所述特征的第一检索次数,以及第i个所述近邻特征的第二检索次数,针对每个所述特征和第i所述近邻特征分别确定合并权重;其中,第一检索次数表征每个所述特征被检索到的次数,第二检索次数表征第i个所述近邻特征被检索到的次数;依据每个所述特征的合并权重以及第i个所述近邻特征的合并权重,对每个所述特征与第i个所述近邻特征进行加权合并,得到第i次迭代的所述合并特征。
[0018]在本申请的一些实施例中,所述蒸馏处理模块,还用于当所述第一检索次数与所述第二检索次数均为0时,将第一预设权重确定为每个所述特征的合并权重,将第二预设权重确定为第i个所述近邻特征的合并权重;当所述第一检索次数与所述第二检索次数中的至少一个大于0时,将所述第一检索次数占据所述第一检索次数与所述第二检索次数之和的比例,确定为每个所述特征的合并权重,将1与每个所述特征的合并权重的差异,确定为第i个所述近邻特征的合并权重。
[0019]在本申请的一些实施例中,所述第i个近邻特征是针对每个所述特征所对应的T个近邻特征中的第i个;T个所述近邻特征是在第1次迭代开始之前提取得到,且T个所述近邻特征按照与每个所述特征的距离从小到大的顺序进行排列;其中,T为所述最大迭代次数。
[0020]在本申请的一些实施例中,所述蒸馏处理模块,还用于基于第i次迭代的输入数据存储中的每个所述特征与每个所述特征的最近邻特征之间的距离,确定第i次迭代的输入数据存储中的每个所述特征的合并次序;按照所述合并次序,针对每个所述特征对应的分词信息与所述最近邻特征对应的分词信息进行比对,得到比对结果;当所述比对结果表征
每个所述特征对应的分词信息与所述最近邻特征对应的分词信息相同时,将每个所述特征与所述最近邻特征进行合并,得到第i次迭代的所述合并特征;利用第i次迭代的合并特征,以及每个所述特征所对应的分词信息,生成第i次迭代的所述输出数据存储。
[0021]在本申请的一些实施例中,所述特征确定模块,还用于利用所述源文本,以及所述目标文本中的前t

1个词元的预测结果,生成第t个所述词元的上下文信息;将所述上下文信息所对应的特征,确定为所述目标文本中的第t个所述词元的所述查询特征。
[0022]在本申请的一些实施例中,所述预测确定模块,还用于依据K个所述索引特征分别与第t个所述词元的查询特征之间的距离,以及预设模型针对第t个所述词元的查询特征所生成的预测分布,确定第t个所述词元的查询特征在词汇表上的目标预测分布;依据所述目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本翻译方法,其特征在于,所述方法包括:基于源文本和目标文本中前t

1个词元的预测结果,为所述目标文本中的第t个词元确定查询特征;第t个所述词元为当前等待预测的词元,t为正整数;针对第t个所述词元的查询特征,从目标数据存储中检索得到K个索引特征;其中,K≥2,所述目标数据存储由对原始数据存储进行蒸馏得到;基于K个所述索引特征分别与第t个所述词元的查询特征之间的距离,确定第t个所述词元的预测结果;当针对所述目标文本中的最后一个所述词元得到预测结果时,完成针对所述源文本的文本翻译。2.根据权利要求1所述的方法,其特征在于,所述基于源文本和目标文本中前t

1个词元的预测结果,为所述目标文本中的第t个词元确定查询特征之前,所述方法还包括:利用训练源文本和训练目标文本中的每个分词信息的前缀,针对所述训练目标文本中的每个所述分词信息生成上下文信息;所述训练源文本与所述训练目标文本为语言不同、含义相同的文本对;针对所述上下文信息所对应的特征和每个所述分词信息,生成映射记录,并基于每个所述分词信息的映射记录构建得到所述原始数据存储;针对所述原始数据存储进行蒸馏处理,得到所述目标数据存储。3.根据权利要求2所述的方法,其特征在于,所述针对所述原始数据存储进行蒸馏处理,得到所述目标数据存储,包括:基于第i次迭代的输入数据存储中特征之间的距离,针对第i次迭代的输入数据存储中的特征进行合并,并基于所得到的合并特征,生成第i次迭代的输出数据存储;其中,第1次迭代的输入数据存储为所述原始数据存储;i为正整数;将第i次迭代的输出数据存储确定为第i+1次迭代的输入数据存储,开始第i+1次的迭代;当达到迭代结束条件时,将最后一次迭代的输出数据存储作为所述目标数据存储,完成针对所述原始数据存储的蒸馏处理;其中,所述迭代结束条件包括以下条件中的至少一个:所述输出数据存储与所述原始数据存储之间的压缩比达到压缩阈值、i达到最大迭代次数。4.根据权利要求3所述的方法,其特征在于,所述基于第i次迭代的输入数据存储中特征之间的距离,针对第i次迭代的输入数据存储中的特征进行合并,并基于所得到的合并特征,生成第i次迭代的输出数据存储,包括:基于第i次迭代的输入数据存储中的每个所述特征与每个所述特征的第i个近邻特征之间的距离,确定第i次迭代的输入数据存储中的每个所述特征的合并次序;按照所述合并次序,针对每个所述特征对应的分词信息与第i个所述近邻特征对应的分词信息进行比对,得到比对结果;当所述比对结果表征每个所述特征对应的分词信息与第i个所述近邻特征对应的分词信息相同时,将每个所述特征与第i个所述近邻特征进行合并,得到第i次迭代的所述合并特征;利用第i次迭代的所述合并特征,以及每个所述特征所对应的分词信息,生成第i次迭
代的输出数据存储。5.根据权利要求4所述的方法,其特征在于,所述将每个所述特征与第i个所述近邻特征进行合并,得到第i次迭代的所述合并特征,包括:基于每个所述特征的第一检索次数,以及第i个所述近邻特征的第二检索次数,针对每个所述特征和第i个所述近邻特征分别确定合并权重;其中,第一检索次数表征每个所述特征被检索到的次数,第二检索次数表征第i个所述近邻特征被检索到的次数;依据每个所述特征的合并权重以及第i个所述近邻特征的合并权重,对每个所述特征与第i个所述近邻特征进行加权合并,得到第i次迭代的所述合并特征。6.根据权利要求5所述的方法,其特征在于,所述基于每个所述特征的第一检索次数,以及第i个所述近邻特征的第二检索次数,针对每个所述特征和第i个所述近邻特征分别确定合并权重,包括:当所述第一检索次数与所述第二检索次数均为0时,将第一预设权重确定为每个所述特征的合并权重,将第二预设权重确定为第i个所述近邻特征的合并权重;当所述第一检索次数与所述第二检索次数中的至少一个大于0时,将所述第一检索次数占据所述第一检索次数与所述第二检索次数之和的比例,确定为每个所述特征的合并权重,将1与每个所述特征的合并权重的差异,确定为第i个所述近邻特征的合并权重。7.根据权利要求4至6任一项所述的方法,其特征在于...

【专利技术属性】
技术研发人员:代宇涵张志锐杜逸超
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1