文本翻译方法及其装置、设备、介质、产品制造方法及图纸

技术编号:34173413 阅读:27 留言:0更新日期:2022-07-17 11:19
本申请公开一种文本翻译方法及其装置、设备、介质、产品,所述方法包括:获取待翻译文本;采用预先训练至收敛状态的文本翻译模型对所述待翻译文本进行翻译,获得结果文本,其中,所述文本翻译模型的训练过程包括如下步骤:调用第一训练数据集中的第一训练样本对该文本翻译模型实施迭代预训练使其收敛,所述第一训练样本为第一语种语料与第二语种语料构成的第一平行语料;调用第二训练数据集中的第二训练样本对该文本翻译模型实施迭代微调训练使其收敛,所述第二训练样本为第一语种语料与第二语种的第二方言语料构成的第二平行语料。本申请利用文本翻译模型实现不同语言的精准互译。请利用文本翻译模型实现不同语言的精准互译。请利用文本翻译模型实现不同语言的精准互译。

Text translation methods and their devices, equipment, media and products

【技术实现步骤摘要】
文本翻译方法及其装置、设备、介质、产品


[0001]本申请涉及电商翻译
,尤其涉及一种文本翻译方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。

技术介绍

[0002]对于各大跨境电商平台而言,翻译是维系跨境电商平台中的买家和卖家之间沟通的关键桥梁,更是跨境电商平台最基本的刚性需求,准确的电商领域翻译可以在商品展示描述、搜索、推荐等场景起到至关重要的承接作用,一方面大大增加商品被用户熟知的程度,另一方面能够辅助跨境电商平台用户建立其本土化表述文本的商品标签,促进该商品标签与精准翻译用户需求的表述文本之间的匹配,使得搜索和推荐的商品贴合用户需求。
[0003]目前现有技术将使用繁体中文的具体地区的方言相应的文本翻译成为英语时,繁体中文此类低资源语料的翻译技术主要面临以下问题:
[0004]1.由于使用繁体中文的具体地区的人数较少、电商业务规模较小,因此现阶段在工业和学术界积累的使用繁体中文的具体地区的平行语料都比较少,语料资源较为贫乏,另外以该平行语料训练出来的模型,效果上仅勉强达到理解原意的地步,翻译本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本翻译方法,其特征在于,包括如下步骤:获取待翻译文本;采用预先训练至收敛状态的文本翻译模型对所述待翻译文本进行翻译,获得结果文本,其中,所述待翻译文本为第一语种表述或第二语种的第一方言表述的文本,相应的,所述结果文本为第二语种的第一方言表述或第一语种表述的文本,所述文本翻译模型的训练过程包括如下步骤:调用第一训练数据集中的第一训练样本对该文本翻译模型实施迭代预训练使其收敛,所述第一训练样本为第一语种语料与第二语种语料构成的第一平行语料,所述第二语种语料为所述第一语种语料对应第二语种的第一方言的翻译文本中个别词汇被替换为第二语种的第二方言的同义词汇的结果;调用第二训练数据集中的第二训练样本对该文本翻译模型实施迭代微调训练使其收敛,所述第二训练样本为第一语种语料与第二语种的第二方言语料构成的第二平行语料。2.根据权利要求1所述的文本翻译方法,其特征在于,所述文本翻译模型的训练过程之前,包括如下步骤:获取与预设数据集中的各个以第一语种表述的原始文本相对应的第二语种的第一方言的第一翻译文本和第二方言的第二翻译文本,分别作为第一语料库和第二语料库;比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的同义词汇,将所述同义词汇的不同翻译版本之间的映射关系数据构造为特殊词典;调用语料资源库,该语料资源库包括第一平行语料,第一平行语料由第一语种语料与第二语种第一方言的语料两种对应文本构成;根据所述特殊词典的映射关系数据,将第一平行语料中属于第二语种第一方言的同义词汇的翻译版本替换为所述特殊词典中第二方言的同义词汇的翻译版本构成第二语种语料,使该语料资源库构成第一训练数据集。3.根据权利要求2所述的文本翻译方法,其特征在于,所述文本翻译模型的训练过程之前,还包括如下步骤:将所述预设数据集中以第一语种表述的每个原始文本与其对应第二语种第二方言的翻译文本构造为平行语料,将所述平行语料构造为第二训练数据集。4.根据权利要求2所述的文本翻译方法,其特征在于,比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的同义词汇,将所述同义词汇的不同翻译版本之间的映射关系数据构造为特殊词典,包括如下步骤:比较第一语料库和第二语料库中关于相同原始文本的不同翻译文本之间的差异文本;采用预先训练至收敛状态的实体名词分类模型对其中第一语料库的所述差异文本进行判断,以判别其是否为特定类型的名词;将属于特定类型的名词相对应的第一语料库和第二语料库中的所述差异文本确定为同义词汇的不同翻译版本,构造为映射关系数据,存储于预构...

【专利技术属性】
技术研发人员:庞磊钟裕滨
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1