【技术实现步骤摘要】
一种面向小语种包含精确术语匹配的机器翻译方法
:本专利技术属于语言文字处理
,特别涉及一种面向小语种包含精确术语匹配的机器翻译方法。
技术介绍
:随着神经机器翻译技术的迅速发展,越来越多的译员开始采用神经机器翻译来帮助自己完成翻译任务,目前神经机器翻译技术已相对成熟,通常经过平行语料收集/标注、语料预处理、二值化处理、模型训练、模型服务化等过程完成机器翻译引擎构建,最终提供机器翻译服务。其中,平行语料是一种稀缺资源,尤其是小语种与汉语方向的平行语料,例如维语到汉语、泰语到汉语、蒙古语到汉语,但目前工业级的机器翻译应用还主要是依赖于平行语料的监督学习方法为主,没有百万级以上的平行语料规模很难训练出有实战意义的小语种到汉语的神经翻译模型。另外,对行业术语大多数机器翻译引擎很难翻译得准确,相对普遍的方式是对术语翻译进行译前干预,让译员可以导入指定的双语术语构建术语库,进行翻译时将待翻译文本中的术语用占位符进行替换,利用机器翻译引擎和预先建立的术语库,对替换后的待翻译文本进行翻译和术语替换,但是目前大部分的替换方法比较武断,在模型训练和翻译过程中没有考虑短语结构,很容易将句子中原有的句子结构破坏,影响最终的翻译质量。公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
:针对上述背景以及技术不足,本专利技术公开了一种面向小语种包含精确术语匹配的机器翻译方法。该方法旨改进数据稀疏的 ...
【技术保护点】
1.面向小语种包含精确术语匹配的机器翻译方法,其特征在于:包括如下步骤:平行语料及小语种单语语料的收集预处理、借助统计机器翻译、神经机器翻译引擎扩充小语种到汉语的平行语料完成数据增强、术语翻译融入句法分析提升翻译效果以及提高整个机器翻译的忠实度和流利度。/n
【技术特征摘要】
1.面向小语种包含精确术语匹配的机器翻译方法,其特征在于:包括如下步骤:平行语料及小语种单语语料的收集预处理、借助统计机器翻译、神经机器翻译引擎扩充小语种到汉语的平行语料完成数据增强、术语翻译融入句法分析提升翻译效果以及提高整个机器翻译的忠实度和流利度。
2.根据权利要求1所述的面向小语种包含精确术语匹配的机器翻译方法,其特征在于:首先收集待翻译小语种到非汉语大语种、非汉语大语种到汉语的平行语料、待翻译小语种到汉语的平行语料、汉语单语语料、待翻译小语种与汉语双语术语词典库,借助统计机器翻译、神经机器翻译引擎通过回译完成数据增强形成待翻译小语种到汉语的大规模平行语料集,然后在平行语料中增加占位符平行语料完成神经机器翻译模型训练,最后在翻译过程中融入精确术语匹配处理,最终完成包含术语翻译的待翻译小语种到汉语的神经机器翻译。
3.根据权利要求2所述的面向小语种包含精确术语匹配的机器翻译方法,其特征在于:详细的步骤如下:
步骤1,语料收集:从公开的数据集中筛选出以下质量较高的语料:至少千万级别的非汉语大语种与汉语的双语平行语料、以下称为平行语料A,待翻译小语种与非汉语大语种的双语平行语料、以下称平行语料B,待翻译小语种与汉语的双语平行语料、以下称平行语料C,汉语单语语料、以下称语料X,待翻译小语种与汉语双语术语词典库;
步骤2,非汉语大语种与汉语神经机器翻译模型训练:基于平行语料A,利用深度神经网络训练出非汉语大语种到汉语方向的神经机器翻译模型;
步骤3,扩充待翻译小语种和汉语平行语料:利用新训练的非汉语大语种与汉语神经机器翻译模型,将平行语料B中的非汉语大语种语料翻译成汉语,形成待翻译小语种与汉语的双语平行语料D;
步骤4,汉语和待翻译小语种统计机器翻译模型训练:以平行语料C、平行语料D为基础,分别利用基于短语的统计机器翻译、基于句法的统计机器翻译等多种方法训练出汉语到待翻译小语种的统计机器翻译模型;
步骤5,汉语和待翻译小语种神经机器翻译模型训练:以平行语料C、平行语料D为基础,分别利用基于卷积网络的神经机器翻译、基于Transformer模型的神经机器翻译等多种方法训练出汉语到待翻译小语种的神经机器翻译模型;
步骤6,基于汉语和待翻译小语种统计机器翻译进行语料扩充:利用步骤4训练的多个汉语和待翻译小语种统计机器翻译模型分别将汉语单语语料X翻译成待翻译小语种语料,形成待翻译小语种与汉语的双语平行语料E;
步骤7,基于汉语和待翻译小语种神经机器翻译进行语料扩充:利...
【专利技术属性】
技术研发人员:刘均伟,梁钦,段轶,
申请(专利权)人:江苏金陵科技集团有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。