【技术实现步骤摘要】
一种面向XML文档的可配置神经机器翻译方法
本专利技术涉及一种机器翻译应用方法,具体为一种面向XML文档翻译的神经机器翻译方法。
技术介绍
机器翻译的研究已经全面转型到了神经机器翻译技术,并广泛应用于各行各业。在机器翻译的众多应用中,文档翻译是工作和生活中常用的翻译技术。根据文档的类型,对文档编写特定的解析程序,提取出其中纯粹的文本内容,再逐句送到翻译模型中进行翻译。XML文档是一种可扩展标记语言,用于标记电子文件,使其具有结构性。XML的简单格式易于在任何应用程序中读/写数据,这使XML很快成为数据交换的通用文档,XML自动翻译也成为文档翻译的重要需求。XML以纯文本格式存储,其标签的灵活性和样式的多样性,在XML的解析和翻译过程中面临着以下解析困难和句子提取不完整等问题:1)XML版本与解析程序不匹配;2)部分标签内容不需要翻译,翻译后无法原样保留;3)部分标签内容与上下文相关,独立翻译不准确;4)部分标签冗余,需保留内容删除标签,使上下文衔接。XML的使用十分广泛,当用户对XML ...
【技术保护点】
1.一种面向XML文档的可配置神经机器翻译方法,其特征在于包括以下步骤:/n1)定义标签翻译策略:归纳存在的标签翻译策略,并为每种标签翻译策略定义出一个语义单元,用于辅助神经机器翻译模型学习翻译策略;/n2)构造训练数据:准备大量的双语对齐语料,将定义的语义单元,根据其对应的翻译策略,使语义单元分布到训练语料中;每种语义单元的分布位置和方式,取决于翻译该单元的策略;/n3)模型训练和部署:将构造好的训练数据,经过预处理加工,送到神经机器翻译模型中进行训练,训练至收敛时保存模型文件;加载训练好的模型到解码器中,用于提供翻译能力;/n4)配置翻译策略:将标签翻译策略写入一个配置 ...
【技术特征摘要】
1.一种面向XML文档的可配置神经机器翻译方法,其特征在于包括以下步骤:
1)定义标签翻译策略:归纳存在的标签翻译策略,并为每种标签翻译策略定义出一个语义单元,用于辅助神经机器翻译模型学习翻译策略;
2)构造训练数据:准备大量的双语对齐语料,将定义的语义单元,根据其对应的翻译策略,使语义单元分布到训练语料中;每种语义单元的分布位置和方式,取决于翻译该单元的策略;
3)模型训练和部署:将构造好的训练数据,经过预处理加工,送到神经机器翻译模型中进行训练,训练至收敛时保存模型文件;加载训练好的模型到解码器中,用于提供翻译能力;
4)配置翻译策略:将标签翻译策略写入一个配置文件中,便于随时修改翻译策略并及时生效;
5)解码前处理:根据配置好的翻译策略,将输入源语经过解码前处理,将不同策略的标签替换成对应的语义单元,再进行分词操作后送入解码器获取翻译结果;
6)解码后处理:解码器返回的翻译结果为含有特定语义单元的结果,将语义单元替换回事先存储的标签,得到完整的标签译文写出到XML文件,完成本次翻译过程。
2.根据权利要求1所述的面向XML文档的可配置神经机器翻译方法,其特征在于步骤1)定义标签翻译策略:是根据普遍存在的问题,归纳存在的标签翻译策略,并为每种标签翻译策略定义出一个语义单元,用于辅助神经机器翻译模型学习翻译标签的策略,具体包括以下几种:
101)待翻译标签:表示当前标签中的内容需要翻译模型自动翻译,定义的语义单元为<$Trans></$Trans>;
102)不翻译标签:表示当前标签中的内容不需要翻译模型自动翻译,应保留原始内容,定义的语义单元为<$NoTrans></$NoTrans>;
103)标签体删除,内容合并上下文翻译:表示当前标签中内容应与上下文一同翻译,并在翻译结果中不保留当前标签体,定义的语义单元为<$DelTag></$DelTag>;
104)标签体保留,内容合并上下文翻译:表示当前标签中内容应与上下文一同翻译,并在翻译结果中保留...
【专利技术属性】
技术研发人员:杜权,刘兴宇,朱靖波,肖桐,张春良,
申请(专利权)人:沈阳雅译网络技术有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。