【技术实现步骤摘要】
【国外来华专利技术】结构化文本翻译
专利技术人:桥本和真、R
·
布斯基亚佐、J
·
布拉德伯里、T
·
马歇尔、C
·
熊和R
·
佐赫尔相关申请本申请要求于2018年12月11日提交的第62/778,160号美国临时专利申请和于2019年1月31日提交的第16/264,392号美国非临时专利申请的优先权,这两项申请通过引用整体并入本文。
公开文本总体上涉及自然语言处理,并且更具体地,涉及翻译具有嵌入式标签的结构化文本。
技术介绍
自然语言处理和运用系统翻译自然语言的能力是一项重要的机器翻译课题,该自然语言是包括嵌入式标签(例如,XML、HTML等)的结构化形式的自然语言。这可能是一项复杂的任务,因为它不仅包括翻译文本,而且包括正确处理嵌入式标签。因此,拥有用于翻译结构化文本的系统和方法将是有利的。
附图说明
图1是根据一些实施方案的计算设备的简化图。图2A和图2B是根据一些实施方案的结构化译后文本的简化图。图3是根据一些实施方案的准备结构 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于翻译结构化文本的系统,所述系统包括:嵌入模块,用于编码和嵌入第一语言的结构化源文本;基于多层注意的编码器,用于对所述嵌入模块的输出进行编码;基于多层注意的解码器,用于基于由先前迭代生成的结构化译后文本中的标记,对所述基于多层注意的编码器的输出进行迭代解码,所述结构化译后文本是不同于所述第一语言的第二语言;集束模块,用于根据集束搜索,针对要包括在当前迭代的所述结构化译后文本中的可能的嵌入式标签,约束所述基于多层注意的解码器的输出;和softmax层,用于基于来自所述集束模块的输出,选择要包括在所述当前迭代的所述结构化译后文本中的标记。2.根据权利要求1所述的系统,其中所述集束模块将所述可能的嵌入式标签限于如下中的一项或多项:开放嵌入式标签,其是从所述结构化源文本中的一个或多个嵌入式标签中选择的;闭合嵌入式标签,其与最后选择的包括在所述结构化译后文本中的所述开放嵌入式标签相对应;或序列结尾嵌入式标签,其在所述结构化源文本中的所述一个或多个嵌入式标签中的每个被选择以便包括在所述结构化译后文本中之后。3.根据权利要求1或2所述的系统,还包括:评分模块,用于确定被选择以便包括在所述当前迭代的所述结构化译后文本中的标记是从所述集束模块的输出选择的,还是从其他结构化文本复制的;和指针模块,其包括所述softmax层,用于基于所述评分模块的确定结果,从所述集束模块的输出选择将包括在所述当前迭代的所述结构化译后文本中的标记,还是从所述其他结构化文本复制的标记。4.根据权利要求3所述的系统,其中所述其他结构化文本是所述结构化源文本。5.根据权利要求3或4所述的系统,还包括第二集束模块,用于当从所述结构化源文本选择了将包括在所述当前迭代的所述结构化译后文本中的标记时,根据第二集束搜索,针对要包括在所述当前迭代的所述结构化译后文本中的可能的嵌入式标签,约束所述基于多层注意的编码器的输出。6.根据权利要求3或4所述的系统,其中:所述其他结构化文本是与所述第一语言的结构化检索文本的所述第二语言的译文相对应的结构化参考文本;从用于训练所述系统的训练对选择所述结构化检索文本和所述结构化参考文本;并且所述结构化检索文本是最接近用于训练所述系统的每个训练对之中的所述结构化源文本的匹配项。7.根据权利要求6所述的系统,还包括:第二基于多层注意的解码器,用于对所述结构化参考文本进行解码;和第二集束模块,用于当从所述结构化参考文本选择要包括在所述当前迭代的所述结构化译后文本中的所述标记时,根据第二集束搜索,针对要包括在所述当前迭代的所述结构化译后文本中的可能的嵌入式标签,约束所述第二基于多层注意的解码器的输出。
8.根据权利要求1至7所述的系统,其中所述结构化源文本或所述结构化译后文本包括一个或多个嵌入式XML标签或一个或多个嵌入式HTML标签。9.一种用于翻译结构化文本的方法,所述方法包括:通过嵌入模块,编码和嵌入第一语言的结构化源文本;通过基于多层注意的编码器,对所述嵌入模块的输出进行编码;通过基于多层注意的解码器,基于由先前迭代生成的结构化译后文本中的标记,对所述基于多层注意的编码器的输出进行迭代解码,所述结构化译后文本是不同于所述第一语言的第二语言;通过集束模块,根据集束搜索,针对要包括在当前迭代的所述结构化译后文本中的可能的嵌入式标签,约束所述基于多层注意的解码器的输出;和通过softmax层,基于来自所述集束模块的输出,选择要包括在所述当前迭代的所述结构化译后文本中的标记。10.根据权利要求9所述的方法,其中所述可能的嵌入式标签限于如下中的一项或多项:开放嵌入式标签,其是从所述结构化源文本中的一个或多个嵌入式标签选择的;闭合嵌入式标签,其与最后选择包括在所述结构化译后文本中的所述开放嵌入式标签相对应;或序列结尾嵌入式标签,其在所述结构化源文本中的所述一个或多个嵌入式标签中的每个被选择以便包括在所述结构化译后文本中之后。11.根据权利要求9或10所述的方法,还包括:通过评分模块,确定被选择以便包括在所述当前迭代的所述结构化译后文本中的标记是从所述集束模块的输出选择的,还是从其他结构化文本复制的;和通过包括所述softmax层的指针模块,基于所述评分模块的确定结果,...
【专利技术属性】
技术研发人员:桥本和真,R,
申请(专利权)人:易享信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。