文档翻译方法、设备、存储介质及程序产品技术

技术编号:36645015 阅读:28 留言:0更新日期:2023-02-18 13:04
本公开实施例提供一种文档翻译方法、设备、存储介质及程序产品,通过解析待翻译的原文档,获取待翻译的至少一个段落文案及包括段落文案的初始语法树,各段落文案所在节点标记各段落文案的标识;根据各段落文案的样式信息将各段落文案转化为具有第一样式标签的段落文案;获取各段落文案对应的译文,译文中与第一样式标签对应位置标记有相同类型的第二样式标签;根据各段落文案的标识将初始语法树中的每一段落文案替换为其对应的译文,并根据替换后的语法树进行文档还原,得到原文档对应的译文文档。通过以段落文案为粒度进行翻译,保证译文语义完整准确,且通过在语法树中以译文替换段落文案,保证译文文档与原文档的样式一致,提高文档翻译质量。提高文档翻译质量。提高文档翻译质量。

【技术实现步骤摘要】
文档翻译方法、设备、存储介质及程序产品


[0001]本公开实施例涉及计算机
,尤其涉及一种文档翻译方法、设备、存储介质及程序产品。

技术介绍

[0002]文档翻译是将一种语言的文档翻译成为另一种目标语言文档的文本处理过程。伴随着全球化进程的不断深化和互联网的迅速发展,文档翻译需求日益涌现。
[0003]市面上一些机器翻译方式对文档提取最底部的文案,甚至会把文档源格式转换为另外一个种格式,如Google的文档翻译,然后进行机器翻译,整个翻译过程受限于提取的最小单元粒度以及翻译引擎的准确度,可能导致一些不可控的翻译结果,例如翻译语句不顺畅,或者格式上存在不可控偏差;而若想避免这些问题,可提高最小单元粒度判定门槛,但受限于机器翻译的语法顺序,会导致无法精准还原,导致这个场景局限在一句话或者几段短小的文字上,最终翻译的结果仍可能语义不地道,或者语义上下文丢失。

技术实现思路

[0004]本公开实施例提供一种文档翻译方法及设文档翻译方法、设备、存储介质及程序产品,以提高文档翻译准确性,且保留文档格式。r/>[0005]第本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档翻译方法,其特征在于,包括:对待翻译的原文档进行解析,获取待翻译的至少一个段落文案、以及包括所述段落文案的初始语法树,其中所述初始语法树中各段落文案所在节点标记有各段落文案的标识;根据各段落文案的样式信息,将各段落文案转化为具有第一样式标签的段落文案;获取各段落文案对应的译文,其中所述译文中与第一样式标签对应位置处标记有相同类型的第二样式标签;根据各段落文案的标识将所述初始语法树中的每一段落文案替换为其对应的译文,并根据替换后的语法树进行文档还原,得到原文档对应的译文文档。2.根据权利要求1所述的方法,其特征在于,所述对待翻译的原文档进行解析,获取待翻译的至少一个段落文案、以及包括所述段落文案的初始语法树,包括:确定原文档中包括所述段落文案的部分,对原文档中包括所述段落文案的部分进行解析,提取段落文案,并生成包括所述段落文案的初始语法树;在所述初始语法树中各段落文案所在节点标记各段落文案的标识;对所述初始语法树进行存储。3.根据权利要求2所述的方法,其特征在于,所述获取各段落文案对应的译文,包括:接收用户输入、或者机器翻译输出的每一段落文案对应的译文;响应于用户的标签插入指令,在译文中与段落文案的第一样式标签对应位置处插入相同类型的第二样式标签。4.根据权利要求2所述的方法,其特征在于,所述对包括所述段落文案的部分进行解析,提取段落文案,包括:对原文档中包括所述段落文案的部分提取段落文案,生成第一段落单元数据列表;所述根据各段落文案的样式信息,将各段落文案转化为具有第一样式标签的段落文案,包括:根据所述第一段落单元数据列表中的各段落文案的样式信息,确定段落文案的公共样式;根据所述公共样式,识别所述第一段落单元数据列表中的各段落文案中包括的非公共样式的局部文案和/或目标元素,并在段落文案中对非公共样式的局部文案和/或目标元素添加非公共样式对应的样式标签。5.根据权利要求4所述的方法,其特征在于,所述根据各段落文案的标识将所述初始语法树中的每一段落文案替换为其对应的译文,包括:将各段落文案对应的译文,转化为第二段落单元数据列表;根据各段落文案的标识、以及所述第二段落单元数据列表,将所述初始语法树中的每一段落文案替换为其对应的译文,并删除段落文案的标识。6.根据权利要求2

5任一项所述的方法,其特征在于,所述确定原文档中包括所述段落文案的部分,对原文档中包括所述段落文案的部分进行解析,提取段落文案,并生成包括所述段落文案的初始语法树,包括:若所述原文档为Office文档,对Office文档压缩包解压后获取包括段落文案的xml文件;通过sax解析器对包括段落文案的xml文件进行解析,提取段落文案,并生成所述初始
语法树。7.根据权利要求6所述的方法,其特征在于,所述根据替换后的语法树进行文档还原,得到原文档对应的译文文档,包括:根据替换后的语法树创建新xml文件;将新xml文件替换Office文档压缩包解压文件中的所述包括段落文案的xml文件;对Office文档压缩包解压文件重新进行压缩,得到为译文文档对应的Office文档压缩包。8.根据权利要求2

5任一项所述的方法,其特征在于,所述确定原文档中包括所述段落文案的部分,对原文档中包括所述段落文案的部分进行解析,提取段落文案,并生成包括所述段落文案的初始语法树,包括:若所述原文档为云文档,向服务器发送富文本数据获取请...

【专利技术属性】
技术研发人员:邓敏捷
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1