文档翻译方法、装置、存储介质以及电子设备制造方法及图纸

技术编号:38046310 阅读:12 留言:0更新日期:2023-06-30 11:12
本发明专利技术公开了一种文档翻译方法、装置、存储介质以及电子设备。该方法包括:从待翻译的LaTex格式的原始文档中确定出需翻译的原始字符串;对原始字符串进行翻译,得到目标字符串;将翻译后的目标字符串回填到原始文档中,得到翻译后的目标文档。本发明专利技术解决了LaTex格式文档的翻译问题,能够在保持良好的文档排版的基础上,避免公式、引用等非译元素错译,实现更流畅的翻译效果。畅的翻译效果。畅的翻译效果。

【技术实现步骤摘要】
文档翻译方法、装置、存储介质以及电子设备


[0001]本专利技术涉及翻译领域,具体而言,涉及一种文档翻译方法、装置、存储介质以及电子设备。

技术介绍

[0002]现有的文档翻译技术并未支持LaTex格式的翻译,所以对于这类文档的翻译,通常的做法是对其渲染生成的PDF文件使用现有的PDF文档翻译技术实现翻译。
[0003]然而,先将LaTex格式的文档渲染生成PDF文件,然后对PDF文件进行翻译,势必会造成翻译效率低的问题。

技术实现思路

[0004]本专利技术实施例提供了一种文档翻译方法、装置、存储介质以及电子设备,以至少解决翻译效率低的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种文档翻译方法,包括:从待翻译的LaTex格式的原始文档中确定出需翻译的原始字符串;对上述原始字符串进行翻译,得到目标字符串;将翻译后的上述目标字符串回填到上述原始文档中,得到翻译后的目标文档。
[0006]作为一种可选的示例,上述对上述原始字符串进行翻译,得到目标字符串包括:将上述原始字符串中的每一个片段转换为字符串表示,生成原始字符串数组,以及原始元素类型标识;按照上述原始字符串中的字符串表示是否为纯文本将上述原始字符串转换为第一字符串,其中,上述第一字符串中包括特殊标识;过滤掉上述第一字符串中的上述特殊标识得到第二字符串;翻译上述第二字符串,得到翻译后的第三字符串;根据上述第一字符串、上述第二字符串以及上述第三字符串确定上述目标字符串。
[0007]作为一种可选的示例,上述按照上述原始字符串中的字符串表示是否为纯文本将上述原始字符串转换为第一字符串包括:在上述字符串表示为纯文本的情况下,保留上述字符串表示;在上述字符串表示为非纯文本的情况下,为上述字符串表示添加上述特殊标识。
[0008]作为一种可选的示例,上述根据上述第一字符串、上述第二字符串以及上述第三字符串确定上述目标字符串包括:对上述第二字符串和上述第三字符串做分词处理;在上述分词之间建立关联关系;确定第一字符串中上述特殊标识在上述第二字符串中的位置;按照上述关联关系和上述位置,在上述第三字符串中插入上述特殊标识,得到上述目标字符串。
[0009]作为一种可选的示例,上述翻译上述第二字符串,得到翻译后的第三字符串包括:按照上述第二字符串所在结构块所要求的翻译方式,翻译上述第二字符串,得到上述第三字符串。
[0010]作为一种可选的示例,上述将翻译后的上述目标字符串回填到上述原始文档中,得到翻译后的目标文档包括:按照上述目标字符串中的特殊标识,将上述目标字符串转换
为目标字符串数组,以及目标元素类型标识;根据上述原始元素类型标识与上述目标元素类型标识的对应关系,将上述目标字符串数组中的每个子串对应到原始字符串数组中的每个子串,为上述原始字符串数组中的每一个对象添加对应字段并赋予字段值;根据每个对象的对应字段及字段值,将翻译后的上述目标字符串回填到上述原始文档中,得到上述目标文档。
[0011]作为一种可选的示例,上述根据上述原始元素类型标识与上述目标元素类型标识的对应关系,将上述目标字符串数组中的每个子串对应到原始字符串数组中的每个对象,为上述原始字符串数组中的每一个对象添加对象字段并赋予字段值包括:使用第一指针指向上述原始字符串数组中的第一个对象并使用第二指针指向上述目标字符串数组中的第一个子串;将上述第一指针指向的对象作为当前对象并将上述第二指针指向的子串作为当前子串,执行如下操作:在上述当前对象与上述当前子串对应的元素类型均为纯文本的情况下,为上述当前对象添加翻译字段,将上述当前子串的值赋予上述翻译字段,将上述第一指针指向下一个对象,将上述第二指针指向下一个子串;在上述当前对象与上述当前子串对应的元素类型均为非纯文本,且上述当前对象与上述当前子串的特殊标识的序号不一致的情况下,为上述当前对象添加替换字段,将上述当前子串的特殊标识的序号的值赋予上述替换字段,将上述第一指针指向下一个对象,将上述第二指针指向下一个子串;在上述当前对象与上述当前子串对应的元素类型均为非纯文本,且上述当前对象与上述当前子串的特殊标识的序号一致的情况下,将上述第一指针指向下一个对象,将上述第二指针指向下一个子串;在上述当前对象为纯文本且上述当前子串对应的元素类型为非纯文本的情况下,为上述当前对象添加翻译字段,将上述翻译字段的值置为空,将上述第一指针指向下一个对象;在上述当前对象对应的元素类型为非纯文本且上述当前子串对应的元素类型为纯文本的情况下,为上述当前对象添加前翻译字段,将上述当前子串的值赋予上述前翻译字段,将上述第二指针指向下一个子串;在上述第一指针指向上述原始字符串子串的结束位置的情况下,为上述当前对象添加后翻译字段,将上述当前子串到上述目标字符串子串的结束位置间所有子串的拼接结果赋予上述后翻译字段,将上述第二指针指向上述目标字符串子串的结束位置;在上述第二指针指向上述目标字符串子串的结束位置的情况下,为上述当前对象到上述原始字符串子串的结束位置的所有对象添加翻译字段,将上述翻译字段的值置为空,将上述第一指针指向上述原始字符串子串的结束位置。
[0012]作为一种可选的示例,上述根据每个对象的对应字段及字段值,将翻译后的上述目标字符串回填到上述原始文档中,得到上述目标文档包括:在上述原始字符串数组中的对象包含翻译字段的情况下,将上述对象所指向的上述原始文档中的节点集合中,命令节点下的第一个纯文本节点或者纯文本节点集合中的第一个节点的文本修改为上述翻译字段的值,剩余的纯文本节点的值调整为空;在上述原始字符串数组中的对象包含前翻译字段的情况下,将上述对象指向的上述原始文档中的节点集合中,命令节点下的第一个节点或者纯文本节点集合中的第一个节点作为当前节点,在上述当前节点的父节点的子节点集合中,在上述当前节点所在索引处插入一个新的纯文本节点,将新的纯文本节点的值设置为上述前翻译字段的值;在上述原始字符串数组中的对象包含后翻译字段的情况下,将上述对象指向的上述原始文档中的节点集合中,命令节点下的最后一个节点或者纯文本节点集合中的最后一个节点作为当前节点,在上述当前节点的父节点的子节点集合中,在上述
当前节点所在索引的后一个索引处插入一个新的纯文本节点,将新的纯文本节点的值设置为上述后翻译字段的值;在上述原始字符串数组中的对象包含替换字段的情况下,从上述对象对应的节点和替换字段对应序号对应的节点的最近公共父节点下的所有节点中,确定出待置换节点,对待置换节点的位置执行置换操作。
[0013]作为一种可选的示例,在将翻译后的上述目标字符串回填到上述原始文档中,得到翻译后的目标文档之后,上述方法还包括:根据译文的语种,为上述目标文档添加语言支持命令。
[0014]根据本专利技术实施例的另一方面,提供了一种文档翻译装置,包括:确定模块,用于从待翻译的LaTex格式的原始文档中确定出需翻译的原始字符串;翻译模块,用于对上述原始字符串进行翻译,得到目标字符串;回填模块,用于将翻译后的上述目标字符串回填到上述原始文档中,得到翻本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档翻译方法,其特征在于,包括:从待翻译的LaTex格式的原始文档中确定出需翻译的原始字符串;对所述原始字符串进行翻译,得到目标字符串;将翻译后的所述目标字符串回填到所述原始文档中,得到翻译后的目标文档。2.根据权利要求1所述的方法,其特征在于,所述从待翻译的LaTex格式的原始文档中确定出需翻译的原始字符串包括:从所述原始文档的所有文件中,按照文件后缀名筛选出候选原始文件;生成所述候选原始文件的文件树;将所述候选原始文件中包含预定字符串的文件作为入口文件;以所述入口文件为起始点,根据文件中的命令类型节点包含的文件引用关系,从所述候选原始文件中筛选出第一文件,其中,所述节点的类型根据所述文件树确定;将所述第一文件中的段落确定为所述原始字符串。3.根据权利要求2所述的方法,其特征在于,所述生成所述候选原始文件的文件树包括:为所述候选原始文件创建根节点并将所述根节点作为当前节点;遍历所述候选原始文件的字符串变量;每遍历到一个命令的开始符,为所述当前节点生成一个命令子节点并将所述命令子节点作为新的当前节点;每遍历到一个命令的结束符,将所述当前节点的父节点作为新的当前节点;每遍历到纯字符串,为所述当前节点生成一个文本子节点。4.根据权利要求2所述的方法,其特征在于,所述将所述第一文件中的段落确定为所述原始字符串包括:根据所述第一文件的所述文件树,将所述第一文件生成为带有层级结构的中间表达,其中,所述层级结构中包括段落层将所述段落层对应的字符串确定为所述原始字符串。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一文件的所述文件树,将所述第一文件生成为带有层级结构的中间表达包括:将所述第一文件的所述文件树作为所述中间表达的文件层;将所述第一文件的所述文件树中的每个文档结构相关的命令节点作为所...

【专利技术属性】
技术研发人员:吴丽鑫杨东霖程桥黄瑾段亦涛
申请(专利权)人:网易有道信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1