一种文档翻译中智能还原原文样式的方法技术

技术编号：31027429 阅读：28 留言：0更新日期：2021-11-30 03:31

一种文档翻译中智能还原原文样式的方法，包括如下步骤：S100、解析文件获得原文，将原文翻译为译文；获取原文的特殊样式，以及译文中的修订痕迹、特殊样式，并在修订痕迹、特殊样式处使用替代字符进行替换，然后以修订痕迹、特殊样式处的字符下标值为key，字符值及样式为value存入map中；S200、识别句子并按格式分块，将原文句子按照存在样式的部分进行分割，得到原文集合，将对应的译文句子按照原文集合分割为译文集合；S300、将原文集合和译文集合发送到词对齐模块进行词对齐，使得原文的词和译文的词相对应；S400、根据词对齐结果还原样式，获得具有和原文相同样式的译文。本发明专利技术可以快速完成译文样式回填，在译文中还原原文格式，可显著提高翻译生产力。显著提高翻译生产力。

全部详细技术资料下载

【技术实现步骤摘要】
一种文档翻译中智能还原原文样式的方法

[0001]本专利技术涉及及文档翻译(如PDF,WORD,PPT,EXCEL等)、辅助翻译、自动翻译、机器翻译等领域，特别是涉及一种文档翻译中智能还原原文样式的方法。

技术介绍

[0002]在文件翻译过程中，在完成文字翻译后，往往需要将原文的样式(如字体、颜色等)应用到译文对应的位置中。传统的方式是翻译人员根据原文的样式手动添加对应的样式到译文中，在原文格式特别复杂的时候，人工添加译文样式特别费力，占用了整个翻译过程较多的时间。另外，通过传统规则(如：利于词典标记规则进行)来填充译文样式存在填充准确率低下的问题。

技术实现思路

[0003]有鉴于现有技术的上述缺陷，本专利技术所要解决的技术问题是提供一种文档翻译中智能还原原文样式的方法，其可以快速完成译文样式回填，在译文中还原原文格式，显著提高翻译生产力。
[0004]为实现上述目的，本专利技术提供了一种文档翻译中智能还原原文样式的方法，包括如下步骤：
[0005]S100、解析文件获得原文，将原文翻译为译...

【技术保护点】

【技术特征摘要】
1.一种文档翻译中智能还原原文样式的方法，其特征在于，包括如下步骤：S100、解析文件获得原文，将原文翻译为译文；获取原文的特殊样式，以及译文中的修订痕迹、特殊样式，并在修订痕迹、特殊样式处使用替代字符进行替换，然后以修订痕迹、特殊样式处的字符下标值为key，字符值及样式为value存入map中；S200、识别句子并按格式分块，将原文句子按照存在样式的部分进行分割，得到原文集合；S300、将原文集合和译文集合发送到词对齐模块进行词对齐，使得原文的词和译文的词相对应；S400、根据词对齐结果还原样式，获得具有和原文相同样式的译文。2.如权利要求1所述的方法，其特征在于，S100中翻译人员可对译文进行修订、增加特殊样式。3.如权利要求1所述的方法，其特征在于，S300中词对齐的方法包括如下步骤：S310、分词使用BPE算法对不同语言文本进行分词，将原文和译文分别分割为相互对应的词；S320、词向量加载根据分词结果，加载mBERT预训练模型，使用multi
‑
head和self
‑
attention输出12层隐藏向量，选取最后一层隐藏向量作为词向量；S330、相似度计算相似度包括语义相似度和位置相似度(公式1)，语义相似度为原文词向量和译文词向量的余弦距离(公式2)，位置相似度为原文的词位置和译文的词位置的相对距离(公式3)：S
ij
＝SEM
ij
*POS
ij
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)(1)其中，S
ij
表示原文第i个词向量和译文第j个词向量的相似度，SEM
ij
表示原文第i个词向量和译文第j个词向量的语义相似度，POS
ij
表示原文第i个词向量和译文第j个词向量的位置相似度，v
i
表示原文第i个词向量，v
j
表示译文第j个词向量，l
s
表示原文的词数，l
t
表示译文的词数；α为超参数，限制位置相似度的权重；S314、词匹配原文词向量和译文词向量使用双向最优匹配，即当原文第i个词向量的相似度最高是译文第j个词向量，同时译文第j个词向量的相似度最高是原文第i个词向量时，第i个原文词向量与第j个译文词向量匹配(公式4)：...

【专利技术属性】
技术研发人员：陈件，潘丽婷，成延，
申请(专利权)人：上海一者信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人