【技术实现步骤摘要】
一种多种语言混合文件的翻译方法及装置
本专利技术属于翻译
,具体涉及一种多种语言混合文件的翻译方法及装置。
技术介绍
机器翻译是自然语言处理的翻译范围,主要研究如何将一种语言自动翻译为另外一种语言,解决人们之间的语言障碍问题。经过几十年的发展,机器翻译性能逐步提升,翻译效果显著提高。文件翻译是机器翻译的重要应用场景,用于将一种语言的输入文件,自动翻译为另一种语言。然而,现有的文件翻译方法,只能处理单一语种的翻译任务,即输入文件中只包含一种语言,无法处理输入文件中包括多种语种的翻译任务。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供一种多种语言混合文件的翻译方法及装置,可有效解决上述问题。本专利技术采用的技术方案如下:本专利技术提供一种多种语言混合文件的翻译方法,包括以下步骤:步骤1,接收包含多种语言的待翻译文件;步骤2,预存储每种文件类型与文件解析模块的对应关系表;对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型;然后,根据 ...
【技术保护点】
1.一种多种语言混合文件的翻译方法,其特征在于,包括以下步骤:/n步骤1,接收包含多种语言的待翻译文件;/n步骤2,预存储每种文件类型与文件解析模块的对应关系表;/n对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型;然后,根据待翻译文件的文件类型,查找所述对应关系表,得到对应的文件解析模块;/n步骤3,步骤2得到的所述文件解析模块,对所述待翻译文件进行文件解析,将所述待翻译文件解析成待翻译的文本;/n其中,所述待翻译的文本包括文本内容信息以及文本属性信息;所述文本属性信息包括文本中每个句子在文本中的位置信息、文本中每个句子的格式信息、文本中每个句子的类型信息;其 ...
【技术特征摘要】
1.一种多种语言混合文件的翻译方法,其特征在于,包括以下步骤:
步骤1,接收包含多种语言的待翻译文件;
步骤2,预存储每种文件类型与文件解析模块的对应关系表;
对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型;然后,根据待翻译文件的文件类型,查找所述对应关系表,得到对应的文件解析模块;
步骤3,步骤2得到的所述文件解析模块,对所述待翻译文件进行文件解析,将所述待翻译文件解析成待翻译的文本;
其中,所述待翻译的文本包括文本内容信息以及文本属性信息;所述文本属性信息包括文本中每个句子在文本中的位置信息、文本中每个句子的格式信息、文本中每个句子的类型信息;其中,所述每个句子的类型信息包括:普通类型信息、第一特定类型信息以及第二特定类型信息;所述第一特定类型信息包括公式类型、科学单位类型和程序代码类型;所述第二特定类型信息包括时间类型、日期类型、金额类型、人名类型和术语类型;
步骤4,将所述文本内容信息以段落为单位进行切分,得到段落级的内容信息;然后,对于段落级的内容信息中的每个段落,再以句子为单位进行切分,得到句子级的内容信息;
对于句子级的内容信息中的每个句子,调用预训练完成的文本翻译类型分类器,识别出每个句子的类型信息;
如果句子的类型为第一特定类型信息,则对该句子不进行翻译,直接按照文本属性信息,调用译文回填模块,将句子直接回填到待翻译文件中;
如果句子的类型为第二特定类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的规则翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
如果句子的类型为普通类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的普通翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
步骤5,当对所述文本内容信息中的每个句子均进行步骤4的处理后,得到翻译后的文件;输出所述翻译后的文件;所述翻译后的文件与步骤1接收到的所述待翻译文件的文件类型相同。
2.根据权利要求1所述的一种多种语言混合文件的翻译方法,其特征在于,步骤2中,所述文件类型包括word文件类型和Excel文件类型。
3.根据权利要求1所述的一种多种语言混合文件的翻译方法,其特征在于,步骤3中,文本中每个句子在文本中的位置信息包括:页眉位置、页脚位置、脚注位置、尾注位置、标题位置、正文位置、表格位置和图位置;其中,所述正文位置是指在正文中的段号和句子号;表格位置是指:表格表号以及在对应表格中的行号列号;图位置是指:图的图号以及在对应图中的具体位置。
<...
【专利技术属性】
技术研发人员:刘鹏,周玉,邓彪,
申请(专利权)人:北京中科凡语科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。