一种基于标签的文本翻译系统技术方案

技术编号:27686567 阅读:17 留言:0更新日期:2021-03-17 04:01
本发明专利技术涉及一种基于标签的文本翻译系统,其中,包括:标记模块用于对不同格式文本添加起始符与结束符,通过起始符与结束符来识别需要翻译的位置;转义模块将原文本中首行空格和符号标记,使翻译模块不会将这些字符作为格式处理掉;翻译模块识别文本中需要翻译的区域,编写翻译程序,或调用网络接口,对标记内需要翻译的内容进行翻译;词库记录专有名词,用以记录专有名词和替换字符串之间一一对应的关系。本发明专利技术提出一种自动化翻译的系统,在原始文档中添加标签,程序将通过标签定位自动识别需要翻译的区域,实现在特定格式下,翻译出正确的文本内容,提高文本翻译的速度。

【技术实现步骤摘要】
一种基于标签的文本翻译系统
本专利技术涉及文本翻译技术,特别涉及一种基于标签的文本翻译系统。
技术介绍
文本批量翻译技术是将文本存储的语言通过计算机翻译成另一种语言的技术。随着翻译技术日益成熟,互联网翻译成本越来越低,在互联网,金融,政府,电信等行业的日常工作中对文本进行的需求也越来越大。对自动化翻译的文献及专利技术相对较少。目前,使用较多的翻译方式有两种,一是在线翻译网站,例如百度翻译,网易有道翻译,谷歌翻译。使用时将需要翻译的文本直接复制到工具网站内,即可翻译。二是使用软件翻译,这类软件可以是专门的翻译软件,也可以是以插件或功能模块的形式。以OfficeWord2016为例,打开需要翻译的文这个档,选择“审阅”面板,在“语言”选项卡下,点击【翻译】按钮,可选择翻译模式,“翻译这个文档”,“翻译所选文字”,“翻译屏幕提示”。可按需要对不通部分进行翻译。使用网页翻译需要手动选择翻译区域,对于内容较多,格式复杂的文本则需要耗费大量时间,以及人力成本。使用软件及插件对文本内容进行翻译,虽然不需要手动进行复制粘贴,但插件无法识别带有格式的文本信息,以及无法识别特有名称,例如TS文件内有不同标签,而标签内容是不需要进行翻译的。翻译软件无法区分标签及翻译内容。
技术实现思路
本专利技术的目的在于提供一种基于标签的文本翻译系统,用于解决上述现有技术的问题。本专利技术一种基于标签的文本翻译系统,其中,包括:标记模块,转义处理模块,翻译模块以及词库;标记模块用于对不同格式文本添加起始符与结束符,通过起始符与结束符来识别需要翻译的位置;转义模块将原文本中首行空格和符号标记,使翻译模块不会将这些字符作为格式处理掉;翻译模块识别文本中需要翻译的区域,编写翻译程序,或调用网络接口,对标记内需要翻译的内容进行翻译;词库记录专有名词,用以记录专有名词和替换字符串之间一一对应的关系,翻译包括:接收待翻译文件;转义处理模块,对字符进行转义;标记模块,对文本插入标记;翻译模块,替换文本中不需要翻译的关键词;翻译模块,对处理后的文档进行翻译;翻译模块,将关键词由替换字符还原为原字符串写入缓存中;标记模块,将翻译起始符与结束符去除,并将文件写入缓存;转义处理模块,将被转义的字符还原为原字符。根据所述的基于标签的文本翻译系统的一实施例,其中,标记模块中,定义$b$符号为翻译起始符号,$e$符号为翻译结束符号。根据所述的基于标签的文本翻译系统的一实施例,其中,标记模块中不同的文件类型均对应一套逻辑判断,在标记不同类型的文本时,使用不同的逻辑对文本添加标记,通过逻辑判断,将起始符号和结束符号插入文本中。根据所述的基于标签的文本翻译系统的一实施例,其中,对标记内需要翻译的内容进行翻译,包括百度翻译API、谷歌翻译API以及网易有道翻译API开放接口。根据所述的基于标签的文本翻译系统的一实施例,其中,翻译模块使用不同的字符对文本中专有名词进行替换,通过替换后的字符识别不需要翻译的词,并调用词库进行专有名词比对。根据所述的基于标签的文本翻译系统的一实施例,其中,翻译模块定义一种类型的标签,将标签写入带有格式的文本中,通过逻辑判断与循环语句,识别出添加标签的区域,通过调用接口或编写的翻译程序对标签内的文本进行翻译。根据所述的基于标签的文本翻译系统的一实施例,其中,翻译模块对于每种格式设定单独的逻辑以添加启始符和结束符。根据所述的基于标签的文本翻译系统的一实施例,其中,通过主程序控制标记模块,转义处理模块,翻译模块以及词库。根据所述的基于标签的文本翻译系统的一实施例,其中,在主程序中改变文件类型,在标记模块中修改对应逻辑文件路径,在添加标记时使用与翻译类型匹配的逻辑文件,逻辑文件用于给不同类型格式的文本添加标记;逻辑文件中,通过判断语句与条件循环对需翻译的区域添加标签。本专利技术提出一种自动化翻译的系统,通过向目标翻译文本内添加标签让软件可以自动识别需要翻译的文本区域。在原始文档中添加标签,程序将通过标签定位自动识别需要翻译的区域,实现在特定格式下,翻译出正确的文本内容。提高文本翻译的速度。附图说明图1为程序结构图;图2为关键词库;图3为翻译流程图。具体实施方式为使本专利技术的目的、内容、和优点更加清楚,下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。本专利技术软件分为三个模块,标记模块,转义处理模块,翻译模块以及一个专有名词库。这三个模块通过主程序进行调用。如图1所示,标记模块用于对不同格式文本添加起始符与结束符,从而程序通过起始符与结束符来识别哪些位置需要翻译。在标记模块中,定义$b$符号为翻译起始符号,$e$符号为翻译结束符号。每一种类型的文本由于其格式不同,无法使用统一的逻辑程序添加标记,因此模块中不同的文件类型均对应一套逻辑判断(一个文件),在标记不同类型的文本时,使用不同的逻辑对文本添加标记,通过逻辑判断,将起始符号和结束符号插入文本中。转义模块将原文本中首行空格,$符号等需要字符加上标记,具体内容根据不同格式文本而定。使翻译模块不会将这些字符当做格式处理掉。翻译模块识别文本中需要翻译的区域,自行编写翻译程序,也可调用网络接口,对标记内(需要翻译的部分)的内容进行翻译,包括百度翻译API,谷歌翻译API,网易有道翻译API等开放接口。并且使用一系列不同的字符对文本中名称,地点,姓名等专有名词进行替换,程序通过替换后的字符识别哪些词不需要翻译。例如Inthephoto,hehasapieceofpaperinhishand.Itreads"Iloveyou".TomwasmovedWhenhesawthisphoto.Iloveyou不应被翻译,因此这里将“Iloveyou”字符转换为“AA%1AA”,“Tom”将替换为“AA%2AA”。程序中将建立专有名词库记录专有名词,词库需手动录入,用以记录专有名词和替换字符串之间一一对应的关系,如下图2所示,程序启动时调用词库进行比对。如图3所示,翻译流程包括:主程序接收待翻译文件,将文件路径写入程序中。判断要翻译的文本类型,选取相对应的插入标记逻辑。调用转义处理模块,对字符进行转义调用标记模块,对文本插入标记(启始符$b$与结束符$e$)。调用翻译模块,替换文本中不需要翻译的关键词(专有名词)。调用翻译模块,对处理后的文档进行翻译。翻译可调取网络接口,也可以自己编写程序实现翻译。调用翻译模块,将关键词由替换字符还原为原字符串写入缓存中。调用标记模块,将翻译起始符($b$)与结束符($e$)去除,并将文件写入缓存。调用转义处理模块,将被转义的字符还原为原字符。将最终结果输出至文件。本专利技术关键点在于首先定义一种类型的标签(本专利技术使用“$b$”作为起始标签,使用“$e$”作为结束标签),其次将标签写入带有格式的文本中,通过逻辑判断与循环语句,识别出添加标签的区域,通过调用接本文档来自技高网...

【技术保护点】
1.一种基于标签的文本翻译系统,其特征在于,包括:标记模块,转义处理模块,翻译模块以及词库;/n标记模块用于对不同格式文本添加起始符与结束符,通过起始符与结束符来识别需要翻译的位置;/n转义模块将原文本中首行空格和符号标记,使翻译模块不会将这些字符作为格式处理掉;/n翻译模块识别文本中需要翻译的区域,编写翻译程序,或调用网络接口,对标记内需要翻译的内容进行翻译;/n词库记录专有名词,用以记录专有名词和替换字符串之间一一对应的关系,/n翻译包括:/n接收待翻译文件;/n转义处理模块,对字符进行转义;/n标记模块,对文本插入标记;/n翻译模块,替换文本中不需要翻译的关键词;/n翻译模块,对处理后的文档进行翻译;/n翻译模块,将关键词由替换字符还原为原字符串写入缓存中;/n标记模块,将翻译起始符与结束符去除,并将文件写入缓存;/n转义处理模块,将被转义的字符还原为原字符。/n

【技术特征摘要】
1.一种基于标签的文本翻译系统,其特征在于,包括:标记模块,转义处理模块,翻译模块以及词库;
标记模块用于对不同格式文本添加起始符与结束符,通过起始符与结束符来识别需要翻译的位置;
转义模块将原文本中首行空格和符号标记,使翻译模块不会将这些字符作为格式处理掉;
翻译模块识别文本中需要翻译的区域,编写翻译程序,或调用网络接口,对标记内需要翻译的内容进行翻译;
词库记录专有名词,用以记录专有名词和替换字符串之间一一对应的关系,
翻译包括:
接收待翻译文件;
转义处理模块,对字符进行转义;
标记模块,对文本插入标记;
翻译模块,替换文本中不需要翻译的关键词;
翻译模块,对处理后的文档进行翻译;
翻译模块,将关键词由替换字符还原为原字符串写入缓存中;
标记模块,将翻译起始符与结束符去除,并将文件写入缓存;
转义处理模块,将被转义的字符还原为原字符。


2.如权利要求1所述的基于标签的文本翻译系统,其特征在于,标记模块中,定义$b$符号为翻译起始符号,$e$符号为翻译结束符号。


3.如权利要求1所述的基于标签的文本翻译系统,其特征在于,标记模块中不同的文件类型均对应一套逻辑判断,在标记不同类型的文本时,使用不同的逻辑对文本添加标记,通过逻辑判断,将起始符号和结...

【专利技术属性】
技术研发人员:付长杰黄亚杰马俊杰姜瀚瞿秋薏苏玉娇
申请(专利权)人:航天科工网络信息发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1