翻译方法、翻译装置、电子设备及存储介质制造方法及图纸

技术编号:27006827 阅读:19 留言:0更新日期:2021-01-08 17:10
本公开提供了一种翻译方法,包括:对原文文本进行段落切分,以将原文文本切分为多个原文自然段落;将多个原文自然段落转换为原文模板文件,原文模板文件至少包括多个原文自然段落的顺序信息;对原文模板文件进行机器翻译,获得译文模板文件,译文模板文件至少包括多个译文自然段落的顺序信息;以及将原文模板文件转换为原文HTML格式文件,将译文模板文件转换为译文HTML格式文件,基于多个原文自然段落的顺序信息以及多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐。本公开还公开了翻译装置、电子设备以及存储介质。

【技术实现步骤摘要】
翻译方法、翻译装置、电子设备及存储介质
本公开涉及一种翻译方法、翻译装置、电子设备及存储介质,属于机器翻译和计算机辅助翻译

技术介绍
现有技术中的计算机辅助翻译软件和在线翻译平台,在处理officeword、excel或这两种格式转换的PDF文档时,普遍采用的方法是将格式清除,以纯文本的形式展示在在线翻译界面,例如百度翻译、谷歌翻译等等,相当于将原有格式重新排版,仅保留文本,在翻译完成后再还原为原格式下载。现有技术中的上述翻译方法存在以下弊端:翻译过程中译员无法获得纯文本之外原格式传达的信息,比如文字颜色、字体大小、背景高亮,段落关系等,特别在翻译表格、图文标题、注释等图文并茂的文件时,在线翻译体验不够友好,丢失格式信息,造成翻译过程中需要不时切换窗口查看原文件,翻译效率低下。
技术实现思路
为了解决上述技术问题中的至少一个,本公开提供了一种翻译方法、翻译装置、电子设备及存储介质。本公开的翻译方法、翻译装置、电子设备及存储介质通过以下技术方案实现。根据本公开的一个方面,提供了一种翻译方法,包括:对原文文本进行段落切分,以将所述原文文本切分为多个原文自然段落;将所述多个原文自然段落转换为原文模板文件,所述原文模板文件至少包括所述多个原文自然段落的顺序信息;对原文模板文件进行机器翻译,获得译文模板文件,所述译文模板文件至少包括多个译文自然段落的顺序信息;以及将所述原文模板文件转换为原文HTML格式文件,将所述译文模板文件转换为译文HTML格式文件,基于所述多个原文自然段落的顺序信息以及所述多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐。根据本公开的至少一个实施方式的翻译方法,所述原文模板文件还包括每个原文自然段落的语句信息,所述译文模板文件还包括每个译文自然段落的语句信息;在所述段落对齐的基础上,基于原文自然段落的语句信息以及译文自然段落的语句信息,对原文HTML格式文件以及译文HTML格式文件进行语句对齐。根据本公开的至少一个实施方式的翻译方法,对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示。根据本公开的至少一个实施方式的翻译方法,所述HTML格式文件至少包括排版布局信息、图片信息、字体信息、注释信息中的一种信息或两种以上信息。根据本公开的至少一个实施方式的翻译方法,在对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示之后,被展示地所述译文HTML格式文件能够被编辑。根据本公开的至少一个实施方式的翻译方法,所述原文模板文件以及所述译文模板文件被存储在数据库中。根据本公开的至少一个实施方式的翻译方法,在进行所述对照展示时,以段段对照的方式进行展示。根据本公开的至少一个实施方式的翻译方法,当所述译文HTML格式文件被编辑时,被编辑的语句能够被突出展示,与该被编辑的语句对齐的原文HTML格式文件的语句同时被突出展示。根据本公开的至少一个实施方式的翻译方法,当所述译文HTML格式文件被预编辑时,被预编辑的语句能够被突出展示,与该被预编辑的语句对齐的原文HTML格式文件的语句同时被突出展示。根据本公开的至少一个实施方式的翻译方法,当所述译文HTML格式文件被编辑时或者当所述译文HTML格式文件被预编辑时,将所述被编辑的语句或者将所述被预编辑的语句与所述原文HTML格式文件中的相应语句进行实时语句对齐,以使得所述原文HTML格式文件的相应语句被突出展示;被编辑的语句或者被预编辑的语句也被突出展示。根据本公开的另一个方面,提供一种翻译装置,包括:切分模块,所述切分模块对原文文本进行段落切分,以将所述原文文本切分为多个原文自然段落;第一转换模块,所述第一转换模块将所述切分模块切分后的所述多个原文自然段落转换为原文模板文件,所述原文模板文件至少包括所述多个原文自然段落的顺序信息;机器翻译模块,所述机器翻译模块对原文模板文件进行机器翻译,获得译文模板文件,所述译文模板文件至少包括多个译文自然段落的顺序信息;第二转换模块,所述第二转换模块将所述原文模板文件转换为原文HTML格式文件,将所述译文模板文件转换为译文HTML格式文件;以及对齐模块,所述对齐模块基于所述多个原文自然段落的顺序信息以及所述多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐。根据本公开的至少一个实施方式的翻译装置,所述原文模板文件还包括每个原文自然段落的语句信息,所述译文模板文件还包括每个译文自然段落的语句信息;在所述段落对齐的基础上,基于原文自然段落的语句信息以及译文自然段落的语句信息,所述对齐模块对原文HTML格式文件以及译文HTML格式文件进行语句对齐。根据本公开的至少一个实施方式的翻译装置,还包括编辑展示模块,所述编辑展示模块对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示。根据本公开的至少一个实施方式的翻译装置,所述HTML格式文件至少包括排版布局信息、图片信息、字体信息、注释信息中的一种信息或两种以上信息。根据本公开的至少一个实施方式的翻译装置,在所述编辑展示模块对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示之后,所述编辑展示模块能够接收编辑动作以使得被展示地所述译文HTML格式文件能够被编辑。根据本公开的至少一个实施方式的翻译装置,所述原文模板文件以及所述译文模板文件被存储在数据库中。根据本公开的至少一个实施方式的翻译装置,所述编辑展示模块在进行所述对照展示时,以段段对照的方式进行展示。根据本公开的至少一个实施方式的翻译装置,当所述译文HTML格式文件被编辑时,被编辑的语句能够被突出展示,与该被编辑的语句对齐的原文HTML格式文件的语句同时被突出展示。根据本公开的至少一个实施方式的翻译装置,当所述译文HTML格式文件被预编辑时,被预编辑的语句能够被突出展示,与该被预编辑的语句对齐的原文HTML格式文件的语句同时被突出展示。根据本公开的至少一个实施方式的翻译装置,当所述译文HTML格式文件被编辑时或者当所述译文HTML格式文件被预编辑时,所述对齐模块将所述被编辑的语句或者将所述被预编辑的语句与所述原文HTML格式文件中的相应语句进行实时语句对齐,以使得所述原文HTML格式文件的相应语句被所述编辑展示模块突出地展示;被编辑的语句或者被预编辑的语句也被所述编辑展示模块突出地展示。根据本公开的至少一个实施方式的翻译装置,所述编辑展示模块将编辑后的语句发送给所述机器翻译模块,所述机器翻译模块基于编辑后的语句对所述译文模板文件进行更新。根据本公开的至少一个实施方式的翻译装置,还包括确认模块,如果译文HTML格式文件的某一个或某几个段落未被编辑,所述确认模块对未被编辑的所述某一个或某几个段落进行自动确认,使得未被编辑的所述某一个或某几个段落处于确认状态。根据本公开的至少一个实施方式的翻译装置,根据本公开的至少一个实施方式本文档来自技高网...

【技术保护点】
1.一种翻译方法,其特征在于,包括:/n对原文文本进行段落切分,以将所述原文文本切分为多个原文自然段落;/n将所述多个原文自然段落转换为原文模板文件,所述原文模板文件至少包括所述多个原文自然段落的顺序信息;/n对原文模板文件进行机器翻译,获得译文模板文件,所述译文模板文件至少包括多个译文自然段落的顺序信息;以及/n将所述原文模板文件转换为原文HTML格式文件,将所述译文模板文件转换为译文HTML格式文件,基于所述多个原文自然段落的顺序信息以及所述多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐。/n

【技术特征摘要】
20200901 CN 20201090549771.一种翻译方法,其特征在于,包括:
对原文文本进行段落切分,以将所述原文文本切分为多个原文自然段落;
将所述多个原文自然段落转换为原文模板文件,所述原文模板文件至少包括所述多个原文自然段落的顺序信息;
对原文模板文件进行机器翻译,获得译文模板文件,所述译文模板文件至少包括多个译文自然段落的顺序信息;以及
将所述原文模板文件转换为原文HTML格式文件,将所述译文模板文件转换为译文HTML格式文件,基于所述多个原文自然段落的顺序信息以及所述多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐。


2.根据权利要求1所述的翻译方法,其特征在于,所述原文模板文件还包括每个原文自然段落的语句信息,所述译文模板文件还包括每个译文自然段落的语句信息;
在所述段落对齐的基础上,基于原文自然段落的语句信息以及译文自然段落的语句信息,对原文HTML格式文件以及译文HTML格式文件进行语句对齐。


3.根据权利要求1或2所述的翻译方法,其特征在于,对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示。


4.根据权利要求3所述的翻译方法,其特征在于,所述HTML格式文件至少包括排版布局信息、图片信息、字体信息、注释信息中的一种信息或两种以上信息。


5.根据权利要求3所述的翻译方法,其特征在于,在对段落对齐后的原文HTML格式文件以及译文HTML格式文件进...

【专利技术属性】
技术研发人员:周玉刘鹏李小青邓彪韩延超
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1