用于自动化的文档翻译的技术制造技术

技术编号:17442062 阅读:24 留言:0更新日期:2018-03-10 14:46
用于文档自动翻译的技术。描述了用于自动化的文档翻译的技术。一种装置可包括可翻译内容组件、中间组件、以及翻译管理组件。可翻译内容组件一般可用于从原始文档中提取可翻译内容,并基于所提取的经翻译内容来构建经翻译文档,经翻译文档包括原始文档的从第一语言到第二语言的翻译。中间组件可用于根据所提取的可翻译内容创建一个或多个中间文档并从一个或多个经翻译的中间文档提取经翻译内容。翻译管理组件可用于将一个或多个中间文档传送到翻译服务以供从第一语言翻译成第二语言,并从翻译服务接收一个或多个经翻译的中间文档。对其他实施例也予以描述并要求保护。

【技术实现步骤摘要】
用于自动化的文档翻译的技术本申请是申请日为2012年11月2日并且申请号为201210435083.8的中国专利申请的分案申请。
本专利技术涉及用于自动化的文档翻译的技术。
技术介绍
语言之间的自动翻译继续变得日益可靠,使得自动翻译服务日益满足对翻译的日益增加的需求。给定诸如超文本标记语言(HTML)等通用标准的文档,自动翻译服务可以在瞬息间产生经翻译的HTML文档。然而,除HTML可能允许的之外,诸如文字处理程序等文档创建和编辑程序还允许对文档布局和样式的相当多的控制。尽管一些编辑程序可允许将文档转换成HTML格式,从而使得经转换的文档适于传送到自动翻译服务,但大量的布局和样式信息可能丢失,使得接收到的经翻译HTML文档丢失了来自原始非HTML文档的所需布局和样式信息。本专利技术的改进正是针对这些和其他考虑事项而需要的。
技术实现思路
下面提供了简化的
技术实现思路
,以便提供对此处所描述的一些新颖实施例的基本理解。本
技术实现思路
不是广泛的概览,并且它不旨在标识关键/重要元素或描绘本专利技术的范围。其唯一目的是以简化形式呈现一些概念,作为稍后呈现的更具体实施例的序言。各实施例一般涉及用于自动化的文档翻译的技术。具体而言,一些实施例涉及用于自动化的文档翻译的技术,其产生保留来自原始文档的布局和样式信息的经翻译文档。对布局和样式信息的这一保留允许产生包含在现代编辑程序中可用的全范围的丰富的布局和样式选项的高保真度的经翻译文档。在一个实施例中,例如,一种装置可包括用于从原始文档提取可翻译内容的可翻译内容组件、用于根据所提取的可翻译内容来创建一个或多个中间文档的中间组件、以及用于将该一个或多个中间文档发送给翻译服务以从第一语言翻译成第二语言并从翻译系统接收一个或多个经翻译的中间文档的翻译管理组件。中间组件还可用于从一个或多个经翻译的中间文档提取经翻译内容,并且可翻译内容组件可用于基于所提取的经翻译内容来构造经翻译文档,该经翻译文档包括原始文档的从第一语言到第二语言的翻译。对其他实施例也予以描述并要求保护。为了实现上述及相关目的,本文结合下面的描述和附图来描述某些说明性方面。这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。结合附图阅读下面的详细描述,其他优点和新颖特征将变得显而易见。附图说明图1示出了用于自动化的文档翻译的系统的实施例。图2示出了为自动化的文档翻译系统选择翻译解析器的实施例。图3B示出了自动化的文档翻译的第一逻辑流程的实施例。图3A示出了自动化的文档翻译的第二逻辑流程的实施例。图4示出了用于自动化的文档翻译的集中式系统的实施例。图5示出了用于自动化的文档翻译的分布式系统的实施例。图6示出了适用于自动化的文档翻译的计算架构的实施例。图7示出了适用于自动化的文档翻译的通信架构的实施例。具体实施方式各实施例一般涉及用于自动化的文档翻译的技术。具体而言,一些实施例涉及用于自动化的文档翻译的技术,其产生与原始文档相同格式的、保留了布局和样式信息的经翻译文档。这使得使用自动翻译服务的过程更加容易并且提高了结果的有用性。如此,降低了将文档翻译成一个或多个另选语言的成本和复杂度。具体而言,尽管产生不同格式的经翻译文档(没有完全保留文档结构和文本格式化)的自动翻译技术可能在一定程度上对于尝试阅读用他们不能阅读的语言所写的接收到的文档的用户而言够用,但希望分发经翻译文档的用户可通过经翻译文档拥有原始文档的所有布局和样式信息而获益。并且甚至仅仅希望阅读接收到的文档的翻译的那些用户将通过经翻译文档在布局和样式方面具有与原始文档相同的保真度水平而获益。结果,各实施例可以改进自动化的文档翻译的实用性和用户体验。现在将参考附图,全部附图中相同的附图标记用于指代相同的元素。在下面的描述中,为了进行说明,阐述了很多具体细节以便提供对本专利技术的全面理解。然而,显而易见,可以没有这些具体细节的情况下实施各新颖实施例。在其他情况下,以框图形式示出了各个公知的结构和设备以便于描述本专利技术。本专利技术将涵盖落入所要求保护的主题的精神和范围内的所有修改、等效方案和替换方案。图1示出翻译系统100的框图。在一个实施例中,翻译系统100可包括具有一个或多个软件应用和/或组件的计算机实现的翻译系统100。尽管图1中示出的翻译系统100具有按照某种拓扑结构的有限数量的元素,但可以理解,系统100可以视给定实现的需要而包括按照替代拓扑结构的更多或更少元素。翻译系统100可以实现用于自动化的文档翻译的各种技术。更具体而言,翻译系统100可接收原始文档105并产生经翻译文档155,其中经翻译文档155是原始文档105的从第一语言到第二语言的翻译。第一和第二语言可包括人类语言,如英语、朝鲜语、法语、西班牙语等等。经翻译文档155可包括与原始文档105相同格式的文档,其中该格式可以指应用程序的文件格式。应用程序的示例可包括但不限于:为特定操作系统设计的互相关的客户机应用、服务器应用和web服务的生产力套件,诸如由美国华盛顿州雷蒙德的微软公司制作的用于MICROSOFT的OFFICE生产力套件。客户机应用的示例可包括但不限于:MICROSOFTWORD、MICROSOFTMICROSOFTMICROSOFTMICROSOFTMICROSOFTMICROSOFTMICROSOFTPROJECT、MICROSOFTPUBLISHER、MICROSOFTWORKSPACE、MICROSOFTMICROSOFTOFFICEINTERCONNECT、MICROSOFTOFFICEPICTUREMANAGER、MICROSOFTSHAREPOINTDESIGNER、以及MICROSOFTLYNC。服务器应用的示例可包括但不限于:MICROSOFTSHAREPOINTSERVER、MICROSOFTLYNCSERVER、MICROSOFTOFFICEFORMSSERVER、MICROSOFTOFFICESERVER、MICROSOFTOFFICEPROJECTSERVER、MICROSOFTOFFICEPROJECTPORTFOLIOSERVER、以及MICROSOFTOFFICESERVER。web服务的示例可包括但不限于:MICROSOFTWINDOWSMICROSOFTOFFICEWEBAPPLICATIONS、MICROSOFTOFFICELIVE,MICROSOFTLIVEMEETING、MICROSOFTOFFICEPRODUCTWEBSITE、MICROSOFTUPDATESERVER、以及MICROSOFTOFFICE365。各实施例不限于这些示例。经翻译文档155可拥有与原始文档105相同或类似的文档结构、格式化选项、样式、和/或文本格式化。文档结构可以指文档的布局,如文本元素的定位和属性。文档结构可以指诸如图像、嵌入的音频或视频、嵌入的电子表格、或表等非文本元素的存在、属性、以及定位。文档结构可以指文本元素和非文本元素的相对定位,如文本元素在表的单元格内的定位。文档结构一般可以指文档的除文本内容和该文本内容的格式化之外的任何属性。文本格式化可以指文本的格式化属性,如字体、大小、字样、以及颜色。文本格式化一般可以指将本文档来自技高网...
用于自动化的文档翻译的技术

【技术保护点】
一种系统,包括:至少一个处理器;以及耦合到所述至少一个处理器的存储器,所述存储器包括计算机可执行指令,所述计算机可执行指令在被所述至少一个处理器执行时,执行用于提供连续的双手触摸打字的方法,所述方法包括:从原始文档提取可翻译内容;从所提取的可翻译内容创建多个中间文档,其中,所述多个中间文档包括所提取的可翻译内容;将所述多个中间文档传送给翻译服务,所述翻译服务用于从第一语言到第二语言的翻译;从所述翻译服务接收一个或多个经翻译的中间文档;从所述一个或多个经翻译的中间文档提取经翻译内容;以及构建包括所述经翻译内容的经翻译文档。

【技术特征摘要】
2011.11.03 US 13/288,1471.一种系统,包括:至少一个处理器;以及耦合到所述至少一个处理器的存储器,所述存储器包括计算机可执行指令,所述计算机可执行指令在被所述至少一个处理器执行时,执行用于提供连续的双手触摸打字的方法,所述方法包括:从原始文档提取可翻译内容;从所提取的可翻译内容创建多个中间文档,其中,所述多个中间文档包括所提取的可翻译内容;将所述多个中间文档传送给翻译服务,所述翻译服务用于从第一语言到第二语言的翻译;从所述翻译服务接收一个或多个经翻译的中间文档;从所述一个或多个经翻译的中间文档提取经翻译内容;以及构建包括所述经翻译内容的经翻译文档。2.根据权利要求1所述的系统,其中,从所述原始文档提取所述可翻译内容还包括:标识所述原始文档中的一个或多个段落;从所述一个或多个段落中提取文本;生成所提取的文本的一个或多个样式标识符;标识一个或多个文本连续;以及生成所述原始文档中的内联对象的一个或多个注释标识符。3.根据权利要求2所述的系统,其中,从所提取的可翻译内容创建所述多个中间文档包括:为每一所标识的段落创建段落标签;标识每一段落的主要样式标识符;将每一段落与其主要样式标识符进行关联;标识每一段落中的中断样式连续;为每一中断样式连续创建样式标签;以及根据所述注释标识符来创建注释标签。4.如权利要求3所述的系统,其中,所标识的段落中的一个或多个被存储为存储数据,所述存储数据包括具有相关联的样式标识符的文本连续的集合,其中,所述存储数据可用于在不存储用于所述一个或多个所标识的段落的实际文本格式化选项的情况下为所述一个或多个所标识的段落重新构建格式化。5.根据权利要求3所述的系统,其中,从所述经翻译的中间文档提取所述经翻译内容包括:标识所述经翻译的中间文档中的一个或多个经翻译段落;从所述一个或多个经翻译段落中提取经翻译文本;将每一经翻译段落的所述经翻译文本与该经翻译段落的所述相关联的主要样式标识符进行关联;标识每一经翻译段落中的经翻译的中断样式连续;将样式标识符与每一所标识的经翻译的中断样式连续的文本进行关联;标识所述经翻译的中间文档中的注释;以及将来自所标识的注释的注释标识符与它们在所提取的经翻译文本中的位置进行关联。6.根据权利要求5所述的系统,其中,基于所提取的经翻译内容来构建所述经翻译文档包括:用从所述经翻译文档的经翻译的段落所提取的经翻译文本替换来自所述原始文档的一个或多个段落的文本,其中,样式是使用所述相关联的样式标识符来分配给所提取的经翻译文本的,其中,来自所述原始文档的所述内联对象是基于与所提取的经翻译文本相关联的注释标识符来置于所述经翻译文档中的。7.根据权利要求1所述的系统,所述方法还包括:基于所述原始文档的文档类型来针对所述原始文档从多个翻译解析器中选择翻译解析器;使用所选的翻译解析器从所述原始文档提取所述可翻译内容;以及使用所选的翻译解析器基于所提取的经翻译内容来构建所述经翻译文档。8.根据权利要求7所述的系统,所述方法还包括:从所提取的可翻译内容创建所述多个中间文档以适应所述翻译服务的定义的页面数量。9.一种系统,包括:计算设备;可翻译内容组件,在所述计算设备上可操作用于从原始文档提取可翻译内容;中间组件,在所述计算设备上可操作用于从所提取的可翻译内容创建多个中间文档,其中,所述多个中间文档包括所提取的可翻译内容;翻译管理组件,在所述计算设备上可操作用于将所述一个或多个中间文档传送给翻译服务并且从所述翻译服务接收一个或多个经翻译的中间文档;所述中间组件还可操作用于从所述多个经翻译的中间文档提取经翻译内容;以及所述可翻译内容组件还可操作用于基于所提取的经翻译内容来构建经翻译文档,所述经翻译文档包括对所述原始文档的从第一语言到第二语言的翻译。10.根据权利要求9所述的系...

【专利技术属性】
技术研发人员:S·康迪C·里德
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1