【技术实现步骤摘要】
用于自动化的文档翻译的技术本申请是申请日为2012年11月2日并且申请号为201210435083.8的中国专利申请的分案申请。
本专利技术涉及用于自动化的文档翻译的技术。
技术介绍
语言之间的自动翻译继续变得日益可靠,使得自动翻译服务日益满足对翻译的日益增加的需求。给定诸如超文本标记语言(HTML)等通用标准的文档,自动翻译服务可以在瞬息间产生经翻译的HTML文档。然而,除HTML可能允许的之外,诸如文字处理程序等文档创建和编辑程序还允许对文档布局和样式的相当多的控制。尽管一些编辑程序可允许将文档转换成HTML格式,从而使得经转换的文档适于传送到自动翻译服务,但大量的布局和样式信息可能丢失,使得接收到的经翻译HTML文档丢失了来自原始非HTML文档的所需布局和样式信息。本专利技术的改进正是针对这些和其他考虑事项而需要的。
技术实现思路
下面提供了简化的
技术实现思路
,以便提供对此处所描述的一些新颖实施例的基本理解。本
技术实现思路
不是广泛的概览,并且它不旨在标识关键/重要元素或描绘本专利技术的范围。其唯一目的是以简化形式呈现一些概念,作为稍后呈现的更具体实施例的序言。各实施例一般涉及用于自动化的文档翻译的技术。具体而言,一些实施例涉及用于自动化的文档翻译的技术,其产生保留来自原始文档的布局和样式信息的经翻译文档。对布局和样式信息的这一保留允许产生包含在现代编辑程序中可用的全范围的丰富的布局和样式选项的高保真度的经翻译文档。在一个实施例中,例如,一种装置可包括用于从原始文档提取可翻译内容的可翻译内容组件、用于根据所提取的可翻译内容来创建一个或多个中间文档的中间组件 ...
【技术保护点】
一种系统,包括:至少一个处理器;以及耦合到所述至少一个处理器的存储器,所述存储器包括计算机可执行指令,所述计算机可执行指令在被所述至少一个处理器执行时,执行用于提供连续的双手触摸打字的方法,所述方法包括:从原始文档提取可翻译内容;从所提取的可翻译内容创建多个中间文档,其中,所述多个中间文档包括所提取的可翻译内容;将所述多个中间文档传送给翻译服务,所述翻译服务用于从第一语言到第二语言的翻译;从所述翻译服务接收一个或多个经翻译的中间文档;从所述一个或多个经翻译的中间文档提取经翻译内容;以及构建包括所述经翻译内容的经翻译文档。
【技术特征摘要】
2011.11.03 US 13/288,1471.一种系统,包括:至少一个处理器;以及耦合到所述至少一个处理器的存储器,所述存储器包括计算机可执行指令,所述计算机可执行指令在被所述至少一个处理器执行时,执行用于提供连续的双手触摸打字的方法,所述方法包括:从原始文档提取可翻译内容;从所提取的可翻译内容创建多个中间文档,其中,所述多个中间文档包括所提取的可翻译内容;将所述多个中间文档传送给翻译服务,所述翻译服务用于从第一语言到第二语言的翻译;从所述翻译服务接收一个或多个经翻译的中间文档;从所述一个或多个经翻译的中间文档提取经翻译内容;以及构建包括所述经翻译内容的经翻译文档。2.根据权利要求1所述的系统,其中,从所述原始文档提取所述可翻译内容还包括:标识所述原始文档中的一个或多个段落;从所述一个或多个段落中提取文本;生成所提取的文本的一个或多个样式标识符;标识一个或多个文本连续;以及生成所述原始文档中的内联对象的一个或多个注释标识符。3.根据权利要求2所述的系统,其中,从所提取的可翻译内容创建所述多个中间文档包括:为每一所标识的段落创建段落标签;标识每一段落的主要样式标识符;将每一段落与其主要样式标识符进行关联;标识每一段落中的中断样式连续;为每一中断样式连续创建样式标签;以及根据所述注释标识符来创建注释标签。4.如权利要求3所述的系统,其中,所标识的段落中的一个或多个被存储为存储数据,所述存储数据包括具有相关联的样式标识符的文本连续的集合,其中,所述存储数据可用于在不存储用于所述一个或多个所标识的段落的实际文本格式化选项的情况下为所述一个或多个所标识的段落重新构建格式化。5.根据权利要求3所述的系统,其中,从所述经翻译的中间文档提取所述经翻译内容包括:标识所述经翻译的中间文档中的一个或多个经翻译段落;从所述一个或多个经翻译段落中提取经翻译文本;将每一经翻译段落的所述经翻译文本与该经翻译段落的所述相关联的主要样式标识符进行关联;标识每一经翻译段落中的经翻译的中断样式连续;将样式标识符与每一所标识的经翻译的中断样式连续的文本进行关联;标识所述经翻译的中间文档中的注释;以及将来自所标识的注释的注释标识符与它们在所提取的经翻译文本中的位置进行关联。6.根据权利要求5所述的系统,其中,基于所提取的经翻译内容来构建所述经翻译文档包括:用从所述经翻译文档的经翻译的段落所提取的经翻译文本替换来自所述原始文档的一个或多个段落的文本,其中,样式是使用所述相关联的样式标识符来分配给所提取的经翻译文本的,其中,来自所述原始文档的所述内联对象是基于与所提取的经翻译文本相关联的注释标识符来置于所述经翻译文档中的。7.根据权利要求1所述的系统,所述方法还包括:基于所述原始文档的文档类型来针对所述原始文档从多个翻译解析器中选择翻译解析器;使用所选的翻译解析器从所述原始文档提取所述可翻译内容;以及使用所选的翻译解析器基于所提取的经翻译内容来构建所述经翻译文档。8.根据权利要求7所述的系统,所述方法还包括:从所提取的可翻译内容创建所述多个中间文档以适应所述翻译服务的定义的页面数量。9.一种系统,包括:计算设备;可翻译内容组件,在所述计算设备上可操作用于从原始文档提取可翻译内容;中间组件,在所述计算设备上可操作用于从所提取的可翻译内容创建多个中间文档,其中,所述多个中间文档包括所提取的可翻译内容;翻译管理组件,在所述计算设备上可操作用于将所述一个或多个中间文档传送给翻译服务并且从所述翻译服务接收一个或多个经翻译的中间文档;所述中间组件还可操作用于从所述多个经翻译的中间文档提取经翻译内容;以及所述可翻译内容组件还可操作用于基于所提取的经翻译内容来构建经翻译文档,所述经翻译文档包括对所述原始文档的从第一语言到第二语言的翻译。10.根据权利要求9所述的系...
【专利技术属性】
技术研发人员:S·康迪,C·里德,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。