中英翻译方法和系统技术方案

技术编号:2841934 阅读:161 留言:0更新日期:2012-04-11 18:40
一种中英翻译工具(CETT),该工具通过对专有名词和西文字符进行独立的搜索来定位短语的预存在(pre-existing)翻译并增大匹配的可能性。该CETT包含了一个增强程序,一个搜索程序以及一个显示程序。该CETT被适配成访问一个翻译数据库和一个专有名词数据库。所述翻译数据库是已翻译文献积累的中心储存库。所述专有名词数据库则是一个显示专有名词的英文与中文之间的关联的表格。

【技术实现步骤摘要】

本专利技术主要涉及的是由计算机实施的中英翻译方法,尤其涉及的是对从句、专有名词(proper noun)以及嵌入的西文字符的自动翻译加以改进的方法。
技术介绍
那些为国际企业提供网络服务和面向服务架构的公司包含了将外语翻译成英文的服务。自动翻译工具可以提供实时翻译能力。但例如中文的亚洲语言在被自动翻译成英文时会产生特殊的问题。例如,当前的自动英中翻译技术并没有考虑到语言之间的习语差别。因此,将中文翻译成英文的自动字面翻译很少与普通日常的英文相类似,并且只有借助于中文语言专家的手动翻译才能得到恰当的译文。然而,目前有大量的中文文献已被翻译成了英文。并且在文献翻译过程中顾及了习语。目前有数量相当大的这种翻译的文献。这些经过翻译的文献作品已被巧妙地从中文翻译成了英文,反之亦然。此外,目前存在一种以数字方式来获取和存储这些译文的技术,由此可以高速搜索数据。举例来说,如果能够使用64位计算处理以及很大的存储器,则允许有效高速地搜索以这种方式获取的译文。对本领域技术人员来说,用于将中文文献转换成数字格式的多种技术都是已知的。中文是一种具有特定字符顺序的良构语言。中文在字词之间是没有空格的,但是中文使用了逗号来分离从句并在句末使用了句号。在字词之间不存在空格,并且每一个字符都具有特定的含义。由于在大量文献中发现匹配的机会很多,因此,中文所具有的这些特征增大了将已翻译文献的电子文件用于自动中英翻译处理的可能性。此外,中文并不具有实际语态、性、格或复数,由此将会显著减少不同语句结构的多样性。如果可以执行此类搜索,那么将会存在几个问题。首先,专有名词可以用多种方式翻译。举例来说,在英文中,我们提到“Yangtze”是指中国的一条主要河流。但在中文中,这个所指的是一种生活在河口的鱼。所述河流本身实际被称为“Chang Jiang”,其字面意思是“长河”。此外,另一个实例是与Bei Jing相对的Peking或是“Imperial Palace”。虽然在中文中没有大写字母,但是从句子的结构中是可以很容易识别出专有名词的。其次,当今使用的现代中文具有很多嵌入的西文字符,例如数字、名称和网址。这些嵌入的西文字符并不需要翻译,但是其在所要翻译的中文文本内部的定位有可能降低匹配的可能性。如果在与嵌入的西文字符相独立的情况下执行翻译处理,那么这种翻译的精度是可以得到改善的。现代中文使用了这其中的很多内容,尤其是数字。目前需要的是一种通过利用现有的专家翻译的优点来提高从中文到英文的自动翻译的翻译精度。此外,目前还需要通过将专有名词和嵌入的西文字符的影响作用于此类搜索从而进一步提高精度。
技术实现思路
本专利技术满足了上述需要,是一种通过对专有名词和西文字符进行独立的搜索来定位短语的预存在(pre-existing)翻译并增大匹配的可能性的中英翻译工具(CETT)。CETT包含了一个增强程序,一个搜索程序以及一个显示程序。该CETT被适配成访问一个翻译数据库和一个专有名词数据库。所述翻译数据库是已翻译文献积累的中心储存库。所述专有名词数据库则是一个显示专有名词的英文与中文之间的关联的表格。该增强程序使用标记来替换在翻译数据库中的已翻译文献积累的西文字符,以使翻译搜索可以完全集中在中文字符上,由此增大了匹配的机会。该增强程序还会识别翻译数据库中的专有名词,并且通过使用其它指示专有名词的字符来标记该专有名词。所述专有名词既可以被搜索也可以被忽略,这一点是由搜索程序决定的。该专有名词还关联于一个专有名词表,所述专有名词表为这些专有名词提供英文与中文之间的关联。由此,在发现匹配之后,该表格将会提供正确的替换方式。搜索程序被适配成访问翻译数据库,其中该翻译数据库包含了已翻译文献和字典的积累。该搜索程序将会通过搜索翻译文献积累来寻找匹配。该搜索是在没有去除专有名词的情况下完成的。如果不存在匹配,则通过调用增强程序来去除该专有名词。如果发现匹配的从句,则该从句被选择从而加以显示。如果存在重复翻译,则选择任意一方的从句来显示,并且确定哪一个从句群组是最为匹配。然后,来自最匹配群组的中心从句将被选择,从而加以显示。如果不存在匹配,则使用字面翻译处理并且用这些字面翻译写成一个日志。顶尖学者的翻译服务将会恰当地翻译这些译文,并且数据库将会得到更新。显示程序将会并排显示中文和英文来源,并且高亮显示那些被搜索程序识别为匹配的文本,然后则会提示用户选择或核实所述译文。该显示程序允许用户在任意一侧修改高亮显示的文本,以便纠正习语的翻译匹配。该CETT可以是能够与搜索或翻译引擎(或Web浏览器)整合的可插入模块。附图说明在附加的权利要求中将会描述那些被认为是本专利技术的特征的新颖特性。但是,通过参考结合着附图来阅读的下文中关于说明性实施例的详细描述,可以最大限度地理解本专利技术本身、其优选使用模式以及其它的目的和优点,其中图1是用于实施本专利技术的计算机网络的图示; 图2是包含了翻译系统组件的存储器的图示;图3是数据库增强程序的流程图;图4是搜索程序的流程图;以及图5是显示程序的流程图。具体实施例方式本专利技术的原理适用于多种计算机硬件和软件结构。这里使用的术语“计算机硬件”或“硬件”是指任何能够接受数据、对数据执行逻辑操作、存储数据或显示数据的机器或设备,并且所述机器或设备不限制地包含了处理器和存储器;术语“计算机软件”或“软件”指示任何可以操作使得计算机硬件执行操作的指令集。在这里使用的术语“计算机”包括但不局限于硬件和软件的任何可用组合,并且“计算机程序”或“程序”包括但不局限于任何可以操作使得计算机硬件接受数据、对数据执行逻辑操作、存储数据或显示数据的软件。所述计算机程序可以并且通常是由多个较小的编程单元组成的,这其中包括但不局限于子例程、模块、函数、方法和程序。因此,本专利技术的功能可以分布在多个计算机和计算机程序中。但是,本专利技术是作为单个的计算机程序而被最佳描述的,其中该计算机程序配置和启用一个或多个通用计算机,以便实施本专利技术的新颖方面。出于例证目的,本分专利技术的计算机程序将被称为“中英翻译工具”(CETT)。此外如图1所示,在下文中参考着例示的硬件设备网络来描述CETT。“网络”包含了任意数量的硬件设备,这些硬件设备通过例如因特网的通信介质互相连接并且进行通信。“通信介质”包括但不局限于任何物理、光学、电磁或其它介质,而硬件或软件则可以借助这些介质来传送数据。为了便于描述,示例网络100只具有有限数量的节点,这其中包含了工作站计算机105、工作站计算机110、服务器计算机115以及永久存储器120。网络连接125包括在网络节点105~120之间启动通信所需要的所有的硬件、软件和通信介质。除非在下文中以其它方式加以指示,否则所有网络节点都是使用公众可用的协议或消息传递服务而通过网络连接125来进行相互通信的。CETT 200通常保存在示意性地表示为图2中的存储器220的存储器中。这里使用的术语“存储器”包括但不局限于任何可供计算机在任何持续时间内存储数据或软件的易失或永久存储器,例如电子电路、磁盘或光盘。单个存储器可以包含多种介质,并且可以分布在多种介质中。因此,图2仅仅是作为描述性的权宜手段而被包含的,并且图2未必反映存储器220所具有的任何特定的物理实施例。CETT 本文档来自技高网
...

【技术保护点】
一种方法,包括:    显示字面翻译;    标识字面翻译中的从句;    在数据库中搜索相匹配从句,其中该数据库包含了多个在先前经过中英翻译的文本;以及    响应于匹配从句的定位,显示该匹配从句的英文翻译。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:约翰W邓斯莫伊尔陈彦甫
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1