计算机辅助自然语言翻译制造技术

技术编号：4285864 阅读：314 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及计算机辅助自然语言翻译。公开了一种用于将源自然语言的源语料翻译成目标自然语言的计算机实现的方法和装置，该方法包括在软件进程中执行以下步骤：接收步骤，其接收所述目标自然语言的第一数据输入，所述第一数据输入包括从所述源自然语言翻译成所述目标自然语言的所述源语料的翻译的子段的第一部分；识别步骤，其识别所述目标自然语言的与所述接收的第一数据输入相关联的至少一个可选择的目标文本子段，所述至少一个可选择的目标文本子段已经从先前已翻译的文本段对的语料库中被提取出来，各文本段对包括所述源自然语言的源文本段和所述目标自然语言的对应的已翻译的文本段；以及输出步骤，其输出所述至少一个可选择的目标文本子段。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言翻译，尤其涉及用在将源自然语言的源语料翻译成目标自然语言的自然语言翻译中的计算机实现的方法和装置。
技术介绍
为了在当前机器辅助翻译项目中利用具有高翻译质量的先前已翻译的文本，翻译记忆库在自然语言翻译行业中已经使用了几十年。通常，翻译记忆库在句子级或段落 (paragraph)级对现有翻译施加影响(leverage)。由于在翻译记忆库中句子或段落的粒度 (granularity)较大，所以整个句子或段落与源文本匹配的机率是比较低的，因此可重用的量是有限的。改善对先前翻译的影响的一种方法是通过使用根据一时间段内的先前翻译而建立的术语库或多语词典。这种术语库的开发和维护需要很多努力并且通常需要熟练的术语员来输入。提取
中近期的进展可以减少从现有单语资源或双语资源中自动提取术语候选时所需的人工输入量。但是，创建和维护这样的术语库所需的人力仍然是相当大的。多种源代码文本编辑器包括以下特征在用户完全不必实际键入单词或短语的情况下预测用户想要键入的单词或短语。例如，一些诸如Microsoft Word 的文字处理软件使用内部启发来...

【技术保护点】
一种用于将源自然语言的源语料翻译成目标自然语言的由计算机实现的方法，所述方法包括在软件进程中执行以下步骤：接收步骤，其接收所述目标自然语言的第一数据输入，所述第一数据输入包括从所述源自然语言翻译成所述目标自然语言的所述源语料的翻译的子段的第一部分；识别步骤，其识别所述目标自然语言的与所述接收的第一数据输入相关联的至少一个可选择的目标文本子段，所述至少一个可选择的目标文本子段已经从先前已翻译的文本段对的语料库中被提取出来，各文本段对包括所述源自然语言的源文本段和所述目标自然语言的对应的已翻译的文本段；以及输出步骤，其输出所述至少一个可选择的目标文本子段。

【技术特征摘要】
GB 2009-3-2 0903418.2一种用于将源自然语言的源语料翻译成目标自然语言的由计算机实现的方法，所述方法包括在软件进程中执行以下步骤接收步骤，其接收所述目标自然语言的第一数据输入，所述第一数据输入包括从所述源自然语言翻译成所述目标自然语言的所述源语料的翻译的子段的第一部分；识别步骤，其识别所述目标自然语言的与所述接收的第一数据输入相关联的至少一个可选择的目标文本子段，所述至少一个可选择的目标文本子段已经从先前已翻译的文本段对的语料库中被提取出来，各文本段对包括所述源自然语言的源文本段和所述目标自然语言的对应的已翻译的文本段；以及输出步骤，其输出所述至少一个可选择的目标文本子段。2.根据权利要求1所述的方法，其中，以适于供翻译系统操作者审阅的形式来输出所述识别出的目标文本子段，由此可以选择所述至少一个识别出的目标子段用于将所述源语料翻译成所述目标自然语言。3.根据权利要求1所述的方法，该方法包括以下步骤接收第二数据输入，所述第二数据输入包括从所述至少一个输出的目标子段中选择的用于将所述源语料翻译成所述目标自然语言的一个目标文本子段。4.根据权利要求1所述的方法，该方法包括以下步骤从先前已翻译的文本段对的语料库中提取目标文本子段，其中，从所述语料库中提取目标文本子段包括计算在所述先前已翻译的文本段对中的所述源文本段中的单词与所述对应的已翻译的文本段中的单词之间的同现测度。5.根据权利要求1所述的方法，其中，输出多个可选择的目标文本子段。6.根据权利要求5所述的方法，其中，输出的可选择的目标文本子段的数量由预定的用户可配置的阈值来限定。7.根据权利要求5所述的方法，该方法包括以下步骤在所述输出中对给定目标文本子段进行强调，该给定目标文本子段是从所述多个可选择的目标文本子段中选择出来作为最佳初始选择。8.根据权利要求1所述的方法，其中，所述第一数据输入包括许多文本字符，并且所述识别步骤包括以下步骤识别具有与所述第一数据输入中的文本字符相对应的文本字符的目标文本子段。9.根据权利要求8所述的方法，其中，响应于所述第一数据输入达到预定数量文本字符而输出所述至少一个可选择的目标子段以供翻译系统操作者审阅。10.根据权利要求9所述的方法，其中，所述预定数量的文本字符是用户可配置的。11.根据权利要求1所述的方法，其中，所述识别步骤包括以下步骤识别所述目标自然语言的与所述接收的第一数据输入相关联的多个目标文本子段，所述多个目标文本子段已经从所述双语语料库中被提取出来，所述方法包括以下步骤接收所述目标自然语言的第三数据输入，所述第三数据输入包括从所述源自然语言翻译成所述目标自然语言的所述源语料的翻译的第二部分；从与所述接收的第一数据输入和第三数据输入相关联的所述多个识别出的目标文本子段中生成可选择的目标文本子段的子集，其中，所述输出步骤包括以下步骤输出所述生成的可选择的目标文本子段的子集以供所述翻译系统操作者审阅。12.根据权利要求1所述的方法，其中，如果在所述识别步骤中识别出多个目标文本子段，则...

【专利技术属性】
技术研发人员：基思米尔斯，奥利弗克里斯特，埃里克德弗里泽，刘兴曾，
申请(专利权)人：SDL有限公司，
类型：发明
国别省市：GB[英国]

全部详细技术资料下载我是这个专利的主人