【技术实现步骤摘要】
翻译模板确定、机器翻译方法及装置
本申请涉及机器翻译
,尤其涉及一种翻译模板确定方法及装置,以及一种机器翻译方法及装置。
技术介绍
机器翻译,又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。统计机器翻译系统,具有很强的泛化能力,通过对大规模平行数据进行自动学习,可以翻译任何句子,但是对于翻译结果的质量往往无法保证。为了有效利用已有的质量较好的平行句对,便有了翻译记忆的方法。所述翻译记忆,又称为翻译内存,(TranslationMemory,TM),是计算机辅助翻译技术之一,是一种用于存储原文本及其译文的语言数据库。而传统的翻译记忆通常用于计算机辅助翻译(Computeraidedtranslation,CAT)中,目前常见的手段是对翻译实例进行模板库和术语库构建,通过对翻译实例库、术语库、模板库的综合应用,最大限度的利用已有双语平行语料来获取较高质量的翻译结果。其中,通过对翻译实例进行抽象从而获取翻译模板的过程,是翻译记忆系统中非常重要的模块。所述翻译实例,可以是预设的训练语句,即一句话。所谓翻 ...
【技术保护点】
一种翻译模板确定方法,其特征在于,包括:将翻译实例与预设的短语集合进行匹配,确定所述翻译实例中的匹配短语;确定所述匹配短语的变量标记;按照所述翻译实例中各短语的位置,将所述翻译实例中的短语与所述匹配短语的变量标记进行组合,得到至少一种组合形式的翻译模板。
【技术特征摘要】
1.一种翻译模板确定方法,其特征在于,包括:将翻译实例与预设的短语集合进行匹配,确定所述翻译实例中的匹配短语;确定所述匹配短语的变量标记;按照所述翻译实例中各短语的位置,将所述翻译实例中的短语与所述匹配短语的变量标记进行组合,得到至少一种组合形式的翻译模板。2.根据权利要求1所述的方法,其特征在于,该方法还包括:对于存在相邻的匹配短语的变量标记的翻译模板,将该翻译模板中的相邻的匹配短语的变量标记进行合并。3.根据权利要求1所述的方法,其特征在于,该方法还包括:对于存在多个匹配短语的变量标记的翻译模板,将该翻译模板中的各匹配短语的变量标记进行编号。4.根据权利要求1所述的方法,其特征在于,该方法还包括:按照预设规则,对所述翻译模板进行过滤。5.根据权利要求4所述的方法,其特征在于,所述按照预设规则,对所述翻译模板进行过滤,具体包括:过滤满足如下条件之一或组合的翻译模板:翻译模板的覆盖度小于预设的覆盖度阈值;翻译模板的抽象度小于预设的抽象度阈值;翻译模板去掉变量标记后的词的数量小于预设的数量阈值;其中,所述翻译模板的覆盖度,是按照该翻译模板所覆盖的翻译实例的数量确定的;所述翻译模板的抽象度,是根据该翻译模板的覆盖度、该翻译模板的长度、以及该翻译模板覆盖的翻译实例的长度确定的。6.根据权利要求1所述的方法,其特征在于,按照所述翻译实例中各短语的位置,将所述翻译实例中的短语与所述匹配短语的变量标记进行组合,得到至少一种组合形式的翻译模板,具体包括:利用翻译实例中的短语,以及所述匹配短语的变量标记,确定L*L的二维矩阵,其中,所述L为所述翻译实例的长度;将所述二维矩阵中右上角位置中的翻译模板中存在变量标记的翻译模板,作为得到的翻译模板。7.根据权利要求1~6任一权项所述的方法,其特征在于,所述翻译实例为单语翻译实例。8.一种机器翻译方法,其特征在于,包括:确定待翻译的源语句;利用预设的翻译模板,将所述源语句翻译成目标语句;其中,所述翻译模板是采用如下方式预设的:将翻译实例与预设的短语集合进行匹配,确定所述翻译实例中的匹配短语;确定所述匹配短语的变量标记;按照所述翻译实例中各短语的位置,将所述翻译实例中的短语与所述匹配短语的变量标记进行组合,得到至少一种组合形式的翻译模板。9.一种翻译模板确定装置,其特征在于,包括:第一单元,用于将翻译...
【专利技术属性】
技术研发人员:史黎鑫,张海波,卞华明,管陶然,刘禹,赵宇,骆卫华,林锋,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。