本申请公开了一种翻译方法及系统,用以提高翻译效率。本申请实施例提供的一种翻译方法,包括:将待翻译语句与预设缓存中的源语句进行匹配;若所述匹配成功,则将匹配成功的源语句所对应的目标语句输出,其中,所述缓存中预先存储有先前翻译任务过程中得到的源语句与目标语句的对应关系,所述源语句与目标语句互为翻译结果。
【技术实现步骤摘要】
一种翻译方法及系统
本申请涉及通信
,尤其涉及一种翻译方法及系统。
技术介绍
统计机器翻译是当前机器翻译的主流技术,通常而言,统计机器翻译系统包含线上解码以及线下训练模块两大模块,总体架构如图1所示,上方框是线下训练模块,下方框是线上解码模块。其中,线上解码模块,包括预处理、翻译解码、后处理三个部分。目前常规的在线翻译系统由于采取单节点完成所有翻译流程的模式,因此翻译效率较低。
技术实现思路
本申请实施例提供了一种翻译方法及系统,用以提高翻译效率。本申请实施例提供的一种翻译方法,包括:将待翻译语句与预设缓存中的源语句进行匹配;若所述匹配成功,则将匹配成功的源语句所对应的目标语句输出,其中,所述缓存中预先存储有先前翻译任务过程中得到的源语句与目标语句的对应关系,所述源语句与目标语句互为翻译结果。通过该方法,将待翻译语句与预设缓存中的源语句进行匹配,若所述匹配成功,则直接将匹配成功的源语句所对应的目标语句输出,其中,所述缓存中预先存储有先前翻译任务过程中得到的源语句与目标语句的对应关系,所述源语句与目标语句互为翻译结果,从而提高了翻译效率,减少翻译延时。可选地,所述待翻译语句是经过分词处理后的语句。可选地,该方法还包括:若所述匹配失败,则将待翻译语句分发给翻译解码节点,其中每一翻译解码节点负责翻译一个待翻译语句;接收每一所述翻译解码节点反馈的翻译结果,并对翻译结果进行整合后输出。可选地,每一翻译解码节点包括相同的用于实现多语种翻译的数据模型。可选地,该方法还包括:当任一所述翻译解码节点出现异常,调度新的空闲翻译解码节点执行翻译任务。可选地,按照预设的翻译优先级,选择翻译任务,然后将翻译任务中的待翻译语句与预设缓存中的源语句进行匹配。可选地,通过统一接口接收不同业务方的翻译请求,建立所述翻译任务。可选地,所述业务方是具有翻译请求权限的业务方。可选地,该方法还包括:监控所述翻译任务的执行过程数据,当出现异常时,发出告警信号。与上述方法相对应地,本申请实施例提供的一种翻译系统,包括:第一单元,用于将待翻译语句与预设缓存中的源语句进行匹配;第二单元,用于若所述匹配成功,则将匹配成功的源语句所对应的目标语句输出,其中,所述缓存中预先存储有先前翻译任务过程中得到的源语句与目标语句的对应关系,所述源语句与目标语句互为翻译结果。可选地,所述待翻译语句是经过分词处理后的语句。可选地,该系统还包括用于翻译语句的翻译解码节点;第二单元还用于:若所述匹配失败,则将待翻译语句分发给翻译解码节点,其中每一翻译解码节点负责翻译一个待翻译语句;接收每一所述翻译解码节点反馈的翻译结果,并对翻译结果进行整合后输出。可选地,每一翻译解码节点包括相同的用于实现多语种翻译的数据模型。可选地,该系统还包括:调度单元,用于当任一所述翻译解码节点出现异常,调度新的空闲翻译解码节点执行翻译任务。可选地,该系统还包括:机翻平台,用于按照预设的翻译优先级,选择翻译任务并发给所述第一单元;所述第一单元将翻译任务中的待翻译语句与预设缓存中的源语句进行匹配。可选地,所述机翻平台通过统一接口接收不同业务方的翻译请求,建立所述翻译任务。可选地,所述业务方是具有翻译请求权限的业务方。可选地,还包括:监控单元,用于监控所述翻译任务的执行过程数据,当出现异常时,发出告警信号。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为现有技术中的统计机器翻译系统架构示意图;图2为本申请实施例提供的一种翻译系统的具体结构示意图;图3为本申请实施例提供的一种翻译方法的流程示意图;图4为本申请实施例提供的一种翻译系统的整体结构示意图。具体实施方式本申请实施例提供了一种翻译方法及装置,用以提高翻译效率。本申请实施例提供的技术方案,能够提供在高并发的情况下保持低延时,并具有良好的可扩展性。参见图2,本申请实施例提供的一套大规模分布式高并发在线机器翻译系统可以分以下三部分进行介绍。第一部分、机翻平台:该平台用于接收所有的外部业务翻译请求。其主要完成如下几件事情:第一,权限控制。任何业务方需要申请权限,才能接入服务,必须在平台上进行登记使用什么样的相应服务,例如业务方需要使用中到英的翻译,需要在平台上进行注册后才可使用。也就是说,本申请实施例中所述业务方是具有翻译请求权限的业务方。第二,第二,流量控制。对于所有的业务方,流量是根据时间或者节日都有所变化,不同时间段的流量变化非常大,通常晚上流量较小,白天流量规模较大,该平台根据业务方的流量变化进行控制,对不紧急的任务延后到低峰时段进行处理,做到流量平稳的进入到翻译引擎中。也就是说,本申请实施例可以按照预设的翻译优先级,选择翻译任务。第三,第三,接口统一。对于不同的业务方,可能其需要的接口形式不同,因此该平台需要考虑所有可能的业务方的需求,进行通用接口的统一设计,根据业务方的不同需求,将接口调用方式归纳为异步和同步两大类调用方式,能够服务于所有的业务方。即本申请实施例通过统一接口接收不同业务方的翻译请求,建立所述翻译任务。第二部分、翻译分发节点(SP)。翻译分发节点用于接收机翻平台转发的业务方的翻译请求,并通过翻平台将翻译结果返回给业务方。具体地,翻译分发节点对待翻译请求进行解析,获取翻译请求的翻译方向(例如英文到中文的翻译)、待翻译文本等信息。并对待翻译文本按照其语种作相应的预处理。预处理包括文本格式解析、句子拆分、分词/token等操作。例如,若待翻译文本的文本格式为html,则此翻译分发节点将会首先从html格式的文本中抽取需要翻译的文本段落,并拆分为多个句子,如果待翻译文本是中文,则会对句子进行分词,若待翻译文本是英文,则会对句子进行token,达到的效果都是将句子中的词与词之间用空格隔开。总体来说,一个翻译请求对应一个翻译任务,每一翻译请求在经过预处理后会被拆分为多个子任务,每一子任务即一个句子的翻译任务。每一子任务后续发给分布式高速缓存(Memcached),以及分发给翻译解码节点(D2)进行处理。在从分布式高速缓存和翻译解码节点获取翻译结果后,将各个子任务(即预处理后的各个句子)的翻译结果,按照原来的文本格式进行重组,生成最终的译文,返回给机翻平台。关于分布式高速缓存(Memcached):翻译文本在经过预处理后,将会首先提交给高速缓存进行查询,查询缓存中是否有先前已经翻译过的句子,如果命中缓存,则不需要进行翻译,直接将缓存的译文结果作为最终的翻译结果。从统计意义上看,在执行大批量的翻译任务过程中,文本被拆分为较短的句子后,将有大量重复。由于大量高频出现的句子已经被系统翻译过,通过高速缓存,能够极大的降低整体翻译延时,并极大的提高系统吞吐量。也就是说,本申请实施例可以将待翻译语句与预设缓存中的源语句进行匹配,若所述匹配成功,则将匹配成功的源语句所对应的目标语句输出,其中,所述缓存中预先存储有先前翻译任务过程中得到的源语句与目标语句的对应关系,所述源语句与目标语句互为翻译结果。从而可以提高翻译效率。第三部分、翻译解码节点。如图本文档来自技高网...

【技术保护点】
一种翻译方法,其特征在于,该方法包括:将待翻译语句与预设缓存中的源语句进行匹配;若所述匹配成功,则将匹配成功的源语句所对应的目标语句输出,其中,所述缓存中预先存储有先前翻译任务过程中得到的源语句与目标语句的对应关系,所述源语句与目标语句互为翻译结果。
【技术特征摘要】
1.一种翻译方法,其特征在于,该方法包括:将待翻译语句与预设缓存中的源语句进行匹配;若所述匹配成功,则将匹配成功的源语句所对应的目标语句输出,其中,所述缓存中预先存储有先前翻译任务过程中得到的源语句与目标语句的对应关系,所述源语句与目标语句互为翻译结果。2.根据权利要求1所述的方法,其特征在于,所述待翻译语句是经过分词处理后的语句。3.根据权利要求1所述的方法,其特征在于,该方法还包括:若所述匹配失败,则将待翻译语句分发给翻译解码节点,其中每一翻译解码节点负责翻译一个待翻译语句;接收每一所述翻译解码节点反馈的翻译结果,并对翻译结果进行整合后输出。4.根据权利要求3所述的方法,其特征在于,每一翻译解码节点包括相同的用于实现多语种翻译的数据模型。5.根据权利要求3所述的方法,其特征在于,该方法还包括:当任一所述翻译解码节点出现异常,调度新的空闲翻译解码节点执行翻译任务。6.根据权利要求1所述的方法,其特征在于,按照预设的翻译优先级,选择翻译任务,然后将翻译任务中的待翻译语句与预设缓存中的源语句进行匹配。7.根据权利要求6所述的方法,其特征在于,通过统一接口接收不同业务方的翻译请求,建立所述翻译任务。8.根据权利要求7所述的方法,其特征在于,所述业务方是具有翻译请求权限的业务方。9.根据权利要求6所述的方法,其特征在于,该方法还包括:监控所述翻译任务的执行过程数据,当出现异常时,发出告警信号。10.一种翻译系统,其特征在于,包括:第一单元,用于将待翻译语句与预设缓存中的源语句进行匹配...
【专利技术属性】
技术研发人员:黄瑞,傅春霖,张海波,朱长峰,赵宇,骆卫华,林锋,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。