机器翻译方法、装置及可读存储介质制造方法及图纸

技术编号:20389944 阅读:37 留言:0更新日期:2019-02-20 02:53
本申请公开了一种机器翻译方法、装置及可读存储介质,涉及机器翻译领域。该方法包括:接收待翻译的源端语句;确定与所述目标领域对应的短语表;通过机器学习模型根据所述短语表将所述第一自然语言的源端语句翻译为所述第二自然语言的目标语句。通过确定与目标领域对应的短语表,并在通过机器学习模型对源端语句进行翻译时,应用该短语表参与对该源端语句的翻译得到目标语句,实现对目标领域的源端语句进行翻译时提高翻译准确度,且无需针对不同的领域对不同的机器学习模型进行训练,仅需要通过一个通用的机器学习模型结合目标领域的短语表即可实现对目标领域的源端语句进行翻译,翻译效率较高。

【技术实现步骤摘要】
机器翻译方法、装置及可读存储介质
本申请实施例涉及机器翻译领域,特别涉及一种机器翻译方法、装置及可读存储介质。
技术介绍
机器翻译是通过计算机将一种自然语言的句子翻译成另一种自然语言的句子的翻译方式,通常,该机器翻译是通过训练好的机器学习模型对句子进行翻译,示意性的,机器学习模型通过大量的翻译语料样本进行训练后,用户将中文句子“房价持续增长”输入该机器学习后,输出得到英文翻译“Thehousingpricescontinuedtorise”,而针对某些特定领域的某些词汇的机器翻译,与普通的机器翻译中的翻译方式不同,如:在一些较为正式的报告中,地名“北京”被翻译为“Peking”,而在课本中,地名“北京”被翻译为“Beijing”。相关技术中,针对特定领域的机器翻译,需要设置特定的机器学习模型进行翻译,也即通过该特定领域的翻译语料样本对机器学习模型进行训练后,得到训练后的该特定领域的特定机器学习模型,并应用该特定机器学习模型对该特定领域的待翻译语句进行翻译。然而,当该机器翻译涉及的领域较多时,则需要对每个领域都设置一个特定的机器学习模型,也即需要对每个领域的机器学习模型分别进行训练,训练过程中需耗费大量的时间及人力,针对每个领域的机器翻译对机器学习模型的训练过程较为繁琐。
技术实现思路
本申请实施例提供了一种机器翻译方法、装置及可读存储介质,可以解决针对每个领域的机器翻译对机器学习模型的训练过程较为繁琐的问题。所述技术方案如下:一方面,提供了一种机器翻译方法,所述方法包括:接收待翻译的源端语句,所述源端语句为目标领域的语句;确定与所述目标领域对应的短语表,所述短语表中包括所述目标领域的源端词汇和目标端词汇的对应关系,每个所述源端词汇与至少一个目标端词汇对应,所述源端词汇和所述源端语句对应第一自然语言,所述目标端词汇对应第二自然语言;通过机器学习模型根据所述短语表将所述第一自然语言的源端语句翻译为所述第二自然语言的目标语句。另一方面,提供了一种机器翻译装置,所述装置包括:接收模块,用于接收待翻译的源端语句,所述源端语句为目标领域的语句;确定模块,用于确定与所述目标领域对应的短语表,所述短语表中包括所述目标领域的源端词汇和目标端词汇的对应关系,每个所述源端词汇与至少一个目标端词汇对应,所述源端词汇和所述源端语句对应第一自然语言,所述目标端词汇对应第二自然语言;翻译模块,用于通过机器学习模型根据所述短语表将所述第一自然语言的源端语句翻译为所述第二自然语言的目标语句。另一方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中所述的机器翻译方法。另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中所述的机器翻译方法。另一方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述本申请实施例中所述的机器翻译方法。本申请实施例提供的技术方案带来的有益效果至少包括:通过确定与目标领域对应的短语表,并在通过机器学习模型对源端语句进行翻译时,应用该短语表参与对该源端语句的翻译得到目标语句,实现对目标领域的源端语句进行翻译时提高翻译准确度,且无需针对不同的领域对不同的机器学习模型进行训练,仅需要通过一个通用的机器学习模型结合目标领域的短语表即可实现对目标领域的源端语句进行翻译,翻译效率较高。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一个示例性实施例提供的源端词汇与目标端词汇的对应关系示意图;图2是本申请一个示例性实施例提供的机器翻译系统的示意图;图3是本申请一个示例性实施例提供的机器翻译方法流程图;图4是本申请一个示例性实施例提供的机器翻译方法的神经网络模型的结构示意图;图5是本申请另一个示例性实施例提供的机器翻译方法的神经网络模型的结构示意图;图6是本申请另一个示例性实施例提供的机器翻译方法流程图;图7是本申请另一个示例性实施例提供的机器翻译方法的神经网络模型的结构示意图;图8是本申请另一个示例性实施例提供的机器翻译方法的神经网络模型的结构示意图;图9是本申请另一个示例性实施例提供的机器翻译方法流程图;图10是本申请一个示例性实施例提供的机器翻译方法的终端界面示意图;图11是本申请一个示例性实施例提供的机器翻译装置的结构框图;图12是本申请另一个示例性实施例提供的机器翻译装置的结构框图;图13是本申请一个示例性实施例提供的服务器的结构框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。首先,对本申请中涉及的名词进行简单介绍:机器翻译:是指通过计算机将一种自然语言的句子翻译成另一种自然语言的句子的翻译方式。通常,该机器翻译是通过训练好的机器学习模型对句子进行翻译,示意性的,通过大量的翻译语料样本对机器学习模型进行训练,该翻译语料样本中包括多组中文语料和英文语料的对应关系,每个中文语料对应一个英文语料作为翻译结果,训练完成后,用户将中文句子“房价持续增长”输入该机器学习模型后,输出得到英文翻译“Thehousingpricescontinuedtorise”。可选地,上述机器学习模型可以实现为神经网络模型、支持向量机(SupportVectorMachine,SVM)、决策树(DecisionTree,DT)等模型,本申请实施例对此不加以限定,本申请实施例中以该机器学习模型为神经网络模型为例进行说明。短语表:是指包括源端词汇和目标端词汇的对应关系的对应表,可选地,在进行机器翻译时,可以通过机器学习模型根据该短语表将第一自然语言的源端语句翻译为第二自然语言的目标端语句。可选地,该短语表中的每个源端词汇与至少一个目标端词汇对应,其中,源端词汇对应第一自然语言,目标端词汇对应第二自然语言,且源端词汇和/或目标端词汇还可以实现为词组,如:第一自然语言为中文,第二自然语言为英文,则源端词汇“北京”对应的目标端词汇包括“Beijing”“Peking”以及“capitalofChina”。可选地,该短语表还可以称为大量词汇短语表(LargeVocabulary,LV短语表)。可选地,该短语表还可以针对不同的领域对源端词汇和目标端词汇进行限定,生成不同领域对应的不同的短语表,如:专利领域对应短语表1、旅游领域对应短语表2以及教学领域对应短语表3。可选地,该短语表中的源端词汇和目标端词汇是通过对源端语句和对应的目标语句进行分词后得到的,示意性的,请参考图1,源端语句为“C市房价持续增长”,其对应的目标端语句为“Ccityhousingpricescontinuedtorise”,其中,在对应表11中可知,“C市”对应“Cc本文档来自技高网...

【技术保护点】
1.一种机器翻译方法,其特征在于,所述方法包括:接收待翻译的源端语句,所述源端语句为目标领域的语句;确定与所述目标领域对应的短语表,所述短语表中包括所述目标领域的源端词汇和目标端词汇的对应关系,每个所述源端词汇与至少一个目标端词汇对应,所述源端词汇和所述源端语句对应第一自然语言,所述目标端词汇对应第二自然语言;通过机器学习模型根据所述短语表将所述第一自然语言的源端语句翻译为所述第二自然语言的目标语句。

【技术特征摘要】
1.一种机器翻译方法,其特征在于,所述方法包括:接收待翻译的源端语句,所述源端语句为目标领域的语句;确定与所述目标领域对应的短语表,所述短语表中包括所述目标领域的源端词汇和目标端词汇的对应关系,每个所述源端词汇与至少一个目标端词汇对应,所述源端词汇和所述源端语句对应第一自然语言,所述目标端词汇对应第二自然语言;通过机器学习模型根据所述短语表将所述第一自然语言的源端语句翻译为所述第二自然语言的目标语句。2.根据权利要求1所述的方法,其特征在于,所述通过机器学习模型根据所述短语表将所述第一自然语言的源端语句翻译为第二自然语言的目标语句,包括:在所述短语表中查找与所述源端语句对应的n个源端词汇;在所述对应关系中确定与所述n个源端词汇对应的m个目标端词汇,所述m个目标端词汇组合成为目标端词汇表,m和n为正整数;通过所述机器学习模型根据所述目标端词汇表将所述第一自然语言的源端语句翻译为所述第二自然语言的所述目标语句。3.根据权利要求2所述的方法,其特征在于,所述通过机器学习模型根据所述目标端词汇表将所述第一自然语言的源端语句翻译为第二自然语言的目标语句,包括:根据所述目标端词汇表确定所述机器学习模型中的目标分类矩阵,所述目标分类矩阵用于根据所述源端语句对所述目标端词汇表中每个目标端词汇生成所述目标语句的概率进行确定;将所述源端语句输入所述机器学习模型,输出得到所述目标语句。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标端词汇表确定所述机器学习模型中的目标分类矩阵,包括:通过所述目标端词汇表对初始分类矩阵进行过滤,得到所述目标分类矩阵,所述初始分类矩阵中包括至少两个领域对应的目标端词汇,所述至少两个领域中包括所述目标领域。5.根据权利要求2至4任一所述的方法,其特征在于,所述在所述短语表中查找与所述源端语句对应的n个源端词汇,包括:对所述源端语句进行分词处理,得到至少一个分词词汇;在所述短语表中查找包括所述至少一个分词词汇的n个源端词汇。6.根据权利要求2至4任一所述的方法,其特征在于,所述在所述对应关系中确定与所述n个源端词汇对应的m个目标端词汇,包括:在所述对应关系中确定与所述n个源端词汇对应的k个目标端词汇,所述k个目标端词汇中包括出现至少两次的词汇;对所述k个目标端词汇进行去重处理,得到所述m个目标端词汇。7.根据权利要求1至4任一所述的方法,其特征在于,所述确定与所述目标领域对应的短语表之前,还包括:接收参考内容,所述参考内容为与所述目标领域对应的内容,所述参考内容中包括属于所述目标领域的语料,所述语料包括源端语料以及与所述源端语料对应的已翻译语料;对所述源端语料和所述已翻译语料中的短语进行对应抽取,生成所述短语表;或,根据所述参考内容对初始短语表进行过滤,得到所述短语表...

【专利技术属性】
技术研发人员:黄江泉谢军王明轩
申请(专利权)人:腾讯科技武汉有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1