包含术语翻译的机器翻译方法、装置与电子设备制造方法及图纸

技术编号:22755142 阅读:25 留言:0更新日期:2019-12-07 04:00
本发明专利技术实施例提供一种包含术语翻译的机器翻译方法、装置与电子设备,其中所述方法包括:将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定所述待翻译文本中的术语,所述给定术语库内存储有源语言和目标语言术语对;将所述待翻译文本中的术语用占位符进行替换,并基于所述给定术语库,利用预先建立的目标机器翻译模型,对所述替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果。本发明专利技术实施例能够有效克服在后编辑带来的问题,从而有效提高翻译效率和翻译准确性。

Machine translation methods, devices and electronic devices including terminology translation

The embodiment of the invention provides a machine translation method, device and electronic device including term translation, wherein the method comprises: word segmentation of the text to be translated according to sentences, term matching of the result of word segmentation with the given technical language library, determining the terms in the text to be translated, storing the active language and the target language term pair in the given technical language library; and The terms in the text to be translated are replaced with placeholders, and based on the given terminology library, the target machine translation model is established in advance to translate and replace the replaced text, and obtain the translation results including the term translation. The embodiment of the invention can effectively overcome the problems caused by post editing, thereby effectively improving the translation efficiency and accuracy.

【技术实现步骤摘要】
包含术语翻译的机器翻译方法、装置与电子设备
本专利技术涉及机器翻译
,更具体地,涉及一种包含术语翻译的机器翻译方法、装置与电子设备。
技术介绍
在文本翻译过程中,相同的源“单词”可能会被翻译成不同的译文,这其中可能存在两方面因素的影响,其一单词本身是多义词,其二不同的译员翻译用词习惯不同。在翻译过程中,对于某些比较重要的词,希望其翻译结果是固定的,这些词即被称为“术语”。为了使译文中对这些术语的翻译是统一固定的结果,目前采用的是术语替换的方式,即根据机器翻译之后的结果,基于词对齐做译后编辑,替换译文中对术语的翻译结果。这样做虽能够实现对术语翻译的统一,但是存在的问题一是处理速度不够快,影响翻译效率,二是如果翻译有一些意译的结果,则容易改变翻译的含义,导致翻译结果不准确。
技术实现思路
为了克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供一种包含术语翻译的机器翻译方法、装置与电子设备,用以有效克服在后编辑带来的问题,从而有效提高翻译效率和翻译准确性。第一方面,本专利技术实施例提供一种包含术语翻译的机器翻译方法,包括:将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定所述待翻译文本中的术语,所述给定术语库内存储有源语言和目标语言术语对;将所述待翻译文本中的术语用占位符进行替换,并基于所述给定术语库,利用预先建立的目标机器翻译模型,对所述替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果。第二方面,本专利技术实施例提供一种包含术语翻译的机器翻译装置,包括:术语匹配模块,用于将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定所述待翻译文本中的术语,所述给定术语库内存储有源语言和目标语言术语对;术语替换翻译模块,用于将所述待翻译文本中的术语用占位符进行替换,并基于所述给定术语库,利用预先建立的目标机器翻译模型,对所述替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上第一方面所述的包含术语翻译的机器翻译方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机指令,所述计算机指令被计算机执行时,实现如上第一方面所述的包含术语翻译的机器翻译方法的步骤。本专利技术实施例提供的包含术语翻译的机器翻译方法、装置与电子设备,根据训练语料句对,生成满足需求的训练句对,通过在机器翻译模型的训练阶段开始干涉,训练出带术语替换功能的翻译模型,能够有效克服在后编辑带来的问题,从而有效提高翻译效率和翻译准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的包含术语翻译的机器翻译方法的流程示意图;图2为本专利技术另一实施例提供的包含术语翻译的机器翻译方法的流程示意图;图3为本专利技术实施例提供的包含术语翻译的机器翻译装置的结构示意图;图4为本专利技术实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术实施例的一部分实施例,而不是全部的实施例。基于本专利技术实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术实施例保护的范围。本专利技术实施例针对现有技术在进行包含术语的文献翻译时效率低和准确性差的问题,根据训练语料句对,生成满足需求的训练句对,通过在机器翻译模型的训练阶段开始干涉,训练出带术语替换功能的翻译模型,能够有效克服在后编辑带来的问题,从而有效提高翻译效率和翻译准确性。以下将具体通过多个实施例对本专利技术实施例进行展开说明和介绍。图1为本专利技术一实施例提供的包含术语翻译的机器翻译方法的流程示意图,如图1所示,该方法包括:S101,将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定待翻译文本中的术语,给定术语库内存储有源语言和目标语言术语对。可以理解为,本专利技术实施例事先会获取到待翻译的文本数据,即待翻译文本。之后,首先对该待翻译文本进行句子拆分,得到待翻译文本的多个组成句子,再对所有句子逐句进行分词处理,得到每个句子对应的多个单词,即分词的结果。其中可选的,具体可采用StanfordCoreNLP工具,实现分词处理。再之后,针对每个句子,将其分出的单词与提前准备的给定术语库进行术语匹配,确定该句子中哪些单词属于术语,并进一步可确定整个待翻译文本中的所有术语。可以理解的是,给定术语库中存储的是多个术语对,也即包含源语言术语和各源语言术语对应的目标语言术语,且二者成对关联。其中可选的,具体可基于cedar双数组字典树算法,实现术语匹配。基于cedar双数组字典树算法进行术语匹配时包括建索引的步骤和利用索引进行术语查询匹配的步骤。其中建索引的步骤为遍历数据库,获取术语集合,调用cedar双数组字典树插入术语,用以形成术语集合的索引。cedar双数组字典树中每个数组元素包括一个以基准值和校验值为成员的结构体数组、一个与结构体数组体量相同的循环队列以及一个用来存放字符所组成的父子以及兄弟关系的二叉树数组。向双数组字典树中插入术语就是给双数组字典树中的元素赋值的过程。S102,将待翻译文本中的术语用占位符进行替换,并基于给定术语库,利用预先建立的目标机器翻译模型,对替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果。可以理解为,在确定待翻译文本中所有的术语之后,即可将这些术语用占位符进行替换,得到的是带有占位符的待翻译文本,也即是替换后的待翻译文本,其实际由多个带有占位符的句子组成。之后利用预先得到的目标机器翻译模型对这些带有占位符的句子进行翻译,得到待占位符的译文。同时利用该目标机器翻译模型,使用给定术语库中的目标语言术语,也即是译文术语对翻译后的句子中的占位符进行替换,得到的是包含术语译文的翻译结果,实现包含术语的翻译。本专利技术实施例提供的包含术语翻译的机器翻译方法,根据训练语料句对,生成满足需求的训练句对,通过在机器翻译模型的训练阶段开始干涉,训练出带术语替换功能的翻译模型,能够有效克服在后编辑带来的问题,从而有效提高翻译效率和翻译准确性。另外,在上述各实施例的基础上,在利用预先建立的目标机器翻译模型,对替换后的待翻译文本进行翻译和术语替换的步骤之前,本专利技术实施例的方法还可以包括:对训练语料句对进行分词处理,并根据分词结果依次进行词对本文档来自技高网...

【技术保护点】
1.一种包含术语翻译的机器翻译方法,其特征在于,包括:/n将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定所述待翻译文本中的术语,所述给定术语库内存储有源语言和目标语言术语对;/n将所述待翻译文本中的术语用占位符进行替换,并基于所述给定术语库,利用预先建立的目标机器翻译模型,对所述替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果。/n

【技术特征摘要】
1.一种包含术语翻译的机器翻译方法,其特征在于,包括:
将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定所述待翻译文本中的术语,所述给定术语库内存储有源语言和目标语言术语对;
将所述待翻译文本中的术语用占位符进行替换,并基于所述给定术语库,利用预先建立的目标机器翻译模型,对所述替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果。


2.根据权利要求1所述的包含术语翻译的机器翻译方法,其特征在于,在所述利用预先建立的目标机器翻译模型,对所述替换后的待翻译文本进行翻译和术语替换的步骤之前,还包括:
对训练语料句对进行分词处理,并根据分词结果依次进行词对齐处理和词性标注;
确定术语因子数,并基于所述术语因子数和词性标注的结果,对所述训练语料句对获取带占位符的训练样本句对;
利用所述带占位符的训练样本句对,训练初始化完成的seq2seqwithattention模型,获取所述目标机器翻译模型。


3.根据权利要求1或2所述的包含术语翻译的机器翻译方法,其特征在于,所述对所述替换后的待翻译文本进行翻译和术语替换的步骤具体包括:
将所述替换后的待翻译文本输入所述目标机器翻译模型,获取带占位符的译文中间结果,并基于所述给定术语库,获取所述待翻译文本中的术语对应的术语译文;
利用所述术语译文替换所述带占位符的译文中间结果中的占位符,实现译文术语替换。


4.根据权利要求2所述的包含术语翻译的机器翻译方法,其特征在于,进行词性标注的步骤具体包括:
利用隐马尔科夫模型viterbi算法,对词对齐处理的结果进行给定类型的分词的词性标注。


5.根据权利要求1或2所述的包含...

【专利技术属性】
技术研发人员:蔡洁
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1