基于领域自动识别篇章机器翻译方法、机器翻译系统技术方案

技术编号:18711106 阅读:28 留言:0更新日期:2018-08-21 22:42
本发明专利技术属于自然语言的处理或转换技术领域,公开了一种基于领域自动识别篇章机器翻译方法、机器翻译系统,所述基于领域自动识别篇章机器翻译方法将待翻译的句子划分到对应领域;对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译;对翻译的句子进行合并得到最终的篇章翻译结果。本发明专利技术在传统的机器翻译机制上做了改进,采用了分类算法将待翻译的语句进行领域的划分,再放入对应所属领域翻译系统进行翻译。相比于传统人工选择领域翻译系统进行翻译方法,该发明专利技术可以省去人工判断句子所属领域的时间。相比如直接利用通用翻译系统进行翻译,该发明专利技术可以有效提升翻译准确率。

Domain based automatic identification of text Machine Translation method and Machine Translation system

The invention belongs to the field of natural language processing or conversion technology, and discloses a domain-based automatic recognition text machine translation method and a machine translation system. The domain-based automatic recognition text machine translation method divides the sentences to be translated into corresponding fields, and each sentence to be translated in a text is corresponding to the corresponding fields. The corresponding domain information retrieval system translates the sentences and merges the translated sentences to get the final translation results. The invention improves the traditional machine translation mechanism, adopts classification algorithm to divide the sentences to be translated into domains, and then puts them into the corresponding domain translation system for translation. Compared with the traditional manual selection domain translation system, the invention can save the time for judging the domain in which a sentence belongs. Compared with the direct translation using universal translation system, the invention can effectively improve the accuracy of translation.

【技术实现步骤摘要】
基于领域自动识别篇章机器翻译方法、机器翻译系统
本专利技术属于自然语言的处理或转换
,尤其涉及一种基于领域自动识别篇章机器翻译方法、机器翻译系统。
技术介绍
目前,业内常用的现有技术是这样的:机器翻译是一种利用机器学习算法从双语平行数据中学习两种语言之间相关联系,再利用学习的规则将一种自然语言转化成另外一种自然语言的过程。机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。机器翻译从二十世纪三四十年代开始经历过开创期、受挫器、恢复期、新时期。新时期自1990年开始,经历了基于规则的机器翻译、基于统计的机器翻译以及基于神经网络的机器翻译。现阶段占据主流地位的是基于神经网络的机器翻译,相比于统计机器翻译它采用的是端到端的翻译方式。基于神经网络机器翻译的主要思想是采用一个“编码解码”的结构,编码与解码模块分别使用一个循环神经网络进行训练与翻译。对于一句待翻译的句子,编码器首先将该句子转化成一个固定维度的向量,接着将该向量作为输入,解码器会给出一串词向量序列,最终通过在词典查找的方式将该输出的词向量序列转化为目标语言词。在现有的主流机器翻译中,不管是基于统计的机器翻译系统还是基于神经网络的机器翻译系统,采用的都是数据驱动的技术。理论上训练数据的量越大,翻译系统的效果越好。然而在实际情况中待测试的数据与翻译系统的训练数据相关性越大,翻译效果越好。如果待翻译的句子属于教育类,使用900万句高质量教育类训练数据训练的翻译系统的表现有很大概率会优于用1000万句高质量军事类训练数据训练的翻译系统。在实际应用中会出现两种情况,一种是无论用户输入的待翻译句子属于哪个领域,都被当作输入利用一个通用的系统做翻译,目前的技术并未很好得解决领域差异性;另外一种是用户选择特定的领域翻译系统,输入待翻译的句子,对应领域翻译系统给出对应翻译,目前的技术并未很好得实现智能分类。这两种机制中都不能达到最优翻译结果。在第一种机制中因为待翻译的句子与对应系统的训练集关联性不是密切相关,会导致部分词、短语翻译之后的结果准确性不高或者翻译之后的语言习惯不符合特定领域的翻译习惯,在第二种机制中输入的为文本,而文本中的句子可能分属于不同领域,则需要人工辨别每句话所属领域,输入对应领域翻译系统,这种方法一方面不够高效,另一方面输入文本中的句子可能包含非指定领域的内容,可能会因领域不同而影响特定词、短语、句子的翻译准确性。本专利技术则可以有效解决上述问题。综上所述,现有技术存在的问题是:(1)无论用户输入的待翻译句子属于哪个领域,都被当作输入利用一个通用的系统做翻译,待翻译的句子与对应系统的训练集关联性不是密切相关。(2)用户选择特定的领域翻译系统,输入待翻译的句子,对应领域翻译系统给出对应翻译,输入的为文本,而文本中的句子可能分属于不同领域,则需要人工辨别每句话所属领域,输入对应领域翻译系统,方法则不够高效。解决上述技术问题的难度和意义:解决该问题主要在于如何高效得对篇章中的每一句进行领域差别切分,同时在切分过程中还需要结合篇章领域信息,因为每个词或者每句话在不同领域中可能存在不同的意思。通过解决该问题可以有效得根据句子的领域信息进行对应领域的翻译,提高每个词和句子的翻译准确度。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于领域自动识别篇章机器翻译方法及系统、机器翻译系统。本专利技术是这样实现的,一种基于领域自动识别篇章机器翻译方法,所述基于领域自动识别篇章机器翻译方法将待翻译的句子划分到对应领域;对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译;对翻译的句子进行合并得到最终的篇章翻译结果。进一步,所述待翻译的句子划分到对应领域具体包括:(1)使用朴素贝叶斯方法对待翻译的文章进行领域分类,待翻译的文章,使用如下公式计算文章属于每个领域类别的分数:P(x|yi)=p(x1|yi)p(x2|yi)...p(x3|yi);其中,xi为文本中去除停用之后的所有词,yi为对应类别;(2)对文本中的每句话进行分类,将句子中的词转化为一个特定维度的向量,该特定维度的向量被成为词向量,,词转化为embedding过程中使用的是一种单射函数,在数学上可表示为一个映射:f∶X→Y;将经过转化之后的词向量输入到长短时记忆层进行计算。对于输入的词向量,通过以下公式计算在t时刻记忆单元状态候选值以及输入门it:it=σ(Wixt+Uiht-1+bi);其中σ()为激励函数,tanh()表示双曲正切函数,Wi、Ui、Wc为对应权重矩阵,t表示t时刻,bi与bc分别表示偏置;(3)利用如下公式计算在t时刻记忆单元遗忘门对应的值ft:ft=σ(Wfxt+Ufht-1+bf);其中σ()为激励函数,Wf、Uf为遗忘门对应权重矩阵,t表示t时刻,bf表示遗忘门对应偏置;(4)接着根据得到的it、以及ft利用如下公式更新当前状态值Ct:根据更新后的新状态值,使用如下公式计算最终输出:ot=σ(Woxt+Uoht-1+bo);ht=ot*tanh(Ct);其中σ()为激励函数,tanh()表示双曲正切函数,Wo与Uo为对应权重矩阵,t表示t时刻,bo表示输出函数偏置;(5)得到t个隐藏的长短时记忆神经单元的向量,向量经过一个平均池层,该层将上述t个向量进行平均操作,得到一个向量h;(6)接下来对向量进行h分类。进一步,所述(6)包括:将最开始计算的文本属于对应类别的分数转化为与向量h相同维度的向量,使用词袋模型实现转化,设向量h的维度为n,则类别i的向量表示为第i维数值为对应分数,其他维数值为0。转化完成后进行分类;其中X0为句子向量h,Xi分别为文章所属类别分数对应的向量,LayerL1为输入层,Xn分别代表向量中的值,LayerL2为隐藏层,计算隐藏特征。LayerL3为输出层,输出最终结果,使用的是前向传播算法,具体公式如下:z(l)=W(l-1)x(l-1)+b(l-1);a(l)=f(z(l));hW,b(x)=a(L-1);其中Ln为第n层,Xn为输入的特征,W,b分别为权重和偏置,hW,b(x)为输出。本专利技术的另一目的在于提供一种所述基于领域自动识别篇章机器翻译方法的基于领域自动识别机器翻译系统,所述基于领域自动识别机器翻译系统包括:分类模块,用于将待翻译的句子划分到对应领域;机器翻译模块,用于对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译,再对翻译的句子进行合并得到最终的篇章翻译结果。本专利技术的另一目的在于提供一种应用所述基于领域自动识别篇章机器翻译方法的机器翻译系统。综上所述,本专利技术的优点及积极效果为:本专利技术在传统的机器翻译机制上做了改进,采用了分类算法将待翻译的语句进行领域的划分,再放入对应所属领域翻译系统进行翻译。现有的机器翻译技术并不能智能识别每个句子可能属于的领域,对于篇章中的句子领域信息,现在市面上并没有根据篇章信息影响句子领域信息的技术。该专利技术不但可以节省判断句子所属领域的时间,能够根据篇章以及句子的领域信息做出快速判断,同时放入对应领域的翻译系统进行翻译,可以有效提升翻译准确率。本专利技术的方法简单易行,领域类别容易拓展,在几乎不影响整个翻译速度的基础上可将系统的本文档来自技高网
...

【技术保护点】
1.一种基于领域自动识别篇章机器翻译方法,其特征在于,所述基于领域自动识别篇章机器翻译方法将待翻译的句子划分到对应领域;对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译;对翻译的句子进行合并得到篇章翻译结果。

【技术特征摘要】
1.一种基于领域自动识别篇章机器翻译方法,其特征在于,所述基于领域自动识别篇章机器翻译方法将待翻译的句子划分到对应领域;对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译;对翻译的句子进行合并得到篇章翻译结果。2.如权利要求1所述的基于领域自动识别篇章机器翻译方法,其特征在于,所述待翻译的句子划分到对应领域具体包括:(1)使用朴素贝叶斯方法对待翻译的文章进行领域分类,待翻译的文章,使用如下公式计算文章属于每个领域类别的分数:P(x|yi)=p(x1|yi)p(x2|yi)...p(x3|yi);其中,xi为文本中去除停用之后的所有词,yi为对应类别;(2)对文本中的每句话进行分类,将句子中的词转化为一个特定维度的向量,该特定维度的向量被成为词向量,词转化为embedding过程中使用的是一种单射函数,在数学上可表示为一个映射:f:X→Y;将经过转化之后的词向量输入到长短时记忆层进行计算;对于输入的词向量,通过以下公式计算在t时刻记忆单元状态候选值以及输入门it:it=σ(Wixt+Uiht-1+bi);其中σ()为激励函数,tanh()表示双曲正切函数,Wi、Ui、Wc为对应权重矩阵,t表示t时刻,bi与bc分别表示偏置;(3)利用如下公式计算在t时刻记忆单元遗忘门对应的值ft:ft=σ(Wfxt+Ufht-1+bf);其中σ()为激励函数,Wf、Uf为遗忘门对应权重矩阵,t表示t时刻,bf表示遗忘门对应偏置;(4)接着根据得到的it、以及ft利用如下公式更新当前状态值Ct:根据更新后的新状态值,使用如下公式计算最终输出:ot=σ(Woxt+Uo...

【专利技术属性】
技术研发人员:汪一鸣程国艮
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1