【技术实现步骤摘要】
一种藏汉翻译方法和装置
本专利技术涉及一种藏汉翻译方法和装置。
技术介绍
机器翻译技术主要有两种实现途径,一种是基于规则的翻译技术,一种是基于统计的翻译技术。在基于统计的翻译技术中,近些年随着深度神经网络的发展,基于深度学习的神经机器翻译逐渐成为翻译模型的主流。在神经机器翻译中,编码器-解码器模型是主要的翻译框架,其编码器神经网络将源语言特征映射到向量中,由解码器神经网络将该向量解码为目标语言。在2017年之前,编码器-解码器中主要使用的神经网络为长短时神经网络(LSTM)或门控循环单元(GRU)。注意力机制通过加权求和的方式,在词向量中重新分配权重,使得重点内容获得关注,因其可以显著提升机器翻译效果,也是编码器-解码器框架中必不可少的组件。LSTM能提取源语言与目标语言的特征,缓解了普通RNN梯度爆炸与梯度弥散的问题,与普通RNN相比可以在更长的序列中捕捉依赖信息。GRU是基于LSTM的改进,其构造更为简单,与LSTM相比可以节省1/3的参数量,显著降低训练的时间。注意力机制强迫编码器-解码器学习源语言与目标语言的 ...
【技术保护点】
1.一种藏汉翻译方法,其特征在于,包括:/n构建藏汉双语平行原始语料库;/n对所述藏汉双语平行原始语料库进行预处理,得到可训练的藏汉双语平行目标语料库;/n根据所述藏汉双语平行目标语料库,获取源语言序列和目标语言序列;/n将所述源语言序列和目标语言序列进行向量扩展,得到源语言向量和目标语言向量;/n将所述源语言向量输入至编码器模块中进行处理,得到处理结果,将所述目标语言向量以及所述处理结果输入至解码器模块中进行训练,得到输出向量;/n将所述输出向量映射回目标语言词典;/n计算目标语言序列中每个词出现的概率值,将概率取值以向量形式输出,得到训练模型;/n利用集束搜索算法,对所 ...
【技术特征摘要】
1.一种藏汉翻译方法,其特征在于,包括:
构建藏汉双语平行原始语料库;
对所述藏汉双语平行原始语料库进行预处理,得到可训练的藏汉双语平行目标语料库;
根据所述藏汉双语平行目标语料库,获取源语言序列和目标语言序列;
将所述源语言序列和目标语言序列进行向量扩展,得到源语言向量和目标语言向量;
将所述源语言向量输入至编码器模块中进行处理,得到处理结果,将所述目标语言向量以及所述处理结果输入至解码器模块中进行训练,得到输出向量;
将所述输出向量映射回目标语言词典;
计算目标语言序列中每个词出现的概率值,将概率取值以向量形式输出,得到训练模型;
利用集束搜索算法,对所述训练模型进行推断,得到翻译模型。
2.根据权利要求1所述的藏汉翻译方法,其特征在于,所述对所述藏汉双语平行原始语料库进行预处理,得到可训练的藏汉双语平行目标语料库,包括:
将所述藏汉双语平行原始语料库中的句子级别的原始语料对按照预设的分词算法进行分词,得到词级别的语料对;
将所述藏汉双语平行原始语料库中的词级别的原始语料对以及得到的所述词级别的语料对按照预设的BPE字节对编码算法进行处理。
3.根据权利要求2所述的藏汉翻译方法,其特征在于,所述将所述藏汉双语平行原始语料库中的句子级别的原始语料对按照预设的分词算法进行分词,得到词级别的语料对之前,对所述藏汉双语平行原始语料库中的原始语料对还依次进行长度过滤处理、长度截断处理和模式过滤处理,其中,
所述长度过滤处理过程包括:将所述藏汉双语平行原始语料库中长度小于预设短阈值的原始语料对进行过滤;
所述长度截断处理过程包括:将所述藏汉双语平行原始语料库中长度大于预设长阈值的原始语料对进行截断,分为至少两个语料对,分得的各语料对的长度均小于或者等于所述预设长阈值;
所述模式过滤处理过程包括:将所述藏汉双语平行原始语料库中的满足预设过滤规则的原始预料对进行过滤。
4.根据权利要求1所述的藏汉翻译方法,其特征在于,所述将所述源语言序列和目标语言序列进行向量扩展,得到源语言向量和目标语言向量,包括:
将所述源语言序列和目标语言序列由实数序列扩展为D维实数向量;
将位置信息嵌入所述D维实数向量,得到所述源语言向量和目标语言向量。
5.根据权利要求1所述的藏汉翻译方法,其特征在于,所述将所述源语言向量输入至编码器模块中进行处理,得到处理结果,包括:
将所述源语言向量切分为h个头,对每个头应用自注意力机制,得到处理过后的源语言序列向量;
将所述源语言序列向量使用前馈层进行处理,生成与所述源语言序列向量相对应的新的表示向量...
【专利技术属性】
技术研发人员:尼玛扎西,于永斌,头旦才让,仁青东珠,王昊,邓权芯,
申请(专利权)人:西藏大学,
类型:发明
国别省市:西藏;54
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。