【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其涉及一种基于句子结构切分的层次型朝汉机器翻译方法。
技术介绍
1、机器翻译(machine translation,mt)是指利用计算机程序将源语言的一段文本转换成语义等价的目标语言文本的任务。神经机器翻译为当前主流方法,其主要技术为序列到序列(seq2seq)模型。有学者提出一种利用卷积神经网络和循环神经网络作为编码器和解码器的新型seq2seq架构。还有利用循环神经网络作为编码器和解码器的seq2seq方法。现有技术公开了向seq2seq架构引入注意力机制,在解码器中根据编码器的隐含状态向量、解码器前一隐藏状态向量和当前隐藏状态向量计算输出概率。transformer模型采用自注意力机制和前馈神经网络取代传统的cnn和rnn模型作为编码器与解码器,减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。虽然seq2seq方法在机器翻译中有很成熟的应用,但当输入序列的长度较长时,模型的学习效果下降。目前解决长序列问题的方法有截断、分段编码、架构调整等方法。但目前属于架构调整的层次模型主要应用于分类或者
本文档来自技高网...【技术保护点】
1.一种基于句子结构切分的层次型朝汉机器翻译方法,其特征在于,包括:
2.根据权利要求1所述的基于句子结构切分的层次型朝汉机器翻译方法,其特征在于,将所述朝鲜语长句切分为所述子句集合的方法包括KPN方法和KP方法,所述KPN方法与所述KP方法均为利用标点符号、词尾和词性对句子进行切分,所述KPN方法在进行切分时考虑词尾后一个词的词性,所述KP方法在切分时不考虑词尾后一个词素的词性。
3.根据权利要求1所述的基于句子结构切分的层次型朝汉机器翻译方法,其特征在于,所述层次模型包括:
4.根据权利要求3所述的基于句子结构切分的层次型朝汉机
...【技术特征摘要】
1.一种基于句子结构切分的层次型朝汉机器翻译方法,其特征在于,包括:
2.根据权利要求1所述的基于句子结构切分的层次型朝汉机器翻译方法,其特征在于,将所述朝鲜语长句切分为所述子句集合的方法包括kpn方法和kp方法,所述kpn方法与所述kp方法均为利用标点符号、词尾和词性对句子进行切分,所述kpn方法在进行切分时考虑词尾后一个词的词性,所述kp方法在切分时不考虑词尾后一个词素的词性。
3.根据权利要求1所述的基于句子结构切分的层次型朝汉机器翻译方法,其特征在于,所述层次模型包括:
4.根据权利要求3所述的基于句子结构切分的层次型朝汉机器翻译方法,其特征在于,在所述层次模型进行处理前还包括词向量初始化,采用随机初始化或预训练初始化进行所述词向量初始化;其中,所述随机初始化包括sentencepiece的tokenizer以及bert的tokenizer;所述预训练初始化为采用朝鲜语bert和汉语bert分别初始化编码器与解码器的词向量嵌入部分。
5.根据权利要求3所述的基于句子结构切分的层次型朝汉机器翻译方法,其特征在于,将所述...
【专利技术属性】
技术研发人员:赵亚慧,刘帆,崔荣一,金国哲,卢星华,金哲俊,张振国,黄政豪,李永恒,孟嘉,张博伦,
申请(专利权)人:延边大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。