一种基于句子结构切分的层次型朝汉机器翻译方法技术

技术编号：40596458 阅读：25 留言：0更新日期：2024-03-12 21:59

本发明专利技术公开了一种基于句子结构切分的层次型朝汉机器翻译方法，包括：根据朝鲜语句特点，将朝鲜语长句切分为子句集合，并利用BERT预训练模型对所述子句集合中的每一个子句进行词向量初始化，获得输入序列；设计层次模型，将所述输入序列输入至所述层次模型中进行处理，获取最终的翻译语句，其中，所述层次模型用于利用朝鲜语源语句与汉语目标语句之间的对应关系进行翻译。本发明专利技术实现了多级句子信息的提取与整合，在训练时保留了更多的长序列句子信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，尤其涉及一种基于句子结构切分的层次型朝汉机器翻译方法。

技术介绍

1、机器翻译(machine translation，mt)是指利用计算机程序将源语言的一段文本转换成语义等价的目标语言文本的任务。神经机器翻译为当前主流方法，其主要技术为序列到序列(seq2seq)模型。有学者提出一种利用卷积神经网络和循环神经网络作为编码器和解码器的新型seq2seq架构。还有利用循环神经网络作为编码器和解码器的seq2seq方法。现有技术公开了向seq2seq架构引入注意力机制，在解码器中根据编码器的隐含状态向量、解码器前一隐藏状态向量和当前隐藏状态向量计算输出概率。transformer模型采用自注意力机制和前馈神经网络取代传统的cnn和rnn模型作为编码器与解码器，减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。虽然seq2seq方法在机器翻译中有很成熟的应用，但当输入序列的长度较长时，模型的学习效果下降。目前解决长序列问题的方法有截断、分段编码、架构调整等方法。但目前属于架构调整的层次模型主要应用于分类或者多文本任务。

本文档来自技高网...

【技术保护点】

1.一种基于句子结构切分的层次型朝汉机器翻译方法，其特征在于，包括：

2.根据权利要求1所述的基于句子结构切分的层次型朝汉机器翻译方法，其特征在于，将所述朝鲜语长句切分为所述子句集合的方法包括KPN方法和KP方法，所述KPN方法与所述KP方法均为利用标点符号、词尾和词性对句子进行切分，所述KPN方法在进行切分时考虑词尾后一个词的词性，所述KP方法在切分时不考虑词尾后一个词素的词性。

3.根据权利要求1所述的基于句子结构切分的层次型朝汉机器翻译方法，其特征在于，所述层次模型包括：

4.根据权利要求3所述的基于句子结构切分的层次型朝汉机器翻译方法，其特征在...

【技术特征摘要】

1.一种基于句子结构切分的层次型朝汉机器翻译方法，其特征在于，包括：

2.根据权利要求1所述的基于句子结构切分的层次型朝汉机器翻译方法，其特征在于，将所述朝鲜语长句切分为所述子句集合的方法包括kpn方法和kp方法，所述kpn方法与所述kp方法均为利用标点符号、词尾和词性对句子进行切分，所述kpn方法在进行切分时考虑词尾后一个词的词性，所述kp方法在切分时不考虑词尾后一个词素的词性。

3.根据权利要求1所述的基于句子结构切分的层次型朝汉机器翻译方法，其特征在于，所述层次模型包括：

4.根据权利要求3所述的基于句子结构切分的层次型朝汉机器翻译方法，其特征在于，在所述层次模型进行处理前还包括词向量初始化，采用随机初始化或预训练初始化进行所述词向量初始化；其中，所述随机初始化包括sentencepiece的tokenizer以及bert的tokenizer；所述预训练初始化为采用朝鲜语bert和汉语bert分别初始化编码器与解码器的词向量嵌入部分。

5.根据权利要求3所述的基于句子结构切分的层次型朝汉机器翻译方法，其特征在于，将所述...

【专利技术属性】
技术研发人员：赵亚慧，刘帆，崔荣一，金国哲，卢星华，金哲俊，张振国，黄政豪，李永恒，孟嘉，张博伦，
申请(专利权)人：延边大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人