一种基于深度学习和注意力模型进行机器翻译的方法技术

技术编号:39511023 阅读:10 留言:0更新日期:2023-11-25 18:47
本发明专利技术涉及自然语言处理技术领域,具体为一种基于深度学习和注意力模型进行机器翻译的方法,包括以下步骤:数据预处理;构建数据加载器

【技术实现步骤摘要】
一种基于深度学习和注意力模型进行机器翻译的方法


[0001]本专利技术涉及自然语言处理
,具体为一种基于深度学习和注意力模型进行机器翻译的方法


技术介绍

[0002]机器翻译就是把一种语言翻译成另外一种语言,在这里,我用的例子都是从中文翻译成英文

上面的句子用
Source
标记,即源语言,下面用
Target
标记,即目标语言,机器翻译任务就是把源语言的句子翻译成目标语言的句子

[0003]现有技术中,机器翻译发展至今经历了三个比较重要的阶段:
[0004]1.
基于规则的翻译
[0005]通过人类语言学家来写规则,这一个词翻译成另外一个词

这个成分翻译成另外一个成分,在句子中的出现在什么位置,都用规则表示出来

这种方法的优点是直接用语言学专家知识,准确率非常高

缺点是什么呢?它的成本很高,比如说要开发中文和英文的翻译系统,需要找同时会中文和英文的语言学家

要开发另外一种语言的翻译系统,就要再找懂另外一种语言的语言学家

因此,基于规则的系统开发周期很长,成本很高

[0006]2.
基于统计的机器翻译
[0007]统计机器翻译系统对机器翻译进行了一个数学建模

可以在大数据的基础上进行训练

它的成本是非常低的,因为这个方法是语言无关的

一旦这个模型建立起来以后,对所有的语言都可以
rong
适用

统计机器翻译是一种基于语料库的方法,所以如果是在数据量比较少的情况下,就会面临一个数据稀疏的问题

同时,也面临另外一个问题,其翻译知识来自大数据的自动训练,那么如何加入专家知识?这也是目前机器翻译方法所面临的一个比较大挑战

[0008]3.
基于神经网络的机器翻译
[0009]神经网络翻译近年来迅速崛起

相比统计机器翻译而言,神经网络翻译从模型上来说相对简单,它主要包含两个部分,一个是编码器,一个是解码器

编码器是把源语言经过一系列的神经网络的变换之后,表示成一个高维的向量

解码器负责把这个高维向量再重新解码
(
翻译
)
成目标语言


技术实现思路

[0010]本专利技术的目的在于提供一种基于深度学习和注意力模型进行机器翻译的方法,以解决上述
技术介绍
中提出的问题

[0011]为实现上述目的,本专利技术提供如下技术方案:一种基于深度学习和注意力模型进行机器翻译的方法,所述方法包括以下步骤:
[0012]数据预处理;
[0013]构建数据加载器
Loader

[0014]构建编码器
Encoder
提取输入的文本语义信息;
[0015]构建解码器
Decoder

[0016]构建解码层;
[0017]构建损失函数
criterion
以及优化器
optimizer
后,训练模型;
[0018]搭建服务

使用模型进行文本分类

[0019]优选的,数据预处理的具体操作包括:
[0020]构建中英文分词器,对中英文进行颗粒度到
token
级别的分词;
[0021]使用中英文分词器,对中英文进行分词,对词进行统计,根据要求生成词表;
[0022]文本拆分,将中英文预料构建语句对后,按照一定比例拆分为训练集和验证集

[0023]优选的,构建数据加载器
Loader
的具体操作包括:
[0024]构建
dataset

dataloader
,对预处理后的数据进行加载和处理,输出模型需要的数据

[0025]优选的,构建编码器
Encoder
提取输入的文本语义信息包括,构建词嵌入层
embed1
以及构建语义信息提取层
extract1。
[0026]优选的,构建词嵌入层
embed1
包括:使用词表数为
C1
,构建词嵌入模型,维度为
E1
;输出为
out1
维度:
B1,L1,E1

[0027]构建语义信息提取层
extract1
包括:使用层数为
Lay1
,维度
D1
,双向的
GRU
作为语义信息提取层,提取语义信息;
[0028]对最后一个时间步的隐藏层的输出,取最后两层在最后一个维度进行拼接;
[0029]输出为
out1,H1
维度:
out1B1,L1,D1

H11,B1,2xD1。
[0030]优选的,构建解码器
Decoder
包括构建词嵌入层
embed2
以及构建注意力层
atttention1。
[0031]优选的,构建词嵌入层
embed2
包括:使用词表数为
C2
,构建词嵌入模型,维度为
E2
;输出为
out1
维度:
B1,L2,E2

[0032]构建注意力层
atttention1
包括:使用点乘构建注意力层,通过编码器提取

[0033]优选的,构建解码层具体操作如下:
[0034]构建步解码层:使用层数为
lay2
,维度
D2,
单向的
GRU
作为语义信息提取层,以时间步提取文本信息输出
out_t

h_t,
维度
:out_t(B2,1,D2)

h_t(lay2

B2

D2)

[0035]构建注意力层:使用编码器输出
out1
和时间步解码层输出的
out_t
进行点乘计算经
soft_max
处理输出权重后,与
out1
点乘后输出
out_attn_t
维度:
out_attn_t(B2,1,D2)

[0036]构建最大时间步
TN
的解码层,初始输入
IN1,
填充为
bos_id
,文本开始的
id...

【技术保护点】

【技术特征摘要】
1.
一种基于深度学习和注意力模型进行机器翻译的方法,其特征在于:所述方法包括以下步骤:数据预处理;构建数据加载器
Loader
;构建编码器
Encoder
提取输入的文本语义信息;构建解码器
Decoder
;构建解码层;构建损失函数
criterion
以及优化器
optimizer
后,训练模型;搭建服务

使用模型进行文本分类
。2.
根据权利要求1所述的一种基于深度学习和注意力模型进行机器翻译的方法,其特征在于:数据预处理的具体操作包括:构建中英文分词器,对中英文进行颗粒度到
token
级别的分词;使用中英文分词器,对中英文进行分词,对词进行统计,根据要求生成词表;文本拆分,将中英文预料构建语句对后,按照一定比例拆分为训练集和验证集
。3.
根据权利要求1所述的一种基于深度学习和注意力模型进行机器翻译的方法,其特征在于:构建数据加载器
Loader
的具体操作包括:构建
dataset

dataloader
,对预处理后的数据进行加载和处理,输出模型需要的数据
。4.
根据权利要求1所述的一种基于深度学习和注意力模型进行机器翻译的方法,其特征在于:构建编码器
Encoder
提取输入的文本语义信息包括,构建词嵌入层
embed1
以及构建语义信息提取层
extract1。5.
根据权利要求4所述的一种基于深度学习和注意力模型进行机器翻译的方法,其特征在于:构建词嵌入层
embed1
包括:使用词表数为
C1
,构建词嵌入模型,维度为
E1
;输出为
out1
维度:
B1,L1,E1
;构建语义信息提取层
extract1
包括:使用层数为
Lay1
,维度
D1
,双向的
GRU
作为语义信息提取层,提取语义信息;对最后一个时间步的隐藏层的输出,取最后两层在最后一个维度进行拼接;输出为
out1,H1
维度:
out1B1,L1,D1

H11,B1,2xD1。6.
根据权利要求1所述的一种基于深度学习和注意力模型进行机器翻译的方法,其特征在于:构建解码器
Decoder
包括构建词嵌入层
embed2
以及构建注意力层
atttention1。7.
根据权利要求1所述的一种基于深度学习和注意力模型进行机器翻译的方法,其特征在于:构建词嵌入层
embed2
包括:使用词表数为
C2
,构建词嵌入模型,维度为
E2
;输出为
out1
维度:
B1,L2,E2
;构建注意力...

【专利技术属性】
技术研发人员:荣广胜李明明潘心冰
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1