【技术实现步骤摘要】
一种基于离线强化学习的翻译性能提升方法
[0001]本专利技术涉及一种自然语言处理领域的机器翻译任务性能提升方法,具体为一种基于离线强化学习的翻译性能提升方法。
技术介绍
[0002]机器翻译(Machine Translation,MT)是计算语言学的一个分支,即利用电子计算机在各种自然语言之间进行自动翻译的实验科学。具体地说,是利用计算机将一门自然语言(源语言)转换为另一种自然语言(目标语言)的过程。现如今,以神经网络为代表的深度学习技术的蓬勃发展,使得机器翻译等任务领域出现了长足的进步,神经机器翻译俨然已经成为目前机器翻译领域主流的方法。较为常见的神经机器翻译模型采用端到端的编码器
‑
解码器框架,将机器翻译任务转化为序列之间的转化过程,即编码端将输入的源语言序列编码为源语言上下文向量,解码端则接收编码端提供的源语言上下文向量,将其转化生成目标语言序列。
[0003]强化学习(Reinforcement Learning,RL)是机器学习的范式之一,通过策略的更新优化,智能体能够在与环境交互的过 ...
【技术保护点】
【技术特征摘要】
1.一种基于离线强化学习的翻译性能提升方法,其特征在于包括以下步骤:1)使用极大似然估计范式训练神经机器翻译模型作为极大似然估计模型,用于后续轨迹数据的生成;2)以极大似然估计模型作为真实采样策略,离线强化学习模型使用极大似然估计模型初始化,并把离线强化学习模型作为待更新策略,计算重要性采样权重,用以训练过程中离线强化学习模型的更新;3)通过极大似然估计模型采样轨迹数据,使用极大似然估计模型针对输入源语输出的目标语概率分布总和作为奖励函数,确保生成的目标语句子在极大似然估计模型下拥有高整体可能性;4)使用计算得到的重要性采样权重与通过奖励函数得到的预期回报,结合当前待训练策略的决策输出,采用策略梯度方法对离线强化学习模型进行训练,实现离线强化学习模型翻译性能的提升。2.按照权利要求1所述的基于离线强化学习的翻译性能提升方法,其特征在于:在步骤1)中使用极大似然估计范式训练神经机器翻译模型作为极大似然估计模型,为强化学习范式下训练的离线强化学习模型提供初始策略,使得离线强化学习模型反向传播更新需要的奖励值逼近于人类的偏好习惯,来优化生成序列的感知质量。3.按照权利要求1所述的基于离线强化学习的翻译性能提升方法,其特征在于:步骤2)具体过程如下:201)使用近似概率分布代替每个采样动作沿时间步长的重要性采样乘积,避免其对优化超参数敏感,减少训练收敛时间;202)对行为策略的概率分布做进一步近似,得到最终采用的重要性采样权重,公式如下:ω
t
=π
θ
(a
t
|s
t
)其中,t为时间步,s
t
为输入的源语以及当前解码步骤输...
【专利技术属性】
技术研发人员:付鹏飞,陈瑞,
申请(专利权)人:沈阳雅译网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。