一种基于离线强化学习的翻译性能提升方法技术

技术编号:37168300 阅读:32 留言:0更新日期:2023-04-20 22:40
本发明专利技术公开一种基于离线强化学习的翻译性能提升方法,使用极大似然估计范式训练神经机器翻译模型作为极大似然估计模型;以极大似然估计模型作为真实采样策略,把离线强化学习模型作为待更新策略,计算重要性采样权重,用以训练过程中离线强化学习模型的更新;通过极大似然估计模型采样轨迹数据,针对输入源语输出的目标语概率分布总和作为奖励函数;使用重要性采样权重与预期回报,结合当前待训练策略的决策输出,采用策略梯度方法对离线强化学习模型进行训练,实现离线强化学习模型翻译性能的提升。本发明专利技术解决了传统强化学习范式下,模型策略需要不断与环境进行采样交互的操作,避免了采样交互过程中策略陷入零奖励区域中导致训练困难。致训练困难。致训练困难。

【技术实现步骤摘要】
一种基于离线强化学习的翻译性能提升方法


[0001]本专利技术涉及一种自然语言处理领域的机器翻译任务性能提升方法,具体为一种基于离线强化学习的翻译性能提升方法。

技术介绍

[0002]机器翻译(Machine Translation,MT)是计算语言学的一个分支,即利用电子计算机在各种自然语言之间进行自动翻译的实验科学。具体地说,是利用计算机将一门自然语言(源语言)转换为另一种自然语言(目标语言)的过程。现如今,以神经网络为代表的深度学习技术的蓬勃发展,使得机器翻译等任务领域出现了长足的进步,神经机器翻译俨然已经成为目前机器翻译领域主流的方法。较为常见的神经机器翻译模型采用端到端的编码器

解码器框架,将机器翻译任务转化为序列之间的转化过程,即编码端将输入的源语言序列编码为源语言上下文向量,解码端则接收编码端提供的源语言上下文向量,将其转化生成目标语言序列。
[0003]强化学习(Reinforcement Learning,RL)是机器学习的范式之一,通过策略的更新优化,智能体能够在与环境交互的过程中达到设定目标的回报最大化,是一个不断探索

利用的迭代过程。不同于监督学习范式,传统的强化学习范式不需要事先给定训练数据,而是在智能体策略与环境的交互中获得强化信号作为学习信息,以此来更新优化模型的参数。强化学习范式在许多人工智能领域都得到广泛应用,但在一些设定下,这种智能体与环境在线交互式的数据收集会显得有些不切实际,如在自动驾驶、医疗保健领域,交互数据的收集成本往往十分高昂。离线强化学习则允许智能体利用离线的数据,完全不与环境进行交互而完成强化学习的更新优化过程,是一个非常有潜力的方向。
[0004]现有的神经机器翻译解码方法大多都基于自回归与极大似然估计范式,在这种范式下的训练过程中,模型输出的译文被期望与给定训练数据的参考译文尽可能地相似。然而这种范式也可能会产生训练与推断时目标不一致以及教师强迫自回归范式所导致的暴露偏置问题,造成错误的累积传播。上述的问题的解决方案与强化学习的优化目标十分契合,可以通过强化学习范式解决上述问题,但将强化学习方法应用到机器翻译任务当中,探索空间将会膨胀到指数级,智能体策略可能会陷入到零奖励区域而无法很好地与环境完成采样交互,探索的益处会十分有限。因此采用离线强化学习范式,在离线的设定下仅使用离线数据对模型进行强化学习的训练,无疑是一种较优的解决方案。

技术实现思路

[0005]针对传统强化学习范式下,训练机器翻译模型需要与环境不断采样交互,容易陷入零奖励区域导致模型性能差的问题,本专利技术提供一种离线强化学习的翻译性能提升方法,采用离线强化学习设定与极大似然估计求解奖励函数,在避免交互的同时使翻译结果更贴近人工翻译,实现翻译系统性能的提升。
[0006]为解决上述技术问题,本专利技术采用的技术方案是:
[0007]本专利技术提供一种基于离线强化学习的翻译性能提升方法,包括以下步骤:
[0008]1)使用极大似然估计范式训练神经机器翻译模型作为极大似然估计模型,用于后续轨迹数据的生成;
[0009]2)以极大似然估计模型作为真实采样策略,离线强化学习模型使用极大似然估计模型初始化,并把离线强化学习模型作为待更新策略,计算重要性采样权重,用以训练过程中离线强化学习模型的更新;
[0010]3)通过极大似然估计模型采样轨迹数据,使用极大似然估计模型针对输入源语输出的目标语概率分布总和作为奖励函数,确保生成的目标语句子在极大似然估计模型下拥有高整体可能性;
[0011]4)使用计算得到的重要性采样权重与通过奖励函数得到的预期回报,结合当前待训练策略的决策输出,采用策略梯度方法对离线强化学习模型进行训练,实现离线强化学习模型翻译性能的提升。
[0012]在步骤1)中使用极大似然估计范式训练神经机器翻译模型作为极大似然估计模型,为强化学习范式下训练的离线强化学习模型提供初始策略,使得离线强化学习模型反向传播更新需要的奖励值逼近于人类的偏好习惯,来优化生成序列的感知质量。
[0013]步骤2)具体过程如下:
[0014]201)使用近似概率分布代替每个采样动作沿时间步长的重要性采样乘积,避免其对优化超参数敏感,减少训练收敛时间;
[0015]202)对行为策略的概率分布做进一步近似,得到最终采用的重要性采样权重,公式如下:
[0016]ω
t
=π
θ
(a
t
|s
t
)
[0017]其中,t为时间步,s
t
为输入的源语以及当前解码步骤输出的目标语,a
t
为当前时间步解码出的目标语单词,π
θ
为待更新策略;
[0018]步骤3)具体过程如下:
[0019]301)将离线数据中的源语言句子输入采用极大似然估计范式训练的神经机器翻译模型p
MLE
中,将其输出的目标语句子概率分布作为采样到的轨迹;
[0020]302)根据定义的奖励函数,从采样到的轨迹计算生成句子的单词概率总和作为其预期回报Q(s
t
,a
t
),奖励函数的定义与计算得出的预期回报公式分别如下:
[0021]R(s,a)=p
MLE
(a|s)
[0022][0023]其中,R(s,a)为奖励函数,s为采样到的轨迹状态,a为根据状态决策作出的动作,p
MLE
(a|s)为极大似然估计范式训练出的模型的动作概率分布,p
MLE
(a
t
|s
t
)为当前时间步下极大似然估计范式训练出的模型的动作概率分布,t为时间步,T为总时间步数。
[0024]在步骤4)中,采用策略梯度方法对模型进行训练,训练目标函数的梯度估计如下:
[0025][0026]其中,D为训练数据,τ为从训练数据中采样到的轨迹,t为时间步,π
θ
(a
t
,s
t
)为离线
强化学习范式训练出的模型策略,Q(s
t
,a
t
)为预期回报。
[0027]本专利技术具有以下有益效果及优点:
[0028]1.本专利技术通过基于离线强化学习范式的应用,解决了传统强化学习范式下,模型策略需要不断与环境进行采样交互的操作,避免了采样交互过程中策略陷入零奖励区域中导致训练困难。
[0029]2.本专利技术选取极大似然估计求解的奖励作为人工翻译的近似,保证了生成翻译句子的整体在人工翻译中都有较大的可能性,能够优化生成翻译序列的感知质量,并成功实现了翻译系统性能的提升。
附图说明
[0030]图1为本专利技术基于离线强化学习的翻译性能提升方法的结构图;
[0031]图2为本专利技术涉及的模型预训练流程图。
具体实施方式
[0032]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于离线强化学习的翻译性能提升方法,其特征在于包括以下步骤:1)使用极大似然估计范式训练神经机器翻译模型作为极大似然估计模型,用于后续轨迹数据的生成;2)以极大似然估计模型作为真实采样策略,离线强化学习模型使用极大似然估计模型初始化,并把离线强化学习模型作为待更新策略,计算重要性采样权重,用以训练过程中离线强化学习模型的更新;3)通过极大似然估计模型采样轨迹数据,使用极大似然估计模型针对输入源语输出的目标语概率分布总和作为奖励函数,确保生成的目标语句子在极大似然估计模型下拥有高整体可能性;4)使用计算得到的重要性采样权重与通过奖励函数得到的预期回报,结合当前待训练策略的决策输出,采用策略梯度方法对离线强化学习模型进行训练,实现离线强化学习模型翻译性能的提升。2.按照权利要求1所述的基于离线强化学习的翻译性能提升方法,其特征在于:在步骤1)中使用极大似然估计范式训练神经机器翻译模型作为极大似然估计模型,为强化学习范式下训练的离线强化学习模型提供初始策略,使得离线强化学习模型反向传播更新需要的奖励值逼近于人类的偏好习惯,来优化生成序列的感知质量。3.按照权利要求1所述的基于离线强化学习的翻译性能提升方法,其特征在于:步骤2)具体过程如下:201)使用近似概率分布代替每个采样动作沿时间步长的重要性采样乘积,避免其对优化超参数敏感,减少训练收敛时间;202)对行为策略的概率分布做进一步近似,得到最终采用的重要性采样权重,公式如下:ω
t
=π
θ
(a
t
|s
t
)其中,t为时间步,s
t
为输入的源语以及当前解码步骤输...

【专利技术属性】
技术研发人员:付鹏飞陈瑞
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1