【技术实现步骤摘要】
注意力模型的训练方法、装置、设备及存储介质
本专利技术涉及机器学习
,具体而言,涉及一种注意力模型的训练方法、装置、设备及可读存储介质。
技术介绍
人工神经网络是基于对人脑神经元网络工作原理的理解,从信息处理角度建立的模拟模型,由大量的节点和节点相互之间的联接所构成。深度学习是一种通过建立多层人工神经网络,以实现基于人工智能的机器学习方法。处理序列数据的深度学习模型,往往使用注意力模型以便让模型学习到特定层节点与另一特定层节点之间的对应关系,以提高模型对训练数据的拟合程度和对测试数据的预测准确度。在相关的注意力模型中,通常基于网络中现有信息动态地计算针对特定节点的注意力权重。然而,采用注意力机制的机器学习通常是非常缓慢的过程,对于完全基于数据驱动的机器学习,单个深度学习模型到达收敛常常需要持续几十万个时间步。深度学习的建模过程,需要通过非常多的实验才能最终找到适合的网络结构和参数,每次实验都需要重新训练模型。模型收敛速度慢意味着消耗较多的计算资源,以及比较长的模型上线周期,使深度学习模型研发的预算和时间成本居高不下。< ...
【技术保护点】
1.一种注意力模型的训练方法,其特征在于,包括:/n获取训练数据,所述训练数据包括训练样本及其标签;/n通过所述注意力模型对所述训练样本进行处理,获得所述注意力模型的预测结果和注意力向量;/n根据所述训练样本的预测结果及其标签,获得固有损失函数;/n根据所述固有损失函数和所述注意力向量确定总损失函数;/n基于所述总损失函数更新所述注意力模型的模型参数,获得所述注意力模型的目标模型参数。/n
【技术特征摘要】
1.一种注意力模型的训练方法,其特征在于,包括:
获取训练数据,所述训练数据包括训练样本及其标签;
通过所述注意力模型对所述训练样本进行处理,获得所述注意力模型的预测结果和注意力向量;
根据所述训练样本的预测结果及其标签,获得固有损失函数;
根据所述固有损失函数和所述注意力向量确定总损失函数;
基于所述总损失函数更新所述注意力模型的模型参数,获得所述注意力模型的目标模型参数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述固有损失函数和所述注意力向量确定总损失函数,包括:
根据所述注意力向量获得注意力向量熵;
根据所述注意力向量熵获得注意力分布损失函数;
根据所述注意力分布损失函数和所述固有损失函数获得所述总损失函数。
3.根据权利要求2所述的方法,其特征在于,总损失函数C1(θt)表示为:
其中,θt用于表示t时刻所述模型参数的向量,C(θt)用于表示所述固有损失函数,λ用于表示预设正则化强度,用于表示所述注意力分布损失函数,Tx用于表示所述注意力模型的输入序列中的符号个数,Ty用于表示所述注意力模型的输出序列中的符号个数,αij用于表示所述注意力模型输出所述输出序列中的第i个符号时对所述输入序列中的第j个符号的注意力权重,i为大于等于1且小于等于Ty的正整数,j为大于等于1且小于等于Tx的正整数。
4.根据权利要求1所述的方法,其特征在于,所述通过所述注意力模型对所述训练样本进行处理,获得所述注意力模型的注意力向量,包括:
通过所述注意力模型对所述训练样本进行处理,获得所述注意力模型的隐藏状态;
根据所述隐藏状态获得所述注意力模型的注意力向量。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述基于所述总损失函数更新所述注意力模型的模型参数,获得所述注意力模型的目标模型参数,包括:
通过所述注意力模型基于所述总损失函数和所述训练样本获得所述模型参数的梯度;
根据所述模型参数的梯度更新所述注意力模型的模型参数。
6.根据权利要求5所述的方法,其特征在于,采用以下公式获得所述模型参数的梯度,包括:
其中,C1(θt)用于表示所述总损失函数,用于表示t时刻所述总损失函数C1(θt)在所述模型参数θt处的梯度,θt用于表示t时刻所述模型参数的向量,用于表示所述注意力模型中第l层的第m个输入在第n个节点输出中的权重参数,用于表示所述注意力模型中所述第m个输入在所述第l层的位移参数,所述模型参数包括所述权重参数和所述位移参数,m为大于等于1且小于等于所述注意力模型的所述第l层输入序列中的符号个数的正整数,l为大于等于1且小于等于所述注意力模型的网络层数的正整数,n为大于等于1且小于等于所述注意力模型的网络节点数的正整数。
7.根据权利要求6所述的方法,其特征在于,所述根据所述模型参数的梯度更新所述注意力模型的模型参数,包括:
其中,θt+1用于表示更新后的t+1时刻所述模型参数的向量,η用于表示预设学习率。
8.根据权利要求1至4中任意一项所述的方法,其特征在于,所述通过所述注意力模型对所述训练样本进行处理,获得所述注意力模型的预测结果和注意力向量,包括:
将所述训练样本输入所述注意力模型,其中,所述注意力模型包括编码器网络和解码器网络,所述编码器网络和所述解码器网络相连接;
通过所述编码器网络将所述训练样本进行编码,获得所述编码器网络中lx-1层的编码器输出和lx层的编码器输出,其中,所述lx-1层和所述lx层用于表示所述编码器网络中采用注意力机制的层,lx为大于1且小于等于所述编码器网络的网络层数的正整数;
对所述lx-1层的编码器输出进行变换,得到查询矩...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。