【技术实现步骤摘要】
翻译模型训练方法及装置、翻译方法及装置
[0001]本申请涉及计算机技术的人工智能领域,特别涉及翻译模型训练方法及装置、翻译方法及装置、计算设备和计算机可读存储介质。
技术介绍
[0002]人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。近年来,机器学习领域印象最深刻的进步出现在深度学习子领域(又称深度神经网络学习)。深度学习(deep learning)是指通过训练具有许多隐层的神经网络来创建丰富层次表示的方法。深层学习利用简单计算单元(即“神经元”)组成多层网络。其中,每个单元将一组输入值组合以产生一个输出值,并将该值传递给下游其他神经元。深度学习中的神经网络都由若干隐藏层组成。自然语言处理(Natural Language Processing)是计算机科学领域与人工智能领域中的一个 ...
【技术保护点】
【技术特征摘要】
1.一种翻译模型训练方法,其特征在于,所述翻译模型包括编码嵌入层,所述方法包括:获取待翻译样本文本和所述待翻译样本文本对应的目标样本文本,其中,所述待翻译样本文本包括初始待翻译样本文本和所述初始待翻译样本文本对应的样本领域标签;将所述初始待翻译样本文本和所述样本领域标签输入至所述翻译模型的编码嵌入层,获得输出的待编码矩阵;将所述待编码矩阵输入至所述翻译模型做编码解码处理,获得所述待编码矩阵对应的预测文本;根据所述预测文本和所述目标样本文本计算模型损失值,根据所述模型损失值调整所述翻译模型的模型参数,并继续训练所述翻译模型,直至达到训练停止条件。2.如权利要求1所述的方法,其特征在于,将所述初始待翻译样本文本和所述样本领域标签输入至所述翻译模型的编码嵌入层,获得输出的待编码矩阵,包括:将所述初始待翻译样本文本和所述样本领域标签输入至所述编码嵌入层;所述编码嵌入层对所述样本领域标签做嵌入化处理生成样本领域标签矩阵,对所述初始待翻译样本文本做嵌入化处理生成初始待翻译样本文本矩阵;根据所述样本领域标签矩阵和所述初始待翻译样本文本矩阵生成待编码矩阵。3.如权利要求1所述的方法,其特征在于,所述翻译模型还包括编码器和解码器;将所述待编码矩阵输入至所述翻译模型做编码解码处理,获得所述待编码矩阵对应的预测文本,包括:将所述待编码矩阵输入至所述编码器做编码处理,获得所述待编码矩阵对应的编码矩阵;将所述编码矩阵输入至所述解码器做解码处理,获得所述编码矩阵对应的解码矩阵;对所述解码矩阵做归一化处理,获得所述解码矩阵对应的预测文本。4.如权利要求3所述的方法,其特征在于,所述编码器包括n个编码层,其中,n为大于等于2的正整数;将所述待编码矩阵输入至所述编码器做编码处理,获得所述待编码矩阵对应的编码矩阵,包括:S41、将所述待编码矩阵输入至第1个编码层,得到所述第1个编码层输出的编码矩阵;S42、将第t
‑
1个编码层输出的编码矩阵输入至第t个编码层,得到第t个编码层输出的编码矩阵,其中2≤t≤n;S43、将t自增1,判断t是否大于n,若是,则获得编码矩阵,若否,继续执行步骤S42。5.如权利要求3所述的方法,其特征在于,所述解码器包括解码嵌入层和m个解码层,其中,m为大于等于2的正整数;将所述编码矩阵输入至所述解码器做解码处理,获得所述编码矩阵对应的解码矩阵,包括:S51、将所述目标样本文本输入至所述解码嵌入层做嵌入化处理,获得目标样本文本矩阵;S52、将所述编码矩阵和所述目标样本文本矩阵输入至第1个解码层,得到所述第1个解码层输出的解码矩阵;
S53、将所述编码矩阵和第j
‑
1个解码层输出的解码矩阵输入至第j个解码层,得到第j个解码层输出的解码矩阵,其中2≤j≤m;S54、将j自增1,判断j是否大于m,若是,则获得解码矩阵,若否,继续执行步骤S53。6.如权利要求1所述的方法,其特征在于,训练停止条件,包括:所述模型损失值小于预设阈值;和/或所述翻译模型的训练轮次达到预设轮次。7.如权利要求1所述的方法,其特征在于,根据所述预测文本和所述目标样本文本计算模型损失值,包括:将所述预测文本和所述目标样本文本输入至目标损失函数;获得所述目标损失函数输出的模型损失值。8.如权利要求7所述的方法,其特征在于,将所述预测文本和所述目标样本文本输入至目标损失函数的步骤之后,包括:根据词汇分配信息计算每个预测文本对应的词向量矩阵和目标样本文本对应的向量矩阵对应的子损失值;根据样本总数量和每个子损失值计算模型损失值。9.如权利要求7所述的方法,其特征在于,所述目标损失函数包括:其中,C表示损失值Loss,x表示目标样本文本对应的向量表示,y表示预测文本对应的词ID矩阵、a表示翻译模型预测的词汇分布,n表示样本总数量。10.如权利要求1所述的方法,其特征在于,所述待翻译样本文本通过如下方法获得:获取训练样本集合,其中,所述训练样本集合中包括初始待翻译样本文本和初始待翻译样本文本对应的目标样本文本;接收针对所述初始待翻译样本文本的标注指令,其中,所述标注指令中携带有样本领域标签;响应于所述标注指令为所述初始待翻译样本文本标注样本领域标签;根据所述初始待翻译样本文本和所述样本领域标签生成待翻译样本文本。11.如权利要求10所述的方法,其特征在于,响应于所述标注指令为所述初始...
【专利技术属性】
技术研发人员:李长亮,黄继豪,杨柳祎,
申请(专利权)人:北京金山数字娱乐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。