平行语料数据构建方法、装置、设备和存储介质制造方法及图纸

技术编号:37842427 阅读:38 留言:0更新日期:2023-06-14 09:47
本发明专利技术公开了一种平行语料数据构建方法、装置、设备和存储介质,所述方法包括:获取目标领域的单语语料数据;将所述单语语料数据输入预训练模型,得到伪平行语料数据以及其对应的置信度;根据所述置信度在所述伪平行语料数据中确定所述目标领域的平行语料数据。本发明专利技术提高了平行语料数据的准确度和相关性,为翻译模型的训练提供大量的数据,以使训练得到的翻译模型具有更好的鲁棒性,提高翻译的准确性。提高翻译的准确性。提高翻译的准确性。

【技术实现步骤摘要】
平行语料数据构建方法、装置、设备和存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种平行语料数据构建方法、装置、设备和存储介质。

技术介绍

[0002]目前机器翻译的解决方案大多基于深度神经网络技术构建序列到序列的模型,其训练与调优均依赖于大规模平行语料数据。因此,机器翻译模型的性能直接受制于对应语言资源的数量,然而在真实应用场景中,绝大部分语言属于低资源语言,不具备高质量标注且数据中存在一定的噪音,数量和准确度较低,导致训练得到的模型准确性低。

技术实现思路

[0003]本专利技术的主要目的在于提供一种平行语料数据构建方法、装置、设备和存储介质,旨在解决如何提升选取的平行语料数据的准确度的问题。
[0004]为实现上述目的,本专利技术提供的一种平行语料数据构建方法,所述平行语料数据构建方法包括以下步骤:
[0005]获取目标领域的单语语料数据;
[0006]将所述单语语料数据输入预训练模型,得到伪平行语料数据以及其对应的置信度;
[0007]根据所述置信度在所述伪平行语料数据中确定本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种平行语料数据构建方法,其特征在于,所述平行语料数据构建方法包括:获取目标领域的单语语料数据;将所述单语语料数据输入预训练模型,得到伪平行语料数据以及其对应的置信度;根据所述置信度在所述伪平行语料数据中确定所述目标领域的平行语料数据。2.如权利要求1所述的平行语料数据构建方法,其特征在于,所述将所述单语语料数据输入预训练模型,得到伪平行语料数据以及其对应的置信度的步骤之前,还包括:获取训练样本集,所述训练样本集包括单语训练数据和伪平行训练数据;构建神经网络模型,所述神经网络模型包括输入层、卷积层、池化层和输出层,输入层的输入为训练样本集中的单语训练数据对应的词向量;卷积层用于提取所述词向量的特征;池化层丢弃不相关的词向量;输出层的输出为单语训练数据对应的伪平行训练数据;根据所述训练样本集对所述神经网络模型进行训练,得到所述预训练模型。3.如权利要求2所述的平行语料数据构建方法,其特征在于,所述构建神经网络模型的步骤之前,还包括:更新预设的mBART模型的随机初始化的源编码器、mBART位置嵌入和mBART编码器第一层的自注意力输入投影矩阵;根据所述训练样本集对将预设的mBART模型的所有模型参数进行迭代训练,得到训练后的mBART模型;其中,所述训练后的mBART模型用于将单语语料数据转换为其对应的词向量。4.如权利要求1所述的平行语料数据构建方法,其特征在于,所述根据所述置信度在所述伪平行语料数据中确定所述目标领域的平行语料数据的步骤包括:将置信度大于预设阈值的单语语料数据和所述预训练模型输出的翻译结果,作为平行语料数据;以及获取置信度小于或者等于预设阈值的单语语料数据重新标注的翻译结果,将置信度小于或等于预设阈值的单语语料数据和其对应的翻译结果作为平行语料数据。5.如权利要求4所述的平行语料数...

【专利技术属性】
技术研发人员:王文正田亮廖玲张旭敏罗奕佳
申请(专利权)人:新译信息科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1