翻译模型的训练语料处理方法、装置、设备和存储介质制造方法及图纸

技术编号:31230229 阅读:12 留言:0更新日期:2021-12-08 10:00
本申请涉及一种翻译模型的训练语料处理方法、装置、设备和存储介质。所述方法涉及自然语言处理技术领域,所述包括:获取用于训练翻译模型的原始训练语料;获取至少两组训练好的通用语言模型,通过每组通用语言模型,获得原始训练语料中各平行语句所对应的质量评分,根据质量评分对原始训练语料进行过滤获得高质量训练语料,每组通用语言模型的模型结构不同;通过训练好的目标领域语言模型与通用领域语言模型,获得高质量训练语料中各平行语句所对应的领域评分,根据领域评分从高质量训练语料中筛选出目标领域的高质量训练语料。采用本方法能够在保证高质量的基础上筛选目标领域的语料,从而使得获得的语料能够极大提升翻译模型的翻译性能。模型的翻译性能。模型的翻译性能。

【技术实现步骤摘要】
翻译模型的训练语料处理方法、装置、设备和存储介质


[0001]本申请涉及人工智能
,特别是涉及一种翻译模型的训练语料处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]目前,神经网络已广泛应用于人工智能
,包括语音识别、计算机视觉、自然语言处理等等,神经网络模型在自然语言处理的多种任务中表现出色,例如机器翻译任务。在机器翻译任务中,随着近几年翻译语料的规模不断增加,翻译模型的性能在早期有较明显的提升,这表明大规模语料对翻译模型的训练发挥了非常大的作用,然而后期使用更大规模的语料对翻译模型进行训练,翻译模型也无法得到更大的性能提升。
[0003]专利技术人经过研究后发现这其中有两方面的原因:1)大规模语料中语句质量参差不齐、噪音数据较多;2)大规模语料中来自不同领域的翻译语料之间有着分布上的差异,大规模语料的领域分布不均。
[0004]目前,仅有一些利用人工规则对大规模语料进行清洗或是利用单个语言模型对大规模语料进行单一质量方面过滤的方式,这些方式对大规模语料的处理不够全面,导致获得的语料仍然存在翻译性能无法提升的问题。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种翻译模型的训练语料处理方法、装置、计算机设备和存储介质,能够保证获得高质量训练语料的同时,获得供目标领域的翻译模型进行模型训练的训练语料,从而提升目标领域翻译模型的性能。
[0006]一种翻译模型的训练语料处理方法,所述方法包括:
[0007]获取用于训练翻译模型的原始训练语料;
[0008]获取至少两组训练好的通用语言模型,通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,根据所述质量评分对所述原始训练语料进行过滤获得满足预设质量条件的训练语料,每组通用语言模型的模型结构不同;
[0009]通过训练好的目标领域语言模型与通用领域语言模型,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分,根据所述领域评分从所述满足预设质量条件的训练语料中筛选出属于目标领域且满足预设质量条件的训练语料,所述目标领域语言模型与通用领域语言模型的模型结构相同;
[0010]其中,筛选出的训练语料,用于对所述翻译模型进行模型训练后,获得所述目标领域的翻译模型。
[0011]一种翻译模型的训练语料处理装置,所述装置包括:
[0012]语料获取模块,用于获取用于训练翻译模型的原始训练语料;
[0013]质量过滤模块,用于获取至少两组训练好的通用语言模型,通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,根据所述质量评分对所述原
始训练语料进行过滤获得满足预设质量条件的训练语料,每组通用语言模型的模型结构不同;
[0014]领域筛选模块,用于通过训练好的目标领域语言模型与通用领域语言模型,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分,根据所述领域评分从所述满足预设质量条件的训练语料中筛选出属于目标领域且满足预设质量条件的训练语料,所述目标领域语言模型与通用领域语言模型的模型结构相同;其中,筛选出的训练语料,用于对所述翻译模型进行模型训练后,获得所述目标领域的翻译模型。
[0015]在一个实施例中,所述质量过滤模块还用于通过每组通用语言模型,分别对所述原始训练语料中各平行语句中的原文语句与译文语句进行评分,分别获得所述平行语句对应每组通用语言模型的原文质量评分与译文质量评分;融合各所述平行语句对应每组通用语言模型的原文质量评分和译文质量评分,获得各所述平行语句所对应的质量评分。
[0016]在一个实施例中,所述质量过滤模块包括原文评分单元和译文评分单元;
[0017]所述原文评分单元用于通过每组通用语言模型中的原文语言模型,分别对原始训练语料中各平行语句中的原文语句进行评分,分别获得所述平行语句的原文质量评分;
[0018]所述译文评分单元用于通过每组通用语言模型中的译文语言模型,分别对原始训练语料中各平行语句中的译文语句进行评分,分别获得所述平行语句的译文质量评分。
[0019]在一个实施例中,所述质量过滤模块还用于根据同组通用语言模型获得的所述原始训练语料中各平行语句的原文质量评分中的最高分和最低分,对同组通用语言模型获得的平行语句的原文质量评分进行归一化处理,获得归一化原文质量评分;根据同组通用语言模型获得的所述原始训练语料中各平行语句的译文质量评分中的最高分和最低分,对同组通用语言模型获得的平行语句的译文质量评分进行归一化处理,获得归一化译文质量评分;融合各所述平行语句对应每组通用语言模型的归一化原文质量评分和归一化译文质量评分,获得各所述平行语句所对应的质量评分。
[0020]在一个实施例中,所述质量过滤模块还用于对每组通用语言模型的原文质量评分和译文质量评分求和,获得组级评分;获取每组通用语言模型对应的加权系数;基于每组通用语言模型对应的加权系数,对所述平行语句对应每组通用语言模型的组级评分进行加权求和,获得所述平行语句所对应的质量评分。
[0021]在一个实施例中,当所述通用语言模型为基于高质量语料获得的统计语言模型时,所述质量过滤模块还用于依次从所述原始训练语料中获取平行语句;将所述平行语句中的原文语句输入原文的统计语言模型,通过所述原文的统计语言模型,基于所述原文语句中各个词对应的条件频数,获得所述平行语句的原文质量评分;将所述平行语句中的译文语句输入译文的统计语言模型,通过所述译文的统计语言模型,基于所述译文语句中各个词对应的条件频数,获得所述平行语句的译文质量评分;融合各所述平行语句的原文质量评分与译文质量评分,获得各所述平行语句对应所述统计语言模型的质量评分。
[0022]在一个实施例中,当所述通用语言模型为自回归语言模型时,所述质量过滤模块还用于依次从所述原始训练语料中获取平行语句;将所述平行语句中的原文语句输入原文的自回归语言模型,通过所述原文的自回归语言模型预测所述原文语句中从左至右或从右至左各个词出现的条件概率,根据每个词对应的条件概率获得所述平行语句的原文质量评分;将所述平行语句中的译文语句输入译文的自回归语言模型,通过所述译文的自回归语
言模型预测所述译文语句中从左至右或从右至左各个词出现的条件概率,根据每个词对应的条件概率获得所述平行语句的译文质量评分;融合各所述平行语句的原文质量评分与译文质量评分,获得各所述平行语句对应所述自回归语言模型的质量评分。
[0023]在一个实施例中,当所述通用语言模型为自编码语言模型时,所述质量过滤模块还用于依次从所述原始训练语料中获取平行语句;依次将所述平行语句的原文语句中每个词作为遮掩词,将遮掩后的原文语句输入原文的自编码语言模型,通过所述原文的自编码语言模型输出遮掩词对应的预测概率,根据每个遮掩词所对应的预测概率,获得所述平行语句的原文质量评分;依次将所述平行语句的译文语句中每个词作为遮掩词,将遮掩后的译文语句输入译文的自编码语言模型,通过所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种翻译模型的训练语料处理方法,其特征在于,所述方法包括:获取用于训练翻译模型的原始训练语料;获取至少两组训练好的通用语言模型,通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,根据所述质量评分对所述原始训练语料进行过滤获得满足预设质量条件的训练语料,每组通用语言模型的模型结构不同;通过训练好的目标领域语言模型与通用领域语言模型,获得所述满足预设质量条件的训练语料中各平行语句所对应的领域评分,根据所述领域评分从所述满足预设质量条件的训练语料中筛选出属于目标领域且满足预设质量条件的训练语料,所述目标领域语言模型与通用领域语言模型的模型结构相同;其中,筛选出的所述训练语料,用于对所述翻译模型进行模型训练后,获得所述目标领域的翻译模型。2.根据权利要求1所述的方法,其特征在于,所述通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,包括:通过每组通用语言模型,分别对所述原始训练语料中各平行语句中的原文语句与译文语句进行评分,分别获得所述平行语句对应每组通用语言模型的原文质量评分与译文质量评分;融合各所述平行语句对应每组通用语言模型的原文质量评分和译文质量评分,获得各所述平行语句所对应的质量评分。3.根据权利要求2所述的方法,其特征在于,所述通过每组通用语言模型,分别对所述原始训练语料中各平行语句中的原文语句与译文语句进行评分,分别获得所述平行语句对应每组通用语言模型的原文质量评分与译文质量评分,包括:通过每组通用语言模型中的原文语言模型,分别对原始训练语料中各平行语句中的原文语句进行评分,分别获得所述平行语句的原文质量评分;通过每组通用语言模型中的译文语言模型,分别对原始训练语料中各平行语句中的译文语句进行评分,分别获得所述平行语句的译文质量评分。4.根据权利要求2所述的方法,其特征在于,所述融合各所述平行语句对应每组通用语言模型的原文质量评分和译文质量评分,获得各所述平行语句所对应的质量评分,包括:根据同组通用语言模型获得的所述原始训练语料中各平行语句的原文质量评分中的最高分和最低分,对同组通用语言模型获得的平行语句的原文质量评分进行归一化处理,获得归一化原文质量评分;根据同组通用语言模型获得的所述原始训练语料中各平行语句的译文质量评分中的最高分和最低分,对同组通用语言模型获得的平行语句的译文质量评分进行归一化处理,获得归一化译文质量评分;融合各所述平行语句对应每组通用语言模型的归一化原文质量评分和归一化译文质量评分,获得各所述平行语句所对应的质量评分。5.根据权利要求2所述的方法,其特征在于,所述融合各所述平行语句对应每组通用语言模型的原文质量评分和译文质量评分,获得各所述平行语句所对应的质量评分,包括:对每组通用语言模型的原文质量评分和译文质量评分求和,获得组级评分;获取每组通用语言模型对应的加权系数;
基于每组通用语言模型对应的加权系数,对所述平行语句对应每组通用语言模型的组级评分进行加权求和,获得所述平行语句所对应的质量评分。6.根据权利要求1所述的方法,其特征在于,当所述通用语言模型为基于高质量语料获得的统计语言模型时,所述通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,包括:依次从所述原始训练语料中获取平行语句;将所述平行语句中的原文语句输入原文的统计语言模型,通过所述原文的统计语言模型,基于所述原文语句中各个词对应的条件频数,获得所述平行语句的原文质量评分;将所述平行语句中的译文语句输入译文的统计语言模型,通过所述译文的统计语言模型,基于所述译文语句中各个词对应的条件频数,获得所述平行语句的译文质量评分;融合各所述平行语句的原文质量评分与译文质量评分,获得各所述平行语句对应所述统计语言模型的质量评分。7.根据权利要求1所述的方法,其特征在于,当所述通用语言模型为自回归语言模型时,所述通过每组通用语言模型,获得所述原始训练语料中各平行语句所对应的质量评分,包括:依次从所述原始训练语料中获取平行语句;将所述平行语句中的原文语句输入原文的自回归语言模型,通过所述原文的自回归语言模型预测所述原文语句中从左至右或从右至左各个词出现的条件概率,根据每个词对应的条件概率获得所述平行语句的原文质量评分;将所述平行语句中的译文语句输入译文的自回归语言模型,通过所述译文的自回归语言模型预测所述译文语句中从左至右或从右至左各个词出现的条件概率,根据每个词对应的条件概率获得所述平行语句的译文质量评分;融合各所述平行语句的原文质量评分与译文质量评分,获得各所述平行语句对应所述自回归语言模型的质量评分。8.根据权利要求1所述的方法,其特征在于,当所述通用语言模型为自编码语言模型时,所述通过每组通用语言模型...

【专利技术属性】
技术研发人员:王龙跃刘宏烨
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1