【技术实现步骤摘要】
训练语料集构建方法、翻译模型训练方法、翻译方法
[0001]本说明书涉及数据处理
,特别涉及训练语料集构建方法、翻译模型训练方法、翻译方法。
技术介绍
[0002]深度学习模型一般都需要大量的训练数据进行训练,才能得到符合要求的训练结果,但通常情况下训练数据比较少,使用较少的训练数据对模型进行训练,会导致训练效果不够理想。例如,使用较少的训练语料对翻译模型进行训练,会导致最终得到的翻译模型的翻译准确率降低。
[0003]因此,亟需一种能够对训练语料进行扩充的方法,以提供更多的训练语料用于对深度学习模型进行训练。
技术实现思路
[0004]有鉴于此,本申请实施例提供了一种训练语料集构建方法、翻译模型训练方法、翻译方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种训练语料集构建装置,一种翻译模型训练装置,一种翻译装置、计算设备,以及计算机可读存储介质。
[0005]根据本申请实施例的第一方面,提供了一种训练语料集构建方法,包括:
[0006]获取初始语料对,所述初始语料 ...
【技术保护点】
【技术特征摘要】
1.一种训练语料集构建方法,其特征在于,所述方法包括:获取初始语料对,所述初始语料对包括至少两种语言语料,所述至少两种语言语料之间互为译文;对所述至少两种语言语料进行词对齐处理,得到词对齐信息;从第一语言语料中提取第一短语,基于所述词对齐信息从第二语言语料中确定与所述第一短语匹配的第二短语,根据所述第一短语和所述第二短语,构建短语词典,所述第一语言语料为所述至少两种语言语料中的任一种,所述第二语言语料为所述至少两种语言语料中除所述第一语言语料以外的任一种;确定所述短语词典中的待替换短语,以及所述待替换短语的相似短语,利用所述相似短语替换所述初始语料对中的所述待替换短语,得到扩展语料对;基于所述初始语料对和所述扩展语料对,构建训练语料集。2.如权利要求1所述的方法,其特征在于,对所述至少两种语言语料进行词对齐处理,得到词对齐信息,包括:对所述至少两种语言语料分别进行分词处理,得到各语言语料的分词结果;基于所述各语言语料的分词结果,对所述至少两种语言语料进行词对齐处理,得到词对齐信息。3.如权利要求1所述的方法,其特征在于,确定所述短语词典中的待替换短语,包括:确定所述短语词典中任一短语的词频;将所述词频小于词频阈值的短语确定为待替换短语。4.如权利要求1
‑
3任一项所述的方法,其特征在于,确定所述待替换短语的相似短语,包括:确定所述待替换短语的短语向量;获取多个候选短语并确定每个候选短语的短语向量,其中,所述多个候选短语与所述待替换短语是同一语种;针对任一待替换短语,基于该待替换短语的短语向量和所述候选短语的短语向量,确定该待替换短语与每个候选短语之间的相似度;根据该待替换短语对应的多个相似度,从所述多个候选短语中确定该待替换短语的相似短语。5.如权利要求4所述的方法,其特征在于,获取多个候选短语,包括:获取所述短语词典中与所述待替换短语同一语种的短语作为候选短语;和/或,获取预设短语集,将所述预设短语集包括的短语作为候选短语,其中,所述预设短语集包括的短语与所述待替换短语是同一语种。6.如权利要求1、2、3或5所述的方法,其特征在于,利用所述相似短语替换所述初始语料对中的所述待替换短语,得到扩展语料对,包括:确定所述待替换短语所属的目标语言语料;利用所述相似短语替换所述目标语言语料中的所述待替换短语,得到第一替换语料;基于所述第一替换语料和指定语言语料,构建扩展语料对,所述指定语言语料包括所述待替换短语匹配的短语。
7.如权利要求6所述的方法,其特征在于,基于所述第一替换语料和指定语言语料,构建扩展语料对之前,还包括:确定与所述相似短语匹配的目标短语;利用所述目标短语替换所述指定语言语料中与所述待替换短语匹配的短语,得到第二替换语料;基于所述第一替换语料和指定语言语料,构建扩展语料对,包括:将所述第一替换语料和所述第二替换语料组成扩展语料对。8.如权利要求1所述的方法,其特征在于,基于所述初始语料对和所述扩展语料对,构建训练语料集之前,还包括:通过语言模型确定所述扩展语料对中每个扩展语料的质量分数;基于所述初始语料对和所述扩展语料对,构建训练语料集,包括:若每个扩展语料的质量...
【专利技术属性】
技术研发人员:贾承勋,李长亮,
申请(专利权)人:北京金山数字娱乐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。