翻译模型训练、翻译处理方法、装置、设备和存储介质制造方法及图纸

技术编号:28037400 阅读:37 留言:0更新日期:2021-04-09 23:19
本申请公开了翻译模型训练、翻译处理方法、装置、设备和存储介质,涉及深度学习等人工智能技术领域。具体实现方案为:通过获取多种语言训练语料,并对多种语言训练语料按照语种进行聚类,获取多个类簇训练语料,对每个类簇训练语料中的目标语种资源进行训练语料处理,获取每个类簇目标训练语料,根据每个类簇目标训练语料对翻译模型进行训练,生成多个子翻译模型。由此,使用聚类方法让具有相似语言特征的语种共同训练,有利于提升翻译模型的泛化能力,以及增加低资源小语种的训练语料数据量进行训练翻译模型,从而提高翻译质量。

【技术实现步骤摘要】
翻译模型训练、翻译处理方法、装置、设备和存储介质
本申请涉及数据处理
的深度学习等人工智能
,尤其涉及一种翻译模型训练、翻译处理方法、装置、设备和存储介质。
技术介绍
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几个大方向。随着深度学习技术和全球国际化的不断发展,机器翻译需求日渐增多,国际交流更加频繁,多语种机器翻译的需求也逐渐变多。相关技术中,使用一对一翻译模型对双语句对进行建模,然而,多语种之间相互翻译方向比较多,部署成本较高,以及任意两个语种之间很可能不存在平行语料,导致某些翻译方向的翻译装置无法训练,翻译质量和效率都比较差。
技术实现思路
本公开提供了一种用于翻译模型训练、翻译处理的方法、装置、设备本文档来自技高网...

【技术保护点】
1.一种翻译模型训练方法,包括:/n获取多种语言训练语料,并对所述多种语言训练语料按照语种进行聚类,获取多个类簇训练语料;/n对每个类簇训练语料中的目标语种资源进行训练语料处理,获取每个类簇目标训练语料;/n根据所述每个类簇目标训练语料对翻译模型进行训练,生成多个子翻译模型。/n

【技术特征摘要】
1.一种翻译模型训练方法,包括:
获取多种语言训练语料,并对所述多种语言训练语料按照语种进行聚类,获取多个类簇训练语料;
对每个类簇训练语料中的目标语种资源进行训练语料处理,获取每个类簇目标训练语料;
根据所述每个类簇目标训练语料对翻译模型进行训练,生成多个子翻译模型。


2.如权利要求1所述的翻译模型训练方法,其中,所述对所述多种语言训练语料按照语种进行聚类,获取多个类簇训练语料,包括:
针对所述多种语言训练语料,在源语言的预设位置加入每种目标语言对应的标签;
训练所述源语言到所述每种目标语言的语言翻译模型,在训练完成后,获取所述每个目标语言的标签编码;
通过预设聚类算法根据所述每个目标语言的标签编码进行聚类,获取多个类簇,将所述多种语言训练语料按照所述多个类簇进行划分,获取所述多个类簇训练语料。


3.如权利要求1所述的翻译模型训练方法,其中,所述对每个类簇训练语料中的目标语种资源进行训练语料处理,获取每个类簇目标训练语料,包括:
获取所述目标语种资源的目标短语片段;
获取与所述目标短语片段匹配的相关短语片段,并确定所述相关短语片段对应的相关语种资源;
对所述相关语种资源的训练语料进行采样处理,获取候选训练语料;
将所述候选训练语料添加到所述目标语种资源对应的训练语料中,获取所述每个类簇目标训练语料。


4.如权利要求1所述的翻译模型训练方法,其中,所述对每个类簇训练语料中的目标语种资源进行训练语料处理,获取每个类簇目标训练语料,包括:
在所述每个类簇训练语料中获取与所述目标语种资源对应的候选语种资源;
获取所述候选语种资源的候选训练语料,并对所述候选训练语料进行字词拆分,获取多个字词语料;
将所述多个字词语料添加到所述目标语种资源对应的训练语料中,获取所述每个类簇目标训练语料。


5.如权利要求1所述的翻译模型训练方法,还包括:
在所述根据所述每个类簇目标训练语料对翻译模型进行训练的过程中,获取所述每个类簇目标训练语料中的单语料数据;
通过预训练语言模型对所述单语料数据进行编码处理,将进行编码处理的训练向量进行所述翻译模型的训练。


6.一种应用权里要求1-5任一项所述翻译模型的翻译处理方法,其特征在于,包括:
获取待翻译文本和目标语言;
在检测所述待翻译文本的源语言和所述目标语言属于同一类簇的情况下,获取翻译子模型,对所述待翻译文本进行翻译,获取翻译结果;
在检测所述待翻译文本的源语言和所述目标语言不属于同一类簇的情况下,获取第一翻译子模型对所述待翻译文本进行翻译,获取候选翻译结果;
获取第二翻译子模型,对所述候选翻译结果进行翻译,获取目标翻译结果。


7.如权利要求6所述的翻译处理方法,还包括:
在对所述待翻译文本进行翻译的过程中,获取所述待翻译文本中的每个待翻译字;
获取与所述每个待翻译字对应的字候选集,获取所述每个待翻译字对应的字候选集中每个候选字的错误概率;
在所述错误概率大于预设阈值的情况下,将所述候选字从所述字候选集中删除。


8.一种翻译模型训练装置,包括:
第一获取模块,用于获取多种语言训练语料;
第二获取模块,用于对所述多种语言训练语料按照语种进行聚类,获取多个类簇训练语料;
第一处理模块,用于对每个类簇训练语料中的目标语种资源进行训练语料处理,获取每个类簇目标训练语料;
训练模块,用于根据所述每个类簇目标训练语料对翻...

【专利技术属性】
技术研发人员:姜博健张睿卿李芝何中军吴华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1