平行语料的挖掘方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:31569338 阅读:18 留言:0更新日期:2021-12-25 11:08
本发明专利技术公开了一种平行语料的挖掘方法,包括:基于多语翻译模型,分别对源句子与每个目标句子进行编码,得到源句子对应的向量和每个目标句子对应的目标编码向量,并将目标编码向量映射到向量空间;针对每个目标句子,计算目标句子对应的相似度分数;基于Top

【技术实现步骤摘要】
平行语料的挖掘方法、装置、计算机设备及存储介质


[0001]本专利技术涉及神经机器翻译
,尤其涉及一种平行语料的挖掘方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着深度学习技术的发展,基于编码器

解码器框架的神经机器翻译已经成为新一代的机器翻译技术,与其他机器翻译方法对比下,神经机器翻译模型在翻译质量上有了极大的提升。
[0003]然而,训练神经机器翻译模型需要大量的平行语料,以达至比其他机器翻译方法更好的翻译表现。平行语料是指使用不同语言撰写、相互间具有"翻译关系"的文本。因此,在一些缺乏平行语料资源的语言对上,神经机器翻译方法没有足够的资源进行模型训练,导致其翻译表现受到限制。
[0004]现时在互联网上很容易就可以获取到大量的弱对齐的双语文章以及可比语料,因此,通过平行语料挖掘方法,对齐语料中的平行句子,从而收集大量的平行语料资源,是一种最直接及有效提升神经机器翻译模型的翻译表现的方法。
[0005]传统平行语料挖掘方法都是基于语言学的特征以及双语的词典信息,例如句子长度,标点符号的数量、单词对齐等。然而,这些特征需要由语言学专家进行定义及提取,往往涉及大量的专家领域知识,而且需要人工定义,系统并不能自动学习及抽取其特征,且在平行语料挖掘过程存在主观性,从而导致平行语料挖掘的时候准确率的可信度较低。
[0006]目前平行语料挖掘方法包括了利用以多语言句子嵌入及基于余弦相似度的相似度测量方法,但对于同样是平行句子的语言对中,它们的余弦相似度不统一,难以使用同一个阀值去获取平行句子,使得平行语料挖掘系统的准确度及召回率较低。
[0007]因此,现有方式存在平行语料挖掘准确度较低的问题。

技术实现思路

[0008]本专利技术实施例提供一种平行语料的挖掘方法、装置、计算机设备及存储介质,以提高平行语料挖掘的准确率。
[0009]一种平行语料的挖掘方法,包括:
[0010]基于多语翻译模型,分别对源句子与每个目标句子进行编码,得到源句子对应的向量和每个目标句子对应的目标编码向量,并将所述目标编码向量映射到所述源句子对应的向量空间,其中,所述源句子为源语言对应的句子,所述目标句子为目标语言对应的句子;
[0011]针对每个所述目标句子,计算所述向量空间中所述目标句子对应的目标编码向量与源句子对应的向量之间的相似度,得到所述目标句子对应的相似度分数;
[0012]基于Top

K算法,从所有目标句子中,选取K个相似度分数符合预设条件的目标句子,并分别将每个选取的目标句子与所述源句子组成候选句子对,其中,K为候选句子对的
预设阈值;
[0013]对所述候选句子对对应的相似度分数进行正则化处理,并基于得到的正则化处理结果更新所述候选句子对对应的相似度分数;
[0014]基于预训练语言模型,对所有所述候选句子对进行分类,得到所述候选句子对对应的分类概率,若所述分类概率大于预设阈值,则将所述候选句子对作为平行句子。
[0015]一种平行语料的挖掘装置,包括:
[0016]编码模块,用于基于多语翻译模型,分别对源句子与每个目标句子进行编码,得到源句子对应的向量和每个目标句子对应的目标编码向量,并将所述目标编码向量映射到所述源句子对应的向量空间,其中,所述源句子为源语言对应的句子,所述目标句子为目标语言对应的句子;
[0017]相似度计算模块,用于针对每个所述目标句子,计算所述向量空间中所述目标句子对应的目标编码向量与源句子对应的向量之间的相似度,得到所述目标句子对应的相似度分数;
[0018]候选句子对选取模块,用于基于Top

K算法,从所有目标句子中,选取K个相似度分数符合预设条件的目标句子,并分别将每个选取的目标句子与所述源句子组成候选句子对,其中,K为候选句子对的预设阈值;
[0019]正则化模块,用于对所述候选句子对对应的相似度分数进行正则化处理,并基于得到的正则化处理结果更新所述候选句子对对应的相似度分数;
[0020]分类模块,用于基于预训练语言模型,对所有所述候选句子对进行分类,得到所述候选句子对对应的分类概率,若所述分类概率大于预设阈值,则将所述候选句子对作为平行句子。
[0021]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述平行语料的挖掘方法的步骤。
[0022]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述平行语料的挖掘方法的步骤。
[0023]本专利技术实施例中的平行语料的挖掘方法、装置、计算机设备及存储介质,基于多语翻译模型,分别对源句子与每个目标句子进行编码,得到源句子对应的向量和每个目标句子对应的目标编码向量,并将目标编码向量映射到源句子对应的向量空间。针对每个目标句子,计算向量空间中目标句子对应的目标编码向量与源句子对应的向量之间的相似度,得到目标句子对应的相似度分数。基于Top

K算法,从所有目标句子中,选取K个相似度分数符合预设条件的目标句子,并分别将每个选取的目标句子与源句子组成候选句子对。对候选句子对对应的相似度分数进行正则化处理,并基于得到的正则化处理结果更新候选句子对对应的相似度分数。基于预训练语言模型,对所有候选句子对进行分类,得到候选句子对对应的分类概率,若分类概率大于预设阈值,则将候选句子对作为平行句子。通过上述步骤,使得多语翻译模型能够把不同语言的句子映射到同一个共享的向量空间,同时该向量空间中的目标编码向量可用于平行句子挖掘,不需要专家经验即可实现挖掘,进一步使用top

k softmax对相似度分数进行正则化处理,解决了利用余弦相似度衡量句子相似度时阀值不稳定的问题,提升平行句子挖掘系统的准确度及召回率。
附图说明
[0024]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0025]图1是本专利技术一实施例中平行语料的挖掘方法的一应用环境示意图;
[0026]图2是本专利技术一实施例中平行语料的挖掘方法的一流程图;
[0027]图3是本专利技术一实施例中平行语料的挖掘装置的结构示意图;
[0028]图4是本专利技术一实施例中计算机设备的一示意图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种平行语料的挖掘方法,其特征在于,包括:基于多语翻译模型,分别对源句子与每个目标句子进行编码,得到源句子对应的向量和每个目标句子对应的目标编码向量,并将所述目标编码向量映射到所述源句子对应的向量空间,其中,所述源句子为源语言对应的句子,所述目标句子为目标语言对应的句子;针对每个所述目标句子,计算所述向量空间中所述目标句子对应的目标编码向量与源句子对应的向量之间的相似度,得到所述目标句子对应的相似度分数;基于Top

K算法,从所有目标句子中,选取K个相似度分数符合预设条件的目标句子,并分别将每个选取的目标句子与所述源句子组成候选句子对,其中,K为候选句子对的预设阈值;对所述候选句子对对应的相似度分数进行正则化处理,并基于得到的正则化处理结果更新所述候选句子对对应的相似度分数;基于预训练语言模型,对所有所述候选句子对进行分类,得到所述候选句子对对应的分类概率,若所述分类概率大于预设阈值,则将所述候选句子对作为平行句子。2.根据权利要求1所述的方法,其特征在于,所述基于多语翻译模型,分别对源句子与每个目标句子进行编码,得到源句子对应的向量和每个目标句子对应的目标编码向量,并将所述目标编码向量映射到所述源句子对应的向量空间之前,所述方法还包括:获取训练句子和目标语言嵌入表示,并将所述训练句子和所述目标语言嵌入表示输入到初始的多语翻译模型,其中,所述目标语言嵌入表示是指目标语言的一种词嵌入方式;基于Transformer算法的编码器,对所述训练句子进行编码处理,得到编码向量;基于预设的池化方式,对所述编码向量进行池化处理,得到池化向量;将所述编码向量与所述池化向量进行连接处理,得到连接向量;基于Transformer算法的解码器,对所述连接向量与目标语言嵌入表示进行解码,得到解码向量;对所述解码向量进行损失计算,得到损失值;若所述损失值超过预设损失值时,返回获取训练句子和目标语言嵌入表示,并将所述训练句子和所述目标语言嵌入表示输入到初始的多语翻译模型的步骤继续执行;若所述损失值不超过预设损失值时,得到所述多语翻译模型。3.根据权利要求2所述的方法,其特征在于,所述基于多语翻译模型,分别对源句子与每个目标句子进行编码,得到源句子对应的向量和每个目标句子对应的目标编码向量,并将所述目标编码向量映射到所述源句子对应的向量空间的步骤包括:将所述源句子与多个目标句子输入所述多语翻译模型;对所述源句子进行特征提取,得到所述源句子对应的第一向量;对每个所述目标句子进行特征提取,得到每个所述目标句子对应的第二向量;对所述第一向量与每个所述第二向量进行编码,得到每个所述第二向量对应的目标编码向量;将所有所述目标编码向量映射到所述源句子对应的向量空间。4.根据权利要求1所述的方法,其特征在于,所述基于Top

K算法,从所有目标句子中,选取K个相似度分数符合预设条件的目标句子,并分别将每个选取的目标句子与所述源句子组成候选句子对的步骤包括:
基于最小堆Top

K算法,从所有目标句子中,任意选取K个目标句子的相似度分数,建立最小堆,其中,所述最小堆包括堆顶,所述堆顶为K个目标句子中的最小相似度分数,未被选取的目标句子作为剩余目标句子;选取所述剩余目标句子中任一个的相似度分数,作为对比相似度分数,并将所述对比相似度分数与所述堆顶的相似度分数进行比较;若所述对比相似度分数不大于所述堆顶的相似度分数,则更新所述剩余目标句子;若所述对比相似度分数大于所述堆顶的相似度分数,则将所述对比相似度分数,作为新的堆顶的相似度分数,并更新所述剩余目标句子;当所述剩余目标句子未选取完毕,则返回选取所述剩余目标句子中任一个的相似度分数,作为对比相似度分数,并将所述对比相似度分数...

【专利技术属性】
技术研发人员:林余楚黄辉
申请(专利权)人:深译信息科技横琴有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1