平行语料的挖掘方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：31569338 阅读：18 留言：0更新日期：2021-12-25 11:08

本发明专利技术公开了一种平行语料的挖掘方法，包括：基于多语翻译模型，分别对源句子与每个目标句子进行编码，得到源句子对应的向量和每个目标句子对应的目标编码向量，并将目标编码向量映射到向量空间；针对每个目标句子，计算目标句子对应的相似度分数；基于Top

全部详细技术资料下载

【技术实现步骤摘要】
平行语料的挖掘方法、装置、计算机设备及存储介质

[0001]本专利技术涉及神经机器翻译
，尤其涉及一种平行语料的挖掘方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着深度学习技术的发展，基于编码器
‑
解码器框架的神经机器翻译已经成为新一代的机器翻译技术，与其他机器翻译方法对比下，神经机器翻译模型在翻译质量上有了极大的提升。
[0003]然而，训练神经机器翻译模型需要大量的平行语料，以达至比其他机器翻译方法更好的翻译表现。平行语料是指使用不同语言撰写、相互间具有"翻译关系"的文本。因此，在一些缺乏平行语料资源的语言对上，神经机器翻译方法没有足够的资源进行模型训练，导致其翻译表现受到限制。
[0004]现时在互联网上很容易就可以获取到大量的弱对齐的双语文章以及可比语料，因此，通过平行语料挖掘方法，对齐语料中的平行句子，从而收集大量的平行语料资源，是一种最直接及有效提升神经机器翻译模型的翻译表现的方法。
[0005]传统平行语料挖掘方法都是基于语言学的特征以及双语的词典信息，例如句子长度，标点符号的数量、单词对齐等。然而，这些特征需要由语言学专家进行定义及提取，往往涉及大量的专家领域知识，而且需要人工定义，系统并不能自动学习及抽取其特征，且在平行语料挖掘过程存在主观性，从而导致平行语料挖掘的时候准确率的可信度较低。
[0006]目前平行语料挖掘方法包括了利用以多语言句子嵌入及基于余弦相似度的相似度测量方法，但对于同样是平行句子的语言对中，它们的余弦相似度不...

【技术保护点】

【技术特征摘要】
1.一种平行语料的挖掘方法，其特征在于，包括：基于多语翻译模型，分别对源句子与每个目标句子进行编码，得到源句子对应的向量和每个目标句子对应的目标编码向量，并将所述目标编码向量映射到所述源句子对应的向量空间，其中，所述源句子为源语言对应的句子，所述目标句子为目标语言对应的句子；针对每个所述目标句子，计算所述向量空间中所述目标句子对应的目标编码向量与源句子对应的向量之间的相似度，得到所述目标句子对应的相似度分数；基于Top
‑
K算法，从所有目标句子中，选取K个相似度分数符合预设条件的目标句子，并分别将每个选取的目标句子与所述源句子组成候选句子对，其中，K为候选句子对的预设阈值；对所述候选句子对对应的相似度分数进行正则化处理，并基于得到的正则化处理结果更新所述候选句子对对应的相似度分数；基于预训练语言模型，对所有所述候选句子对进行分类，得到所述候选句子对对应的分类概率，若所述分类概率大于预设阈值，则将所述候选句子对作为平行句子。2.根据权利要求1所述的方法，其特征在于，所述基于多语翻译模型，分别对源句子与每个目标句子进行编码，得到源句子对应的向量和每个目标句子对应的目标编码向量，并将所述目标编码向量映射到所述源句子对应的向量空间之前，所述方法还包括：获取训练句子和目标语言嵌入表示，并将所述训练句子和所述目标语言嵌入表示输入到初始的多语翻译模型，其中，所述目标语言嵌入表示是指目标语言的一种词嵌入方式；基于Transformer算法的编码器，对所述训练句子进行编码处理，得到编码向量；基于预设的池化方式，对所述编码向量进行池化处理，得到池化向量；将所述编码向量与所述池化向量进行连接处理，得到连接向量；基于Transformer算法的解码器，对所述连接向量与目标语言嵌入表示进行解码，得到解码向量；对所述解码向量进行损失计算，得到损失值；若所述损失值超过预设损失值时，返回获取训练句子和目标语言嵌入表示，并将所述训练句子和所述目标语言嵌入表示输入到初始的多语翻译模型的步骤继续执行；若所述损失值不超过预设损失值时，得到所述多语翻译模型。3.根据权利要求2所述的方法，其特征在于，所述基于多语翻译模型，分别对源句子与每个目标句子进行编码，得到源句子对应的向量和每个目标句子对应的目标编码向量，并将所述目标编码向量映射到所述源句子对应的向量空间的步骤包括：将所述源句子与多个目标句子输入所述多语翻译模型；对所述源句子进行特征提取，得到所述源句子对应的第一向量；对每个所述目标句子进行特征提取，得到每个所述目标句子对应的第二向量；对所述第一向量与每个所述第二向量进行编码，得到每个所述第二向量对应的目标编码向量；将所有所述目标编码向量映射到所述源句子对应的向量空间。4.根据权利要求1所述的方法，其特征在于，所述基于Top
‑
K算法，从所有目标句子中，选取K个相似度分数符合预设条件的目标句子，并分别将每个选取的目标句子与所述源句子组成候选句子对的步骤包括：
基于最小堆Top
‑
K算法，从所有目标句子中，任意选取K个目标句子的相似度分数，建立最小堆，其中，所述最小堆包括堆顶，所述堆顶为K个目标句子中的最小相似度分数，未被选取的目标句子作为剩余目标句子；选取所述剩余目标句子中任一个的相似度分数，作为对比相似度分数，并将所述对比相似度分数与所述堆顶的相似度分数进行比较；若所述对比相似度分数不大于所述堆顶的相似度分数，则更新所述剩余目标句子；若所述对比相似度分数大于所述堆顶的相似度分数，则将所述对比相似度分数，作为新的堆顶的相似度分数，并更新所述剩余目标句子；当所述剩余目标句子未选取完毕，则返回选取所述剩余目标句子中任一个的相似度分数，作为对比相似度分数，并将所述对比相似度分数...

【专利技术属性】
技术研发人员：林余楚，黄辉，
申请(专利权)人：深译信息科技横琴有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人