【技术实现步骤摘要】
面向神经机器翻译的数据缩减方法
本专利技术涉及神经机器翻译,特别是涉及面向神经机器翻译的数据缩减方法。
技术介绍
近几年来,机器翻译一直备受人们的关注,基于深度学习的神经机器翻译(NeuralMachineTranslation)是近几年的热点,但是使用大规模的平行语料训练神经机器翻译往往需要花费很长的时间,并且在大语料中,通常会存在数据冗余或者质量较差的语料。在原来的统计机器翻译(StatisticalMachineTranslation)中,是通过减少数据冗余的方式来缩小语料大小,从而缩短训练时间,同时能达到同样的翻译质量。减少数据冗余的方式是选择一个语料子集,该子集能从某些特性上覆盖原来的语料,这些特性不是来反映语义相似性的,而是评判句子所携带的信息量的,比如n-gram或者单词。同时,也有通过减少语料中的噪音来减少语料规模,过滤那些不是互为翻译的平行句对。到现在为止,数据缩减的方法都是面向SMT的,并且都是静态选择方法,即抽取一个语料子集来训练,还未提出面向NMT的数据选择方法。基于n-gram的方法是选择一个语料子集,该语料子集中包含原来平行语料中所有不 ...
【技术保护点】
1.一种面向神经机器翻译的数据缩减方法,应用在基于注意力机制且采用encoder‑decoder框架的NMT模型,其特征在于,包括:利用所述完整的初始语料进行第一轮训练;把上一轮平行句对的训练损失选择保留一部分损失最小的训练语料留到下一轮继续训练,其中,下一轮训练语料的大小与上一轮训练语料的大小的比值β∈﹙0,1﹚;判断已经进行的训练轮数是否小于等于预设的总的训练轮数,若是,继续返回步骤“把上一轮平行句对的训练损失选择保留一部分损失最小的训练语料留到下一轮继续训练,其中,下一轮训练语料的大小与上一轮训练语料的大小的比值β∈﹙0,1﹚;”。
【技术特征摘要】
1.一种面向神经机器翻译的数据缩减方法,应用在基于注意力机制且采用encoder-decoder框架的NMT模型,其特征在于,包括:利用所述完整的初始语料进行第一轮训练;把上一轮平行句对的训练损失选择保留一部分损失最小的训练语料留到下一轮继续训练,其中,下一轮训练语料的大小与上一轮训练语料的大小的比值β∈﹙0,1﹚;判断已经进行的训练轮数是否小于等于预设的总的训练轮数,若是,继续返回步骤“把上一轮平行句对的训练损失选择保留一部分损失最小的训练语料留到下一轮继续训练,其中,下一轮训练语料的大小与上一轮训练语料的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。