双语语料筛选方法、装置及存储介质制造方法及图纸

技术编号:23625050 阅读:32 留言:0更新日期:2020-03-31 22:46
本申请是关于一种双语语料筛选方法、装置及存储介质,涉及神经机器翻译技术领域。该方法包括:首先,获取多对双语语料,基于多对双语语料,训练机器翻译模型,获得各对双语语料各自的第一特征,基于多对双语语料,训练语言模型,获得各对双语语料各自的特征向量,并确定各对双语语料各自的第二特征,根据各对双语语料的第一特征和各对双语语料的第二特征,确定各对双语语料各自的质量数值,最后,根据各对双语语料的质量数值,对各对双语语料进行筛选;通过上述方案,避免了无法对部分双语语料进行过滤筛选的问题,提高了清洗语料的数据量,提高了双语语料清洗的效率。

Bilingual corpus selection methods, devices and storage media

【技术实现步骤摘要】
双语语料筛选方法、装置及存储介质
本公开涉及神经机器翻译
,特别是涉及一种双语语料筛选方法、装置及存储介质。
技术介绍
目前,在神经机器翻译领域,需要大量的语料对模型进行训练,语料的质量很大程度的影响了模型的质量,所以通过对语料进行清洗来维护语料质量就尤为重要。如今,语料的清洗方法主要是依赖于人工规则或者基于统计结果。基于人工规则的方法主要是根据语料中已经发现的问题通过正则表达式针对性的进行过滤或者根据语料的编码范围进行过滤。基于统计结果的方法主要是通过对语料中的词频进行统计,将包含有低频词的语料进行删除来达到清洗语料的目的。然而,基于上述两种方法进行语料清洗,过滤清洗涉及到的语料的数据量是有限的,导致仅针对特定情况的语料进行清洗,从而影响清洗过滤语料的数据量,降低了语料清洗的效率。
技术实现思路
本公开提供一种双语语料筛选方法、装置及存储介质。所述技术方案如下:根据本公开实施例的第一方面,提供了一种双语语料筛选方法,其特征在于,所述方法包括:获取多对双语语料,其中每一对双语语料包含源语本文档来自技高网...

【技术保护点】
1.一种双语语料筛选方法,其特征在于,所述方法包括:/n获取多对双语语料,其中每一对双语语料包含源语料和目标语料;/n基于所述多对双语语料,训练机器翻译模型;/n基于训练后的机器翻译模型,获得各对双语语料各自的第一特征;/n基于所述多对双语语料,训练语言模型;/n基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征;/n根据所述各对双语语料的第一特征和所述各对双语语料的第二特征,确定所述各对双语语料各自的质量数值;/n根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选。/n

【技术特征摘要】
1.一种双语语料筛选方法,其特征在于,所述方法包括:
获取多对双语语料,其中每一对双语语料包含源语料和目标语料;
基于所述多对双语语料,训练机器翻译模型;
基于训练后的机器翻译模型,获得各对双语语料各自的第一特征;
基于所述多对双语语料,训练语言模型;
基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征;
根据所述各对双语语料的第一特征和所述各对双语语料的第二特征,确定所述各对双语语料各自的质量数值;
根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选。


2.根据权利要求1所述的方法,其特征在于,所述机器翻译模型包括第一翻译模型和第二翻译模型,所述第一特征包括第一概率特征和第二概率特征;
所述基于训练后的机器翻译模型,获得各对双语语料各自的第一特征,包括:
将每一对所述双语语料中的源语料输入到训练后的第一翻译模型,基于所述第一翻译模型输出的结果确定所述双语语料的第一概率特征,所述第一概率特征为所述第一翻译模型将所述源语料预测为所述双语语料中与所述源语料对应的目标语料的概率;
将每一对所述双语语料中的目标语料输入到训练后的第二翻译模型,基于所述第二翻译模型输出的结果确定所述双语语料的第二概率特征,所述第二概率特征为所述第二翻译模型将所述目标语料预测为所述双语语料中与所述目标语料对应的所述源语料的概率。


3.根据权利要求1所述的方法,其特征在于,所述语言模型包括第一语言模型和第二语言模型,所述特征向量包括第一特征向量以及第二特征向量;
所述基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各自的第二特征,包括:
对于每一对双语语料,将该对双语语料中的源语料输入到训练后的第一语言模型,获取所述源语料对应的所述第一特征向量;
将该对双语语料中的目标语料输入到训练后的第二语言模型,获取所述目标语料对应的所述第二特征向量;
基于所述第一特征向量以及所述第二特征向量,确定该对双语语料中的源语料与目标语料之间的语义相似度,作为该对双语语料的所述第二特征。


4.根据权利要求3所述的方法,其特征在于,所述第一语言模型包括通过所述各对双语语料中的源语料训练得到的第一编码器,且所述第二语言模型包括通过所述各对双语语料中的目标语料训练得到的第二编码器;
其中,所述第一编码器和所述第二编码器各自是自动编码器、变分自动编码器或者降噪自动编码器中的任意一种。


5.根据权利要求4所述的方法,其特征在于,所述第一编码器对所述源语料进行编码时的模型参数与所述第二编码器对所述目标语料进行编码时的模型参数相同。


6.根据权利要求3所述的方法,其特征在于,所述语义相似度是曼哈顿距离、欧几里德距离或者余弦相似度。


7.根据权利要求1所述的方法,其特征在于,所述根据所述各对双语语料的第一特征和所述各对双语语料的第二特征,确定所述各对双语语料各自的质量数值,包括:
对所述各对双语语料的第一特征和所述各对双语语料的第二特征进行加权计算,获得所述各对双语语料各自的质量数值。


8.根据权利要求1所述的方法,其特征在于,所述根据所述各对双语语料的质量数值,对所述各对双语语料进行筛选,包括:
按照所述各对双语语料的质量数值,对所述各对双语语料进行排序;
根据排序结果对所述各对双语语料进行筛选。


9.一种双语语料筛选装置,其特征在于,所述装置包括:
语料获取模块,用于获取多对双语语料,其中每一对双语语料包含源语料和目标语料;
翻译模型训练模块,用于基于所述多对双语语料,训练机器翻译模型;
第一特征获取模块,用于基于训练后的机器翻译模型,获得各对双语语料各自的第一特征;
语言模型训练模块,用于基于所述多对双语语料,训练语言模型;
第二特征确定模块,用于基于训练后的语言模型,获得所述各对双语语料各自的特征向量,并确定所述各对双语语料各...

【专利技术属性】
技术研发人员:李京蔚孙于惠李响
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1