【技术实现步骤摘要】
双语语料库的数据扩充方法和装置
本专利技术涉及机器翻译
,尤其涉及一种双语语料库的数据扩充方法和装置。
技术介绍
机器翻译系统可以分为基于规则的机器翻译系统、基于实例的机器翻译系统以及基于统计的机器翻译系统。基于统计的机器翻译系统是20世纪90年代兴起的一种机器翻译系统,也是当前最为主要的机器翻译系统。它不需要人工编写规则,并且对所有语言都适用,因此应用比较广泛。基于统计的机器翻译系统的翻译质量很大程度上取决于语料库的质量。即语料库中的数据数量越多,质量越高,则基于统计的机器翻译系统的翻译质量就越高。而语料库建立之初,大多数语料库都面临语料库中数据稀疏的问题。
技术实现思路
有鉴于此,本专利技术提出一种双语语料库的数据扩充方法和装置,以解决双语语料库的数据稀疏问题。第一方面,本专利技术实施例提供了一种双语语料库的数据扩充方法,所述方法包括:在源语言-枢轴语言语料库中查找与第一源语言短语语义匹配的至少一个第一枢轴语目短语;在源语言-枢轴语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第二源语言短语,并由各所述第二源语言短语组成源语言短语集合;在枢轴语言-目标语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第一目标语言短语,并由各所述第一目标语言短语组成目标语言短语集合;将所述源语言短语集合中的第二源语言短语与所述目标语言短语集合中的第一目标语言短语进行组合,形成至少一个源语言短语与目标语言短语之间的短语对;将形成的至少一个源语言短语与目标语言短语之间的短语对存储至源语言-目标语目语料库。第二方面,本专利技术实施例提供了一 ...
【技术保护点】
一种双语语料库的数据扩充方法,其特征在于,包括:在源语言?枢轴语言语料库中查找与第一源语言短语语义匹配的至少一个第一枢轴语言短语;在源语言?枢轴语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第二源语言短语,并由各所述第二源语言短语组成源语言短语集合;在枢轴语言?目标语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第一目标语言短语,并由各所述第一目标语言短语组成目标语言短语集合;将所述源语言短语集合中的第二源语言短语与所述目标语言短语集合中的第一目标语言短语进行组合,形成至少一个源语言短语与目标语言短语之间的短语对;将形成的至少一个源语言短语与目标语言短语之间的短语对存储至源语言?目标语言语料库。
【技术特征摘要】
1.一种双语语料库的数据扩充方法,其特征在于,包括: 在源语言-枢轴语言语料库中查找与第一源语言短语语义匹配的至少一个第一枢轴语H短语; 在源语言-枢轴语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第二源语言短语,并由各所述第二源语言短语组成源语言短语集合; 在枢轴语言-目标语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第一目标语言短语,并由各所述第一目标语言短语组成目标语言短语集合; 将所述源语言短语集合中的第二源语言短语与所述目标语言短语集合中的第一目标语言短语进行组合,形成至少一个源语言短语与目标语言短语之间的短语对; 将形成的至少一个源语言短语与目标语言短语之间的短语对存储至源语言-目标语H语料库。2.根据权利要求1所述的方法,其特征在于,在源语言-枢轴语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第二源语言短语,并由各所述第二源语言短语组成源语言短语集合包 括: 利用所述至少一个第一枢轴语言短语中的每一个在所述源语言-枢轴语言语料库中查找与之语义相同的第二源语言短语; 在查找到的第二源语言短语中去除重复的源语言短语; 将去除重复后的第二源语言短语组成源语言短语集合。3.根据权利要求1所述的方法,其特征在于,在枢轴语言-目标语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第一目标语言短语,并由各所述第一目标语言短语组成目标语言短语集合包括: 利用所述至少一个第一枢轴语言短语中的每一个在所述枢轴语言-目标语言语料库中查找与之语义相同的第一目标语言短语; 在查找到的第一目标语言短语中去除重复的目标语言短语; 将去除重复后的第一目标语言短语组成目标语言短语集合。4.根据权利要求1所述的方法,其特征在于,将所述源语言短语集合中的第二源语言短语与所述目标语言短语集合中的第一目标语言短语进行组合,形成至少一个源语言短语与目标语言短语之间的短语对包括: 将所述源语言短语集合中的每一个第二源语言短语作为键,并将所述目标语言短语集合中的每一个第一目标语言短语作为值,形成至少一个源语言短语与目标语言短语之间...
【专利技术属性】
技术研发人员:朱晓宁,何中军,吴华,王海峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。