获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统制造方法及图纸

技术编号:8593940 阅读:195 留言:0更新日期:2013-04-18 07:06
本发明专利技术提供了一种获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统,其中机器翻译的系统包括:分类模块,用于使用第一分类模型对待翻译文本进行分类,以确定所述待翻译文本所属领域,其中所述第一分类模型由各领域的训练语料训练得到;翻译模块,用于利用与所述待翻译文本所属领域对应的领域翻译模型对所述待翻译文本进行翻译,其中所述领域翻译模型由对应领域的训练语料训练得到。通过上述方式,可以有效提高翻译的精度。

【技术实现步骤摘要】
获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统
本专利技术涉及机器翻译领域,特别涉及一种获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统。
技术介绍
在机器翻译中,使用的翻译模型对翻译质量有很大的影响,现有的机器翻译方法中,不对待翻译文本的类型进行区分,而采用相同的翻译模型对各种类型的文本进行翻译, 这会导致针对不同类型的文本,翻译结果的质量出现较大差异的现象。例如英语中的“bank” 一词,在经济、金融领域的上下文中,应该翻译成“银行”,而在地理领域的上下文中,则应该翻译为“河岸”。如果对这些情况不做区分,而采用同一种翻译模型进行翻译,就会降低翻译的质量。
技术实现思路
本专利技术所要解决的技术问题是提供一种获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统,以解决现有技术在对不同领域的文本进行翻译时,翻译精度不够高的缺陷。本专利技术为解决技术问题而采用的技术方案是提供一种获取语料的方法,包括将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料;从各个归并语料中选择长度超过设定阈值的归并语料组成长语本文档来自技高网...

【技术保护点】
一种获取语料的方法,其特征在于,所述方法包括:将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料;从各个归并语料中选择长度超过设定阈值的归并语料组成长语料;采用聚类的方法,将相同领域的长语料聚为一类;利用聚类得到的各领域的长语料训练分类模型;使用训练后的分类模型对所述双语语料中的短语料进行分类,以确定所述短语料所属领域,并将各领域的短语料与相同领域的长语料进行合并,得到各领域的训练语料,其中所述短语料为所述双语语料中除所述长语料之外的其他语料。

【技术特征摘要】
1.一种获取语料的方法,其特征在于,所述方法包括 将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料; 从各个归并语料中选择长度超过设定阈值的归并语料组成长语料; 采用聚类的方法,将相同领域的长语料聚为一类; 利用聚类得到的各领域的长语料训练分类模型; 使用训练后的分类模型对所述双语语料中的短语料进行分类,以确定所述短语料所属领域,并将各领域的短语料与相同领域的长语料进行合并,得到各领域的训练语料,其中所述短语料为所述双语语料中除所述长语料之外的其他语料。2.根据权利要求1所述的方法,其特征在于,所述聚类的方法为潜在概率语义分析方法。3.根据权利要求1所述的方法,其特征在于,对所述长语料进行聚类时采用的聚类特征包括对所述长语料进行分词后,各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。4.根据权利要求1所述的方法,其特征在于,所述分类模型包括贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。5.一种生成翻译模型的方法,其特征在于,所述方法包括 采用权利要求1至4中任一权项所述方法获取各领域的训练语料; 使用各领域的训练语料对翻译模型进行训练得到各领域翻译模型。6.根据权利要求5所述的方法,其特征在于,所述方法进一步包括 将各领域的训练语料合并后对翻译模型进行训练得到通用翻译模型。7.一种机器翻译方法,其特征在于,所述方法包括 A.使用第一分类模型对待翻译文本进行分类,以确定所述待翻译文本所属领域,其中所述第一分类模型由各领域的训练语料训练得到; B.利用与所述待翻译文本所属领域对应的领域翻译模型对所述待翻译文本进行翻译,其中所述领域翻译模型由对应领域的训练语料训练得到。8.根据权利要求7所述的方法,其特征在于,所述第一分类模型包括贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。9.根据权利要求7所述的方法,其特征在于,所述步骤A进一步包括确定所述待翻译文本归属于所述待翻译文本所属领域的概率并判断该概率是否高于设定的第一阈值,如果是,则所述步骤B中,将与所述待翻译文本所属领域对应的领域翻译模型与通用翻译模型融合后对所述待翻译文本进行翻译,其中所述通用翻译模型由各领域的训练语料合并后训练得到。10.根据权利要求7至9中任一权项所述的方法,其特征在于,各领域的训练语料是采用下列方式得到的 将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料; 从各个归并语料中选择长度超过设定的第二阈值的归并语料组成长语料; 采用聚类的方法,将相同领域的长语料聚为一类;利用聚类得到的各领域的长语料训练第二分类模型; 使用训练后的第二分类模型对所述双语语料中的短语料进行分类,以确定所述短语料所属领域,并将各领域的短语料与相同领域的长语料进行合并,得到各领域的训练语料,其中所述短语料为所述双语语料中除所述长语料之外的其他语料。11.根据权利要求10所述的方法,其特征在于,所述聚类的方法为潜在概率语义分析方法。12.根据权利要求10所述的方法,其特征在于,对所述长语料进行聚类时采用的聚类特征包括对所述长语料进行分词后,各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。13.根据权利要求10所述的方法,其特征在于,所述第二分类模型包括贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。14.一种获取语料的装置,其特征在于,所述装置包括 归并单元,用于将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料; 选取单元,用于从各个归并语...

【专利技术属性】
技术研发人员:马艳军吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1