双语文本的对齐方法及装置制造方法及图纸

技术编号：3856466 阅读：232 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种双语文本的对齐方法及装置，属于文本信息处理领域。所述方法包括：将待对齐双语文本的原文文本及译文文本分别进行预处理；判断所述原文文本及译文文本之间的句子数差值是否足够大，并根据判断结果，将经过预处理的双语文本分割成多个双语文本片段；根据词语间的互译关系，将每个双语文本片段进行对齐，得到对齐的双语文本。所述装置包括：预处理模块、判断模块、分段模块和对齐模块。本发明专利技术通过判断原文文本及译文文本之间的句子数差值是否足够大，并根据判断结果将经过预处理的双语文本可靠地分段，再根据词语间的互译关系，分别对每个双语文本片段进行对齐，具有提升对齐的速度，保证良好鲁棒性的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本信息处理领域，特别涉及一种双语文本的对齐方法及装置。
技术介绍
随着互联网的迅猛发展，互联网上的信息量呈指数爆炸式增长。如何利用好这些信息则成为了一个难题，尤其是语言上的不统一，人们期望有一种自动的或需要很少人工干预的方法将一种语言转换成另一种语言，而这些方法的设计和实施需要大量的双语对齐文本(即已给出在篇章级、句子级、词语级等级别的对应关系的双语文本)。由于人工制作双语对齐文本费时费力，于是需要一些方法来自动对双语文本进行对齐(即给出双语文本在篇章级、句子级、词语级等的对应关系)。现有技术中的一种对齐方式是采用句子长度信息来对双语文本进行对齐；另一种对齐方式是采用词语间互译关系来对双语文本进行对齐。在实现本专利技术的过程中，专利技术人发现现有技术至少存在以下几个缺点采用句子长度信息来对双语文本进行对齐时，当输入文本中出现的句子缺失或插入时，会引起对齐性能的急剧下降，从而导致鲁棒性差；第二种对齐方式随着文本长度的增加，词语数量的增多，对齐的时间也将随之增长，从而导致对齐的速度很慢。
技术实现思路
为了提高双语文本的对齐速度，并同时保证良好的鲁棒性，本专利技术实施例提供了一种双语文本的对齐方法及装置。所述技术方案如下一方面，提供了一种双语文本的对齐方法，所述方法包括将待对齐双语文本的原文文本及译文文本分别进行预处理；判断所述原文文本及译文文本之间的句子数差值是否足够大，并根据判断结果，将经过预处理的双语文本分割成多个双语文本片段；根据词语间的互译关系，将每个双语文本片段进行对齐，得到对齐的双语文本。另一方面，提供了一种双语文本的对齐装置...

【技术保护点】
一种双语文本的对齐方法，其特征在于，所述方法包括：　　将待对齐双语文本的原文文本及译文文本分别进行预处理；　　判断所述原文文本及译文文本之间的句子数差值是否足够大，并根据判断结果，将经过预处理的双语文本分割成多个双语文本片段；　　根据词语间的互译关系，将每个双语文本片段进行对齐，得到对齐的双语文本。

【技术特征摘要】

【专利技术属性】
技术研发人员：李鹏，孙茂松，薛平，
申请(专利权)人：清华大学，波音公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人