【技术实现步骤摘要】
本专利技术涉及文本自动翻译
,尤其涉及到制作自动翻译语料库所必须的双 语文本的句子对齐方法。
技术介绍
自动翻译语料库存有大量已经对齐的双语句子。文本自动翻译离不开自动翻译语 料库的支撑。一般情况下,传统的双语文本的句子自动对齐方法的准确率在80%左右徘徊。 如果希望获得高质量的双语对齐语料,则必须在自动处理后采取人工审核。人工审核的工 作包括:1)从大量文本自动对齐的平行语料中找到其中错误的对齐;2)手动调整对齐的内 容。事后的人工审核工作存在两方面不利影响,一是人工工作量大,二是降低了对齐语料的 产生效率。 例如2006年5月出版的《哈尔滨工业大学学报》公开了《基于长度和位置信息的 双语句子对齐方法》的论文(国家自然科学基金资助项目),该方法基于长度和位置信息, 采用锚点定位法进行双语句子自动对齐。但是,该方法在自动对齐过程中存在错误的蔓延 问题,即,某一个步骤产生的锚点定位不准确或错误,导致后续步骤在前步骤错误的基础上 蔓延或扩大,使自动对齐的准确率继续下降。
技术实现思路
本专利技术所要解决的技术问题是提供一种,克服现有技术 在制作双语平行语料的过程中所存在的错误蔓延扩大的缺陷。 为解决上述技术问题,本专利技术提供一种,在自动对齐前, 在双语文本中标定若干对齐锚点,所述对齐锚点将双语文本区分为若干对齐区间,然后在 所述若干对齐区间内分别进行自动对齐。 所谓对齐锚点,是分别将原文、译文文本分成对齐的片段的句子对,通常用句子在 原、译中的序列号标识,如[20,21]表示原文中的第20句与译文 ...
【技术保护点】
一种双语文本的句子对齐方法,其特征在于,在自动对齐前,在双语文本中标定若干对齐锚点,所述对齐锚点将双语文本区分为若干对齐区间,在所述若干对齐区间内分别进行自动对齐;所谓对齐锚点,是分别将原文、译文文本分成对齐的片段的句子对。
【技术特征摘要】
1. 一种双语文本的句子对齐方法,其特征在于,在自动对齐前,在双语文本中标定若干 对齐锚点,所述对齐锚点将双语文本区分为若干对齐区间,在所述若干对齐区间内分别进 行自动对齐;所谓对齐锚点,是分别将原文、译文文本分成对齐的片段的句子对。2. 根据权利要求1所述的双语文本的句子对齐方法,其特征在于,所述对齐锚点在双 语文本...
【专利技术属性】
技术研发人员:江潮,何征宇,
申请(专利权)人:武汉传神信息技术有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。