【技术实现步骤摘要】
本专利技术涉及机器翻译
,特别涉及一种平行短语学习方法及装置。
技术介绍
随着互联网的发展和国际交流的日益深入,人们的语言翻译需求日益增长。据Google翻译团队披露,Google翻译每天提供翻译服务达十亿次,相当于全球一年的人工翻译量,处理的文字数量相当于一百万册图书。然而,机器翻译的质量还无法达到人们的需求,尤其是对于语料资源较少的语言和领域,目前的商用机器翻译系统还很难很好地进行翻译。目前主流的机器翻译技术是基于统计的机器翻译。平行语料库在统计机器翻译中起到了重要作用,是统计机器翻译系统用于抽取翻译规则、计算模型参数所不可或缺的数据资源。平行语料库是指的是源语言文本及其平行对应的目标语言的译文文本构成的双语或多语语料库。对齐的粒度分为词级、短语级、句子级、段落级、篇章级等。统计机器翻译系统通常使用句子级对齐的平行语料库作为训练数据。统计机器翻译技术依赖于大规模的平行语料库,系统通过训练算法来使用平行语料库训练翻译模型。但是,如何获取大规模的平行语料库仍然是一个巨大的挑战。目前平行语料库远远无法满足互联网的时代下人们对机器翻译服务的需要。平行语料库通常 ...
【技术保护点】
一种平行短语的学习方法,其特征在于,包括:S1:根据句子级的单语语料库中的句子构建短语级的单语语料库;S2:通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;S3:使用所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以利用抽取出的所述平行短语对,在模型一致性约束下优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型。
【技术特征摘要】
1.一种平行短语的学习方法,其特征在于,包括:S1:根据句子级的单语语料库中的句子构建短语级的单语语料库;S2:通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;S3:使用所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以利用抽取出的所述平行短语对,在模型一致性约束下优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型。2.根据权利要求1所述的方法,其特征在于,所述S1中根据句子级的单语语料库中的句子构建短语级的单语语料库,包括:通过将所述句子中任意连续的若干个词作为短语,以构建短语级的单语语料库;或,使用句法分析工具,将同一所述句子的句子成分下的词作为短语,以构建短语级的单语语料库;或,基于网页的超链接或标点符号等自然分隔符来划分所述句子的短语,以构建短语级的单语语...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。