【技术实现步骤摘要】
本专利技术涉及获悉词组之间的转换关系。具体地说,本专利技术涉及一种用于获悉不同语言的词组之间的转换关系的统计方法。
技术介绍
机器翻译系统是这样一种系统,它接收一种语言的文本输入,将其转换为第二种语言,并且提供一个第二种语言的文本输出。在该过程中,这种系统典型地使用了一个转换词典以获得实义词之间的对应,或者获得实义词之间的转换关系,所述实义词是在训练期间获得的。一种从经验数据中导出转换词典的普通方法,包括在并行的两种语言主体的对齐的句子中选择第一语言L1的单词与第二语言L2的单词之间的关联度量度。然后根据选择的关联度量度,通过排列来定制单词对(由来自L1的单词和来自L2的单词组成)。选择一个阈值,并且以关联度高于这个阈值的所有单词对形成转换词典。例如,在现有方法中,相似度(单词之间的关联度变量)是单词以在对齐的文本主体区域(也就是句子)中同时出现单词的频率为基础的。计算不同单词对的关联得分,并且以单词对的关联得分的降序存储这些单词对。此外,选择一个阈值以及将那些关联得分超过这个阈值的单词对变为转换词典的条目。然而,这个类型的方法具有缺陷。一个问题就是关联得分是 ...
【技术保护点】
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。