当前位置: 首页 > 专利查询>微软公司专利>正文

获悉词组之间的转换关系的统计方法和装置制造方法及图纸

技术编号:2871609 阅读:198 留言:0更新日期:2012-04-11 18:40
一种标识源语言中的短语与目标语言中的短语之间的转换关系的方法,包括:    接收对对齐的多单词单元对的存取,一个是源语言中的源单元和另一个是目标语言中的目标单元,该源语言短语在源单元中被标识;    在目标单元中产生至少一个候选短语,该候选短语是源语言短语的一个假定转换;    计算每个候选词组的得分,该得分包括基于源语言短语和候选短语之内的单词之间的关联的一内部分量以及基于源语言短语和候选短语之外的单词之间的关联的一外部分量;以及    根据该得分标识源语言短语的候选短语之间的转换关系。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及获悉词组之间的转换关系。具体地说,本专利技术涉及一种用于获悉不同语言的词组之间的转换关系的统计方法。
技术介绍
机器翻译系统是这样一种系统,它接收一种语言的文本输入,将其转换为第二种语言,并且提供一个第二种语言的文本输出。在该过程中,这种系统典型地使用了一个转换词典以获得实义词之间的对应,或者获得实义词之间的转换关系,所述实义词是在训练期间获得的。一种从经验数据中导出转换词典的普通方法,包括在并行的两种语言主体的对齐的句子中选择第一语言L1的单词与第二语言L2的单词之间的关联度量度。然后根据选择的关联度量度,通过排列来定制单词对(由来自L1的单词和来自L2的单词组成)。选择一个阈值,并且以关联度高于这个阈值的所有单词对形成转换词典。例如,在现有方法中,相似度(单词之间的关联度变量)是单词以在对齐的文本主体区域(也就是句子)中同时出现单词的频率为基础的。计算不同单词对的关联得分,并且以单词对的关联得分的降序存储这些单词对。此外,选择一个阈值以及将那些关联得分超过这个阈值的单词对变为转换词典的条目。然而,这个类型的方法具有缺陷。一个问题就是关联得分是典型的彼此无关独立地本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:R·C·摩尔
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1