当前位置: 首页 > 专利查询>苏州大学专利>正文

一种不同语言间词汇相似度的获取方法及系统技术方案

技术编号:7537543 阅读:202 留言:0更新日期:2012-07-13 02:40
本发明专利技术公开了一种不同语言间词汇相似度的获取方法及系统,可以根据源语言与目标语言中词汇的上下文词汇相似度和依存相似度为特征获得不同语言间词汇的相似度。由于本发明专利技术同时使用了上下文相似度和依存相似度对不同语言的词汇相似度进行评价,因此可以有效提高相似度的可靠性,提高翻译准确性。

【技术实现步骤摘要】

本专利技术涉及机器翻译
,特别是涉及一种不同语言间词汇相似度的获取方法及系统
技术介绍
进入21世纪以后,不同国家和地区的人们需要进行更为频繁的交流。语言的不同为交流过程带来了极大障碍,借助于翻译工具进行机器翻译可以有效解决这种问题。机器翻译的基础是对词汇的翻译,即找到源语言词汇在目标语言中相对应的词汇,使用词汇相似度进行查找是一种常用的技术手段。我们知道的是,自然语言中,不同语言中的某些词汇的含义是十分相似的,甚至相同的,如中文的“漂亮”和英文的‘Tretty”和“Beautiful”。现有技术中,仅仅使用词汇的含义来评价不同语言中词汇的相似度,可靠性较低。在使用这种相似度进行后期的翻译工作时,会使翻译的准确性大大降低。
技术实现思路
为解决上述技术问题,本专利技术实施例提供一种不同语言间词汇相似度的获取方法及系统,以实现不同语言间词汇相似度计算的可靠性,技术方案如下一种不同语言间词汇相似度的获取方法,包括获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,获得目标语言中第二词汇的上下文词汇及所述上下文词汇与所述第二词汇的目标语言依存关系;获得所述第一词汇的上下文词汇与所述第二词汇的上下文词汇之间的上下文相似度,获得所述源语言依存关系与所述目标语言依存关系的依存相似度;根据所述上下文相似度及所述依存相似度获得所述第一词汇与所述第二词汇的相似度。优选的,所述获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,包括根据可比较语料库中的语料构建所述第一词汇的依存关系树;获得所述依存关系树中所述第一词汇的邻近节点并作为所述第一词汇的上下文词汇;获得所述上下文词汇与所述第一词汇的源语言依存关系。优选的,所述邻近节点包括所述第一词汇的祖父节点、父节点、子节点和孙子节点ο优选的,所述依存关系树为采用确定性模型构造的。优选的,所述获得所述源语言依存关系与所述目标语言依存关系的依存相似度,包括根据预先设置的依存关系映射表判断源语言依存关系和目标语言依存关系是否匹配;根据匹配结果使用余弦相似度计算方法计算依存相似度。本专利技术还提供了一种不同语言间词汇相似度的获取系统,包括第一获得模块、第二获得模块和第三获得模块,所述第一获得模块,用于获得源语言中第一词汇的上下文词汇及所述上下文词汇与所述第一词汇的源语言依存关系,获得目标语言中第二词汇的上下文词汇及所述上下文词汇与所述第二词汇的目标语言依存关系;所述第二获得模块,用于获得所述第一词汇的上下文词汇与所述第二词汇的上下文词汇之间的上下文相似度,获得所述源语言依次关系与所述目标语言依存关系的依存相似度;所述第三获得模块,用于根据所述上下文相似度及所述依存相似度获得所述第一词汇与所述第二词汇的相似度。优选的,所述第一获得模块包括关系树构建模块、上下文词汇选取模块和依存关系获得模块,所述关系树构建模块,用于根据可比较语料库中的语料构建所述第一词汇的依存关系树;所述上下文词汇选取模块,用于获得所述依存关系树中所述第一词汇的邻近节点并作为所述第一词汇的上下文词汇;所述依存关系获得模块,用于获得所述上下文词汇与所述第一词汇的源语言依存关系。优选的,所述邻近节点包括所述第一词汇的祖父节点、父节点、子节点和孙子节点ο优选的,所述依存关系树为采用确定性模型构造的。优选的,所述第二获得模块,包括依存关系匹配模块和依存相似度计算模块,所述依存关系匹配模块,用于根据预先设置的依存关系映射表判断源语言依存关系和目标语言依存关系是否匹配;所述依存相似度计算模块,用于根据匹配结果使用余弦相似度计算方法计算依存相似度。通过应用以上技术方案,本专利技术提供的一种不同语言间词汇相似度的获取方法及系统,可以根据源语言与目标语言中词汇的上下文词汇相似度和依存相似度为特征获得不同语言间词汇的相似度。由于本专利技术同时使用了上下文相似度和依存相似度对不同语言的词汇相似度进行评价,因此可以有效提高相似度的可靠性,提高翻译准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种不同语言间词汇相似度的获取方法的流程示意图;图2为本专利技术实施例提供的一种不同语言间词汇相似度的获取方法中建立依存关系树的流程示意图;图3为本专利技术实施例提供的一个依存关系树实例;图4为本专利技术实施例提供的一种不同语言间词汇相似度的获取系统的结构示意图;图5为本专利技术实施例提供的一种不同语言间词汇相似度的获取系统中第一获得模块的结构示意图。具体实施例方式为了使本
的人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。为了更好的理解本专利技术,下面对本专利技术所涉及的双语词表构建进行简单说明。双语词表构建(Bilingual lexicon construction)是指建立一种语言中的词语和其在另一种语言中的翻译词之间的对应关系。双语词表在机器翻译和跨语言信息检索等自然语言处理任务中发挥着重要作用。如在机器翻译中,必须首先构建两种语言在词语级上的翻译对应关系,即双语词表构建,才能实现两种语言在句子级上的翻译。而在跨语言信息检索中,借助于双语词表,可以将源语言的检索关键词(如中文)翻译成目标语言(如英文),从而可以在内容更丰富的目标语言资源中进行检索。构建双语词表通常有三种方法基于大规模平行语料库的方法、基于第三方中间语言的方法和基于可比较语料库的方法。第一种方法通过从大规模平行语料库中抽取词对齐信息来得到双语词表,其前提是源语言和目标语言之间必须存在大规模的平行语料库,这对某些语言对或某一领域来说是难以获得的。第二种方法是源语言和目标语言之间通过第三方即中间语言来实现词语匹配,它需要源语言到中间语言的电子词典和中间语言到目标语言的电子词典。由于语言的一词多义现象,这种方法的准确率不高,并且电子词典有时也难以获得。第三种方法由于只需借助于较容易获得的大规模双语可比较语料库和少量的种子词表就可以进行双语词表构建,因而成为目前双语词表构建的主流方法。基于可比较语料库构建双语词表的方法基于这样一个前提在可比较语料库中,意义相似的双语词语其上下文词汇也应该相似。如中文词语“业绩”和英文词语“Achievement”,与前者经常在句子中共现的中文词语有“创造”、“经验”、“经营”、“伟大”和“管理”等,而与后者在句子中共现的英文词语有“ create ”、“ experience ”、“operation”、"great"和“management”等。从中可以看出,双语词语“业绩”和“Achievement”其上下文词汇非常相似。因此,首先从可比较语料库中抽取出双语词语各自的上下文词汇信息,利用上下文词汇信息来计算双语词语之本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:钱龙华孔芳周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术