识别具有组合型歧义的歧义词的方法和装置制造方法及图纸

技术编号:9568973 阅读:130 留言:0更新日期:2014-01-16 02:33
本发明专利技术公开了一种识别具有组合型歧义的歧义词的方法和装置。该方法包括:利用核心词表对第一语言句子进行粗粒度切分;利用核心词表在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词;通过分解候选歧义词对第一语言句子进行细粒度切分;从与第一语言句子对应的第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文;以及判断所抽取的候选歧义词和更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词和更小粒度的多个词的译文中,以确定候选歧义词是真歧义词还是伪歧义词。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种识别具有组合型歧义的歧义词的方法和装置。该方法包括:利用核心词表对第一语言句子进行粗粒度切分;利用核心词表在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词;通过分解候选歧义词对第一语言句子进行细粒度切分;从与第一语言句子对应的第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文;以及判断所抽取的候选歧义词和更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词和更小粒度的多个词的译文中,以确定候选歧义词是真歧义词还是伪歧义词。【专利说明】识别具有组合型歧义的歧义词的方法和装置
本申请总体上涉及自然语言处理的领域,尤其涉及识别具有组合型歧义的歧义词的方法和设备。
技术介绍
在自然语言处理中,分词是其中的一个基本课题。大部分自然语言处理都建立在分词的结果之上,因此分词的质量直接影响到后续工作的准确性。由于自然语言自身的特点,在自然语言的分词过程中,会遇到分词歧义的问题。以汉语为例,汉语的分词歧义主要包括如下两种:交集型歧义和组合型歧义。一般,假设A、X和B分别为词串,如果其组成的词串AXB满足AX和XB同时为词的条件,则称词串AXB具有交集型歧义。另外,假设W是汉语词集合,如果一个词w G W,并且该词w可以分解为连续的词串W1, w2,......, wn (n为大于或等于2的自然数),Wi G W (i=l,2,......,n),而且w和W1, w2,......,wn在汉语句子中均存在,则称w具有组合型歧义。交集型歧义的解决方案比较明确,现有的方案可以取得较好的效果。然而,对于组合型歧义,目前的解决方案还较少。关于组合型歧义,现有的解决方案主要分成以下两种:一种是通过观察预料库,人工总结歧义现象,另一种是人工标注一部分语料作为训练集,利用机器学习的方法来学习歧义现象。但是,现有的解决方案存在很多缺点。例如,人工很难总结出语料中潜在的歧义现象,而且人工的方式需要大量的时间和人力,成本很高。而且,组合型歧义具有领域相关的特点,即在不同的领域会产生不同的歧义现象,人工的方式很难预测。另外,人工标注语料也是成本很高的过程,如果分词系统应用在新的领域,就需要重新标注新的语料。因此,期望提供一种能够适用于不同领域并且能够高效地和准确地识别具有组合型歧义的歧义词的方法和装置。
技术实现思路
在下文中将给出关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。专利技术人通过研究发现,组合型歧义具有如下特点:具有组合型歧义的歧义词在被拆分之后的词义变化很大。另外,这种词义上的变化可以通过其他语言,例如英语,明显地表现出来。因此,专利技术人认识到可以通过考察与汉语词对应的其它语言的译文的变化来识别具有组合型歧义的歧义词。也就是说,可以通过其他语言的辅助来识别具有组合型歧义的歧义词。根据本专利技术的实施例,提供了一种识别具有组合型歧义的歧义词的方法,包括:利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分;利用核心词表,在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合;通过分解候选歧义词,对第一语言句子进行细粒度切分;将通过粗粒度切分第一语言句子得到的粗粒度第一语言词以及通过细粒度切分第一语言句子得到的细粒度第一语言词分别与第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文;以及判断所抽取的候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中,以及判断所抽取的候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定候选歧义词是真歧义词还是伪歧义词,并且确定包含候选歧义词的第一语言句子是正例还是反例。根据上述识别具有组合型歧义的歧义词的方法,其中,在所抽取的候选歧义词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为真歧义词,并将包含真歧义词的第一语言句子作为反例。根据上述识别具有组合型歧义的歧义词的方法,其中,在所抽取的候选歧义词的译文出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下,将候选歧义词确定为伪歧义词,并将包含伪歧义词的第一语言句子作为正例。根据上述识别具有组合型歧义的歧义词的方法,还包括:在第一语言单语语料中,根据候选歧义词的上下文特征集合来判断候选歧义词是真歧义词还是伪歧义词。根据上述识别具有组合型歧义的歧义词的方法,还包括:利用第一语言与第二语言词典,获取候选歧义词集合中的每个候选歧义词的所有译文;在第二语言单语语料中统计每个候选歧义词的所有译文中的每个译文的词频,并将其中词频最高的若干个译文选择为每个候选歧义词的实际译文;对于每个候选歧义词的每个实际译文,在第二语言单语语料中选择固定词数的上下文作为特征词,并为每个特征词赋予对应的权重,从而由特征词及其对应的权重组成特征向量,以及将特征向量的集合作为共现模型;以及利用共现模型来判断包含候选歧义词的第一语言句子是正例还是反例。根据本专利技术的另一实施例,提供了一种识别具有组合型歧义的歧义词的装置,包括:粗粒度切分单元,用于利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分;检测单元,用于利用核心词表,在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合;细粒度切分单元,用于通过分解候选歧义词,对第一语言句子进行细粒度切分;抽取单元,用于将通过粗粒度切分第一语言句子得到的粗粒度第一语言词以及通过细粒度切分第一语言句子得到的细粒度第一语言词分别与第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文;以及确定单元,用于判断所抽取的候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中,以及判断所抽取的候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定候选歧义词是真歧义词还是伪歧义词,并且确定包含候选歧义词的第一语言句子是正例还是反例。根据上述识别具有组合型歧义的歧义词的装置,其中,确定单元在所抽取的候选歧义词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义本文档来自技高网
...

【技术保护点】
一种识别具有组合型歧义的歧义词的方法,包括:利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分;利用所述核心词表,在所述粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合;通过分解所述候选歧义词,对所述第一语言句子进行细粒度切分;将通过粗粒度切分所述第一语言句子得到的粗粒度第一语言词以及通过细粒度切分所述第一语言句子得到的细粒度第一语言词分别与所述第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从所述第二语言句子中分别抽取所述候选歧义词的译文、和所述候选歧义词所分解成的更小粒度的多个词的译文;以及判断所抽取的所述候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的所述候选歧义词的所有译文中,以及判断所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定所述候选歧义词是真歧义词还是伪歧义词,并且确定包含所述候选歧义词的所述第一语言句子是正例还是反例。

【技术特征摘要】

【专利技术属性】
技术研发人员:郑仲光孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1