当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于似然比估计的英语双关语识别方法技术

技术编号:14563646 阅读:144 留言:0更新日期:2017-02-05 20:34
本发明专利技术公开了一种基于似然比估计的英语双关语识别方法,包括:步骤1:通过软件读取需识别的英语句子;步骤2:提取步骤1中句子的双关词语和所有实词,分别记为h和wm,m=1,2,...,M,其中双关词语h包含的两层含义分别记为I1和I2;步骤3:统计各个实词wm,m=1,2,...,M与双关词语含义Ii,i=1,2之间的关联程度,其值记为R(wm,Ii),所述R(wm,Ii)的值事先通过调查问卷的方式进行统计得出;步骤4:利用步骤3中获得的R(wm,Ii),构造似然比λ(I);步骤5:根据λ(I)的计算结果判断句子是否存在双关含义,当λ(I)的值接近于0时,判定该句子有双关含义,否则判定改句子没有双关含义。本发明专利技术提出了一种能准确量化语句歧义性并识别双关语的概率计算方法,解决了传统方法无法准确定量分析双关含义的缺陷。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,涉及英语双关语的识别,具体地说是一种基于似然比估计的英语双关语识别方法
技术介绍
近年来,计算语言学的兴起,为语言学的研究和发展注入了新的活力,也为双关语的研究提供了一条崭新的途径。计算语言学通常借助于概率统计方法,以计算机技术为手段,从大规模真实文本中获取有用的统计信息。有关国内学者利用统计方法进行双关语的研究成果较少,在文献:赵会军,双关语语用翻译量化模型,外语研究135(5)(2012)72-76中,提出一种较为简单的双关语语用翻译量化模型,这是国内学者将计算语言学和人工智能技术应用于双关语翻译工作中的一次有益尝试。国外学者大多数将词语不调和性的定量分析作为双关语识别研究的重点,然而目前学术界对词语不调和性的衡量尚未有一个严格准确的标准,这种不确定性为双关语的识别分析带来诸多不利因素。目前处于主流的双关语识别方法未能为双关语分析和识别提供一个通用的计算认知理论。基于计算语言学的双关语识别研究尚处于起步阶段,无论是其特征提取、计算模型设计还是理论分析方法方面都有待进一步改善和发展。
技术实现思路
为了解决上述问题,本专利技术利用一个适用于分析双关词语不调和性的概率计算模型,提出了一种基于似然比估计的英语双关语识别方法,该方法能自动实现英语双关语的快速识别。采用的技术方案如下:一种基于似然比估计的英语双关语识别方法,包括如下步骤:步骤1:通过软件读取需识别的英语句子;步骤2:提取步骤1中句子的双关词语和所有实词,分别记为h和wm,m=1,2,...,M,其中双关词语h包含的两层含义分别记为I1和I2;步骤3:统计各个实词wm,m=1,2,...,M与双关词语含义Ii,i=1,2之间的关联程度,其值记为R(wm,Ii);步骤4:利用步骤3中获得的R(wm,Ii),构造似然比λ(I);步骤5:根据λ(I)的计算结果判断句子是否存在双关含义。作为优选技术方案,步骤1中所述软件由Matlab或者VisualC++实现。作为优选技术方案,步骤2还包括:人工建立包含词语词性和双关词语的语料库并存储在计算机,通过计算机查询语料库来提取双关词语和所有实词。作为优选技术方案,所述步骤3中的关联程度R(wm,Ii)的值采用事先问卷调查统计的方式获得。作为优选技术方案,所述关联程度R(wm,Ii)的值设在0-10之间。作为优选技术方案,所述步骤4中的似然比λ(I)的计算方法为:λ(I)=logP(w1,...,wM|I1)logP(w1,...,wM|I2)=Σm=1MR(wm,I1)-Σm=1MR(wm,I2);]]>式中,P(·|·)表示条件概率函数,log(·)表示自然对数函数。作为优选技术方案,所述步骤5中所述的判断句子是否存在双关含义的具体方法为:当|λ(I)|<1时,判定句子具有双关含义;否则判定句子不具有双关含义。本专利技术的有益效果:本专利技术基于似然比估计理论,给出了一种能准确量化语句歧义性并识别双关语的概率计算方法,解决了传统方法无法准确定量分析双关含义的缺陷。附图说明图1是本专利技术提出的英语双关语识别方法的流程图;图2是例句(a)中每个实词与双关词语含义(I1=reign和I2=rain)之间相关程度的统计值;图3是例句(b)中每个实词与双关词语含义(I1=reign和I2=rain)之间相关程度的统计值;图4是例句(c)中每个实词与双关词语含义(I1=reign和I2=rain)之间相关程度的统计值;图5是例句(d)中每个实词与双关词语含义(I1=reign和I2=rain)之间相关程度的统计值。具体实施方式下面结合附图和具体实施例对本专利技术作进一步详细说明。如图1所示,为本专利技术提出的英语双关语识别方法的流程图,包括如下步骤:步骤1:通过软件读取需识别的英语句子;该句子由某个双关词语和M个实词构成,其中双关词、介词、副词、冠词不计入总数M中。步骤2:人工建立包含词语词性和双关词语的语料库并保存在计算机内,计算机通过查询语料库,提取步骤1中句子的双关词语和所有实词,分别记为h和wm,m=1,2,K,M,其中双关词语h包含两层含义分别记为I1和I2;步骤3:统计各个实词wm,m=1,2,...,M与双关词语含义Ii,i=1,2之间的关联程度,其值记为R(wm,Ii);R(wm,Ii)可事先通过问卷调查的方式进行统计,一般被试人数应大于50人。问卷调查要求每位被试独立判断各组wm,Ii之间的语意相关性,并给出相应的分数,打分范围是0分到10分,0分表示完全不相关,10分表示极其相关。每个R(wm,Ii)的估计值由问卷调查中获得的wm,Ii之间语意相关分数的平均值所确定。步骤4:利用步骤3中获得的R(wm,Ii),构造似然比λ(I);λ(I)=logP(w1,...,wM|I1)logP(w1,...,wM|I2)=Σm=1MR(wm,I1)-Σm=1MR(wm,I2)---(1)]]>式(1)中,P(·|·)表示条件概率函数,log(·)表示自然对数函数。步骤5:根据λ(I)的计算结果判断句子是否存在双关含义。若λ(I)为一个接近于零的值(例如|λ(I)|<1),判定句子具有双关含义;否则判定句子不具有双关含义。下面结合实施例对本专利技术的效果做进一步说明。为了评估本专利技术提出的方法的性能,使用本专利技术的方法对表1中4个英语例句进行双关语的识别。表1英语例句序号例句内容(a)Britainisawetplacesincethequeenhashadalongreign.(b)Britainisawetplacesincetheautumnhashadalongreign.(c)Theking'sreignendedandhisheirtookover.(d)Rainfellonthecitylastnight.由表1可见,句(a)中的reign与rain属于同音双关;句(b)将句(a)中的单词queen替换成了单词autumn,这使得双关语境被破坏,一般将该类句子归属于“去双关”;句(c)和句(d)都属于非双关,句(c)明确表达的含义是I1=reign,而句(d)明确表达的含义是I2=rain。上述所有句子中,实词一共13个,为了便于描述,我们将其顺序编号:w1=Britain,w2=wet,w3=place,w4=queen,w5=long,w6本文档来自技高网...
一种基于似然比估计的英语双关语识别方法

【技术保护点】
一种基于似然比估计的英语双关语识别方法,其特征在于,包括如下步骤:步骤1:通过软件读取需识别的英语句子;步骤2:提取步骤1中句子的双关词语和所有实词,分别记为h和wm,m=1,2,...,M,其中双关词语h包含的两层含义分别记为I1和I2;步骤3:统计各个实词wm,m=1,2,...,M与双关词语含义Ii,i=1,2之间的关联程度,其值记为R(wm,Ii);步骤4:利用步骤3中获得的R(wm,Ii),构造似然比λ(I);步骤5:根据λ(I)的计算结果判断句子是否存在双关含义。

【技术特征摘要】
1.一种基于似然比估计的英语双关语识别方法,其特征在于,包括如下步骤:
步骤1:通过软件读取需识别的英语句子;
步骤2:提取步骤1中句子的双关词语和所有实词,分别记为h和wm,m=1,2,...,M,其中
双关词语h包含的两层含义分别记为I1和I2;
步骤3:统计各个实词wm,m=1,2,...,M与双关词语含义Ii,i=1,2之间的关联程度,其
值记为R(wm,Ii);
步骤4:利用步骤3中获得的R(wm,Ii),构造似然比λ(I);
步骤5:根据λ(I)的计算结果判断句子是否存在双关含义。
2.根据权利要求1所述的一种基于似然比估计的英语双关语识别方法,其特征在于,步
骤1中所述软件由Matlab或者VisualC++实现。
3.根据权利要求1所述的一种基于似然比估计的英语双关语识别方法,其特征在于,步
骤2还包括:人工建立包含词语词性和双关词语的语料库并存储在计算机,通过计算机查询
语料库来提取双关词语和所有实词。
4.根据权...

【专利技术属性】
技术研发人员:邹航王月芳孔令璇李瑞刘树英戴继生
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1