一种基于似然比估计的英语双关语识别方法技术

技术编号：14563646 阅读：144 留言：0更新日期：2017-02-05 20:34

本发明专利技术公开了一种基于似然比估计的英语双关语识别方法，包括：步骤1：通过软件读取需识别的英语句子；步骤2：提取步骤1中句子的双关词语和所有实词，分别记为h和wm,m＝1,2,...,M，其中双关词语h包含的两层含义分别记为I1和I2；步骤3：统计各个实词wm,m＝1,2,...,M与双关词语含义Ii,i＝1,2之间的关联程度，其值记为R(wm,Ii)，所述R(wm,Ii)的值事先通过调查问卷的方式进行统计得出；步骤4：利用步骤3中获得的R(wm,Ii)，构造似然比λ(I)；步骤5：根据λ(I)的计算结果判断句子是否存在双关含义，当λ(I)的值接近于0时，判定该句子有双关含义，否则判定改句子没有双关含义。本发明专利技术提出了一种能准确量化语句歧义性并识别双关语的概率计算方法，解决了传统方法无法准确定量分析双关含义的缺陷。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理领域，涉及英语双关语的识别，具体地说是一种基于似然比估计的英语双关语识别方法。
技术介绍
近年来，计算语言学的兴起，为语言学的研究和发展注入了新的活力，也为双关语的研究提供了一条崭新的途径。计算语言学通常借助于概率统计方法，以计算机技术为手段，从大规模真实文本中获取有用的统计信息。有关国内学者利用统计方法进行双关语的研究成果较少，在文献：赵会军,双关语语用翻译量化模型,外语研究135(5)(2012)72-76中，提出一种较为简单的双关语语用翻译量化模型，这是国内学者将计算语言学和人工智能技术应用于双关语翻译工作中的一次有益尝试。国外学者大多数将词语不调和性的定量分析作为双关语识别研究的重点，然而目前学术界对词语不调和性的衡量尚未有一个严格准确的标准，这种不确定性为双关语的识别分析带来诸多不利因素。目前处于主流的双关语识别方法未能为双关语分析和识别提供一个通用的计算认知理论。基于计算语言学的双关语识别研究尚处于起步阶段，无论是其特征提取、计算模型设计还是理论分析方法方面都有待进一步改善和发展。
技术实现思路
为了解决上述问题，本专利技术利用一个适用于分析双关词语不调和性的概率计算模型，提出了一种基于似然比估计的英语双关语识别方法，该方法能自动实现英语双关语的快速识别。采用的技术方案如下：一种基于似然比估计的英语双关语识别方法，包括如下步骤：步骤1：通过软件读取需识别的英语句子...

【技术保护点】
一种基于似然比估计的英语双关语识别方法，其特征在于，包括如下步骤：步骤1：通过软件读取需识别的英语句子；步骤2：提取步骤1中句子的双关词语和所有实词，分别记为h和wm,m＝1,2,...,M，其中双关词语h包含的两层含义分别记为I1和I2；步骤3：统计各个实词wm,m＝1,2,...,M与双关词语含义Ii,i＝1,2之间的关联程度，其值记为R(wm,Ii)；步骤4：利用步骤3中获得的R(wm,Ii)，构造似然比λ(I)；步骤5：根据λ(I)的计算结果判断句子是否存在双关含义。

【技术特征摘要】
1.一种基于似然比估计的英语双关语识别方法，其特征在于，包括如下步骤：
步骤1：通过软件读取需识别的英语句子；
步骤2：提取步骤1中句子的双关词语和所有实词，分别记为h和wm,m＝1,2,...,M，其中
双关词语h包含的两层含义分别记为I1和I2；
步骤3：统计各个实词wm,m＝1,2,...,M与双关词语含义Ii,i＝1,2之间的关联程度，其
值记为R(wm,Ii)；
步骤4：利用步骤3中获得的R(wm,Ii)，构造似然比λ(I)；
步骤5：根据λ(I)的计算结果判断句子是否存在双关含义。
2.根据权利要求1所述的一种基于似然比估计的英语双关语识别方法，其特征在于，步
骤1中所述软件由Matlab或者VisualC++实现。
3.根据权利要求1所述的一种基于似然比估计的英语双关语识别方法，其特征在于，步
骤2还包括：人工建立包含词语词性和双关词语的语料库并存储在计算机，通过计算机查询
语料库来提取双关词语和所有实词。
4.根据权...

【专利技术属性】
技术研发人员：邹航，王月芳，孔令璇，李瑞，刘树英，戴继生，
申请(专利权)人：江苏大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人