本发明专利技术涉及一种从Web网页中获取汉语简称的方法,包括输入已知全称,选择查询模式来构造查询项,提交查询项到Google中获取锚文本,再从锚文本中获取全简称语料,最后利用提取算法提取候选简称,并利用优先级综合函数对候选简称进行排序;其中涉及的查询模式有三种,对应的提取简称的提取算法有两种。本发明专利技术还定义了全简称关系的约束,包括一组约束公理和一组约束函数,其中约束公理定性地表示全称和简称之间的约束,约束函数集定量地表示了全称和简称之间的约束,并基于全简称约束提出了一种全简称的分类方法。本发明专利技术还定义了全简称关系图,提出了一种基于全简称关系图和全简称关系约束的联合验证方法。
【技术实现步骤摘要】
本专利技术涉及中文信息处理和信息检索领域的简称获取技术,尤其涉及,从Web网页上获取多学科、大规模、高准确率的汉语简称的方法。
技术介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要问题。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着计算机和互联网的广泛应用,计算机可处理的自然语言文本数量空前增长,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理的对象也从小规模受限语言处理转向大规模真实文本处理,其研究必将对人们的生活产生深远的影响。中文信息处理是研究如何利用计算机对汉语信息进行自动处理。汉语是一门意合语言,和西方语言相比,缺少显式的标记,语法、语义、语用方面也更加灵活,增加了计算机理解和处理的难度,要让计算机能够处理中文信息,尚有许多困难需要克服。目前,中文信息处理已经在语音识别、分词、机器翻译等领域取得了一些成果。中文信息自动化处理程度的提升,将对我国的科技、文化、经济、安全等带来可观的效益。信息检索研究如何从纷繁复杂的大量信息中快速、准确获取所需信息的技术。信息检索技术经过多年的发展,目前已经相当成熟,新型信息检索技术正朝智能化、动态化、多样化、个性化等方向发展。全称(Full Name,Fn)是对名称的完整称呼,简称(Abbreviation,An)是为了表达的简洁明快,而对全称进行精简压缩后得到的称呼,若Fn和An具有全简称关系,则称Fn为An的全称,An为Fn的简称,记作FA (Fn7An)0由全称到简称,可以看作是一个信息量的压缩过程,由简称到全称,则可以看作是一个解压的过程,例如对Cl= “中国科学院计算技术研究所”进行压缩,得到c2= “中国科学院计算所”,再对c2进行压缩,得到c3= “中科院计算所”,对c3解压得到c2,再对c2解压得到Cl。全称和简称都是相对的概念,比如在上例中,c2相对于Cl是简称,但相对于c3却是全称,单独讲c2是全称或简称都是没有意义的。全简称关系获取作为文本知识获取(Knowledge Acquisition from Text,KAT)和信息检索等应用中一个基本而又关键的问题,其获取方法可以分为两大类一类是基于模式的方法,主要利用语言学和自然语言处理技术,通过词法分析和语法分析提取关系模式,然后利用模式匹配获取全简称关系,该方法准确率依赖于语言学知识和模式库;另一类是基于统计的方法,主要基于语料库和统计语言模型,通过计算概念之间的关联度来获取全简称关系,该方法准确率和效率难以达到理想的实用要求。全简称关系的获取问题又可以从两个角度来看一个是挖掘的角度,就是在没有外界输入的条件下获取全简称对 ’另一个是查找的角度,就是已知全称找简称或已知简称找全称。本专利技术中所提到的“全称”或“简称”,如无特别说明,均指汉语全称或汉语简称。
技术实现思路
针对现有的全简称关系获取技术中具有的局限性或者准确率不高的缺陷,本专利技术提供一种准确率高且适用于多学科、超大规模的。为了解决上述问题,本专利技术提供了,包括一下步骤 步骤I、输入一个给定的汉语全称Fn ; 步骤2、选择查询模式来构造查询项,将查询项提交到Google搜索引擎中搜索,保存前N项锚文本作为锚语料; 步骤3、通过正则表达式,从锚语料中获取出包含查询项的全简称关系的句子,保存下来作为全简称语料; 步骤4、利用简称提取算法EAN从全简称语料中提取出候选简称,形成候选简称集合;步骤5、对候选简称集合进行基于全简称关系约束的分类,从而形成带有类别标注的候选简称集合; 步骤6、对候选简称集合进行基于全简称关系约束和全简称关系图的联合验证,从而形成简称集合; 步骤7、对简称集合中同类型的简称进行优先级排序,从而形成带有类别标注的有序简称集合。上述技术方案中,在所述的步骤2中,所述的查询模式包括三种查询模式I :“Fn简称”,查询模式2 :“Fn*简称”,查询模式3 全称Fn”。查询模式2是对查询模式I的扩充,我们在“Fn”和“简称”之间加入了一个““”在Google查询中可以匹配任何一个词。因为网页中往往会出现“窦性心律(以下简称窦律)”之类的语料,这种语料用查询模式I无法检索到,但利用查询模式2就能检索到。我们以4000个汉语Fn做实验,其中用查询模式I能获取到An的占64. 65%,用查询模式2能获取到An的占61. 18%,用查询模式3能获取到An的占21. 02%,用查询模式I或查询模式2能获取到An的占82. 51%,用查询模式1、2、3能获取到An的占84. 10%。因此,为了提高查询效率,我们优先选择查询模式1,其次查询模式2,最后查询模式3。上述技术方案中,在所述的步骤4中,简称提取算法(EAN)包括两个算法CAEAl和CAEA2,当步骤2中选择查询模式I或查询模式2时,步骤4中采用CAEAl来提取An,当步骤2中选择查询模式3时,步骤4中采用CAEA2来提取An。上述技术方案中,在所述的步骤6中,若简称集合为空,且步骤2中还有查询模式可供选择,则重新执行步骤2—7 ;如果简称集合为空,同时步骤2中没有可供选择的查询模式,则退出,表明不能从Web上搜索到所给定全称的简称。上述技术方案中,在所述的步骤6中,全简称关系约束是一个四元组R= (Fn, An, F,A),其中,Fn是全称,An是Fn的简称,F是Fn和An之间的约束函数集,A是Fn和An必须满足的约束公理集。约束函数集定量地表示Fn和An之间的约束,约束公理集定性地表示Fn和An之间的约束。下文中将进一步对这两种约束进行解释。上述技术方案中,在所述的步骤6中,全简称关系图FAG (Fullnameand Abbreviation Graph)是一个四兀组,即 FAG= (F,A, E, f),其中,权利要求1.,其特征在于包括一下步骤 步骤I、输入一个给定的汉语全称Fn ; 步骤2、选择查询模式来构造查询项,将查询项提交到Google搜索引擎中搜索,保存前N项锚文本作为锚语料; 步骤3、通过正则表达式,从锚语料中获取出包含查询项的全简称关系的句子,保存下来作为全简称语料; 步骤4、利用简称提取算法EAN从全简称语料中提取出候选简称,形成候选简称集合;步骤5、对候选简称集合进行基于全简称关系约束的分类,从而形成带有类别标注的候选简称集合; 步骤6、对候选简称集合进行基于全简称关系约束和全简称关系图的联合验证,从而形成简称集合; 步骤7、对简称集合中同类型的简称进行优先级排序,从而形成带有类别标注的有序简称集合。2.根据权利要求I所述的,其特征在于在所述步骤2中,若Google返回的查询结果>100条,则N取100,否则N取Google返回的查询结果的条数。3.根据权利要求I所述的,其特征在于上述步骤2中,所述的查询模式包括三种查询模式I :“Fn简称”,查询模式2 :“Fn*简称”,查询模式3 全称Fn” ;查询模式2是对查询模式I的扩充,在“Fn”和“简称”之间加入了一个在Google查询中可以匹配任何一个词;因为网页中往往会出现“窦性心律”之类的语料,这种语料用查询模式I无法检索到,但利用查询模式2就能检索到;查询顺序为先选择查询模式1,其本文档来自技高网...
【技术保护点】
一种从Web网页中获取汉语简称的方法,其特征在于:包括一下步骤:步骤1、输入一个给定的汉语全称Fn;步骤2、选择查询模式来构造查询项,将查询项提交到Google搜索引擎中搜索,保存前N项锚文本作为锚语料;步骤3、通过正则表达式,从锚语料中获取出包含查询项的全简称关系的句子,保存下来作为全简称语料;步骤4、利用简称提取算法EAN从全简称语料中提取出候选简称,形成候选简称集合;步骤5、对候选简称集合进行基于全简称关系约束的分类,从而形成带有类别标注的候选简称集合;步骤6、对候选简称集合进行基于全简称关系约束和全简称关系图的联合验证,从而形成简称集合;步骤7、对简称集合中同类型的简称进行优先级排序,从而形成带有类别标注的有序简称集合。
【技术特征摘要】
【专利技术属性】
技术研发人员:王石,丁远钧,符建辉,王卫民,
申请(专利权)人:镇江诺尼基智能技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。