一种从Web网页中获取汉语简称的方法技术

技术编号:8387175 阅读:254 留言:0更新日期:2013-03-07 07:49
本发明专利技术涉及一种从Web网页中获取汉语简称的方法,包括输入已知全称,选择查询模式来构造查询项,提交查询项到Google中获取锚文本,再从锚文本中获取全简称语料,最后利用提取算法提取候选简称,并利用优先级综合函数对候选简称进行排序;其中涉及的查询模式有三种,对应的提取简称的提取算法有两种。本发明专利技术还定义了全简称关系的约束,包括一组约束公理和一组约束函数,其中约束公理定性地表示全称和简称之间的约束,约束函数集定量地表示了全称和简称之间的约束,并基于全简称约束提出了一种全简称的分类方法。本发明专利技术还定义了全简称关系图,提出了一种基于全简称关系图和全简称关系约束的联合验证方法。

【技术实现步骤摘要】

本专利技术涉及中文信息处理和信息检索领域的简称获取技术,尤其涉及,从Web网页上获取多学科、大规模、高准确率的汉语简称的方法。
技术介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要问题。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着计算机和互联网的广泛应用,计算机可处理的自然语言文本数量空前增长,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理的对象也从小规模受限语言处理转向大规模真实文本处理,其研究必将对人们的生活产生深远的影响。中文信息处理是研究如何利用计算机对汉语信息进行自动处理。汉语是一门意合语言,和西方语言相比,缺少显式的标记,语法、语义、语用方面也更加灵活,增加了计算机理解和处理的难度,要让计算机能够处理中文信息,尚有许多困难需要克服。目前,中文信息处理已经在语音识别、分词、机器翻译等领域取得了一些成果。中文信息自动化处理程度的提升,将对我国的科技、文化、经济、安全等带来可观的效益。信息检索研究如何从纷繁复杂的大量信息中快速、准确获取所需信息的技术。信息检索技术经过多年的发展,目前已经相当成熟本文档来自技高网...

【技术保护点】
一种从Web网页中获取汉语简称的方法,其特征在于:包括一下步骤:步骤1、输入一个给定的汉语全称Fn;步骤2、选择查询模式来构造查询项,将查询项提交到Google搜索引擎中搜索,保存前N项锚文本作为锚语料;步骤3、通过正则表达式,从锚语料中获取出包含查询项的全简称关系的句子,保存下来作为全简称语料;步骤4、利用简称提取算法EAN从全简称语料中提取出候选简称,形成候选简称集合;步骤5、对候选简称集合进行基于全简称关系约束的分类,从而形成带有类别标注的候选简称集合;步骤6、对候选简称集合进行基于全简称关系约束和全简称关系图的联合验证,从而形成简称集合;步骤7、对简称集合中同类型的简称进行优先级排序,...

【技术特征摘要】

【专利技术属性】
技术研发人员:王石丁远钧符建辉王卫民
申请(专利权)人:镇江诺尼基智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1