【技术实现步骤摘要】
本专利技术涉及中文信息处理和信息检索领域的简称获取技术,尤其涉及,从Web网页上获取多学科、大规模、高准确率的汉语简称的方法。
技术介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要问题。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着计算机和互联网的广泛应用,计算机可处理的自然语言文本数量空前增长,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理的对象也从小规模受限语言处理转向大规模真实文本处理,其研究必将对人们的生活产生深远的影响。中文信息处理是研究如何利用计算机对汉语信息进行自动处理。汉语是一门意合语言,和西方语言相比,缺少显式的标记,语法、语义、语用方面也更加灵活,增加了计算机理解和处理的难度,要让计算机能够处理中文信息,尚有许多困难需要克服。目前,中文信息处理已经在语音识别、分词、机器翻译等领域取得了一些成果。中文信息自动化处理程度的提升,将对我国的科技、文化、经济、安全等带来可观的效益。信息检索研究如何从纷繁复杂的大量信息中快速、准确获取所需信息的技术。信息检索技术经过多年的发 ...
【技术保护点】
一种从Web网页中获取汉语简称的方法,其特征在于:包括一下步骤:步骤1、输入一个给定的汉语全称Fn;步骤2、选择查询模式来构造查询项,将查询项提交到Google搜索引擎中搜索,保存前N项锚文本作为锚语料;步骤3、通过正则表达式,从锚语料中获取出包含查询项的全简称关系的句子,保存下来作为全简称语料;步骤4、利用简称提取算法EAN从全简称语料中提取出候选简称,形成候选简称集合;步骤5、对候选简称集合进行基于全简称关系约束的分类,从而形成带有类别标注的候选简称集合;步骤6、对候选简称集合进行基于全简称关系约束和全简称关系图的联合验证,从而形成简称集合;步骤7、对简称集合中同类型的 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:王石,丁远钧,符建辉,王卫民,
申请(专利权)人:镇江诺尼基智能技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。