当前位置: 首页 > 专利查询>清华大学专利>正文

一种汉语缩略语自动发现的方法及装置制造方法及图纸

技术编号:9718697 阅读:134 留言:0更新日期:2014-02-27 05:24
本发明专利技术提供一种汉语缩略语自动发现的方法,包括:对预置训练集上的“原语-缩略语”对进行统计,得到“原语-缩略语”的统计集合;对于统计集合中的每个“原语-缩略语”对,将“原语-缩略语”对转化成相应的缩略模式,并对于每个原语,得到其各个缩略模式对应的概率;对于缩略语未知的原语,利用对应长度的缩略模式集合,生成缩略语候选,并且为每一个候选缩略语赋以缩略模式的概率值;将每一个原语作为查询在二部图上拓展得到一个相关查询列表,相关查询列表以相似性降序排列;对于每一个通过缩略语候选,基于相关查询列表对缩略语候选进行验证,计算缩略语候选的候选分数;选取候选分数最高的缩略语候选作为原语的缩略语。

【技术实现步骤摘要】
一种汉语缩略语自动发现的方法及装置
本专利技术涉及自然语言处理领域,,尤其是一种汉语缩略语自动发现的方法及装置。
技术介绍
由于自然语言具有经济性的原则,缩略语在日常生活中被广泛使用,如“北京大学“简称“北大”。缩略语是未登录词的主要来源之一,统计结果表明,新闻标题中大约有20%的句子会使用缩略语。缩略语的自动发现是自然语言处理的重要课题,它能提高自动分词和标注的准确率,还可以提升机器翻译、自动问答和信息检索等相关系统的性能。缩略语通常是指在由一个或者多个词经过压缩和变序而形成的长度缩短,意义不变特殊词,压缩之前的原始形式,称为缩略语的原语。汉语的缩略方式较为复杂和多样,语言学认为主要是的构成方式有四种:语素构成:抽取原词语各部分的语素来替代原词语。如:信息科学技术研究院一信研院中心词构成:抽取原词语中的核心成分。如:中国人民解放军一解放军混合法构成:语素、词和音节混合。如:广播体操一广播操合并法构成:将原词语通过合并的手段简缩而成。如:“全国人民代表大会”和“中国人民政治协商会议” 一两会大多数缩略语都由前三种方式构成,采用合并法构成的缩略语仅占很小的比例。缩略语的自动识别对于多种自然语言的应用都具有重要的意义,但是也面临着很多的困难,主要是训练语料较少,识别准确率较低。
技术实现思路
(一)要解决的技术问题本专利技术的目的是,提供一种汉语缩略语自动发现的方法及装置,从而得到准确率较高的缩略语结果,实现缩略语的自动发现。(二)技术方案为解决上述技术问题,本专利技术提供一种汉语缩略语自动发现的方法,包括:SlOl、对预置训练集上的“原语-缩略语”对进行统计,得到“原语-缩略语”的统计集合;S102、对于所述统计集合中的每个“原语-缩略语”对,将所述“原语-缩略语”对转化成相应的缩略模式,并对于每个原语,得到其各个缩略模式对应的概率;S103、对于缩略语未知的原语,利用对应长度的缩略模式集合,生成缩略语候选,并且为每一个候选缩略语赋以缩略模式的概率值;S104、将每一个原语作为查询在二部图上拓展得到一个相关查询列表,所述相关查询列表以相似性降序排列;S105、对于每一个通过S103步得到的缩略语候选,基于第S104步得到的相关查询列表对所述缩略语候选进行验证,计算所述缩略语候选的候选分数;S106、选取候选分数最高的缩略语候选作为原语的缩略语。其中,所述SlOl中“原语-缩略语”对通过以下步骤得到:在预置训练集上选取一待匹配原语,基于预置匹配模板通过正则表达式对所述待匹配原语进行匹配,得到所述待匹配原语的多个缩略语,并生成“原语-缩略语”对。具体的,所述S103中缩略模式对应的概率通过以下公式计算得到:本文档来自技高网...

【技术保护点】
一种汉语缩略语自动发现的方法,其特征在于,包括:S101、对预置训练集上的“原语?缩略语”对进行统计,得到“原语?缩略语”的统计集合;S102、对于所述统计集合中的每个“原语?缩略语”对,将所述“原语?缩略语”对转化成相应的缩略模式,并对于每个原语,得到其各个缩略模式对应的概率;S103、对于缩略语未知的原语,利用对应长度的缩略模式集合,生成缩略语候选,并且为每一个候选缩略语赋以缩略模式的概率值;S104、将每一个原语作为查询在二部图上拓展得到一个相关查询列表,所述相关查询列表以相似性降序排列;S105、对于每一个通过S103步得到的缩略语候选,基于第S104步得到的相关查询列表对所述缩略语候选进行验证,计算所述缩略语候选的候选分数;S106、选取候选分数最高的缩略语候选作为原语的缩略语。

【技术特征摘要】
1.一种汉语缩略语自动发现的方法,其特征在于,包括: 5101、对预置训练集上的“原语-缩略语”对进行统计,得到“原语-缩略语”的统计集合; 5102、对于所述统计集合中的每个“原语-缩略语”对,将所述“原语-缩略语”对转化成相应的缩略模式,并对于每个原语,得到其各个缩略模式对应的概率; 5103、对于缩略语未知的原语,利用对应长度的缩略模式集合,生成缩略语候选,并且为每一个候选缩略语赋以缩略模式的概率值; 5104、将每一个原语作为查询在二部图上拓展得到一个相关查询列表,所述相关查询列表以相似性降序排列; 5105、对于每一个通过S103步得到的缩略语候选,基于第S104步得到的相关查询列表对所述缩略语候选进行验证,计算所述缩略语候选的候选分数; 5106、选取候选分数最高的缩略语候选作为原语的缩略语。2.根据权利要求1所述的汉语缩略语自动发现的方法,其特征在于,所述SlOl中“原语-缩略语”对通过以下步骤得到: 在预置训练集上选取一待匹配原语,基于预置匹配模板通过正则表达式对所述待匹配原语进行匹配,得到所述待匹配原语的多个缩略语,并生成“原语-缩略语”对。3.根据权利要求1所述的汉语缩略语自动发现的方法,其特征在于,所述S103中缩略模式对应的概率通过以下公式 计算得到: 4.根据权利要求1所述的汉语缩略语自动发现的方法,其特征在于,所述S104包括: 基于预置训练集的查询日志,获取”<query>〈URL>〈times>”式样的数据;其中query表示用户提交给搜索引擎的查询,URL表示用户提交查询后点击的次数,times表示在查询日志中提交query并点击URL这样的行为发生的次数总和; 基于上述获取的数据,构建“查询-链接” 二部图,并记录所述二部图中每个节点所对应的后继节点以及边的权重; 选取所述二部图中某一查询节点作为待拓展查询节点,通过遍历获取所述待拓展查询节点偶数步可达的所有查询节点,并计算所述待拓展查询节点相应的转移概率;以及,重复上述待拓展查询节点的转移概率计算过程,直至所述二部图中所有查询节点的转移概率均被计算; 对所有查询节点的转移概率由大到小进行排序,生成相似查询列表,并删除所述相似查询列表中小于预置阈值的转移概率,得到最终相似查询列表。5.根据权利要求1所述的汉语缩略语自动发现的方法,其特征在于,所述S105通过以下公式计算缩略语候选的候选分数: 6.一种汉语缩略语自动发现的装置,其特征...

【专利技术属性】
技术研发人员:罗成张敏刘奕群马少平金奕江
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1