当前位置: 首页 > 专利查询>浙江大学专利>正文

基于广义后缀树的中文搜索引擎模糊自动补全方法技术

技术编号:5997850 阅读:571 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于广义后缀树的中文搜索引擎模糊自动补全方法,包括步骤一:建立词的广义后缀树索引,利用现有的建立后缀树的方法,对中文词库中的所有词建立广义后缀树索引;步骤二:计算字的相似度;步骤三:计算相似度接近的词的权重值;步骤四:模糊自动补全。本发明专利技术依据中文语境中以字为单位的特点,利用广义后缀树能够高效的保存词库中所有词的后缀,根据相似度权重,在计算机上实现了中文搜索引擎的模糊自动补全,从而增强了计算机中文自动补全的功能和适用性。本方法中的模糊自动补全,不仅可以支持传统的中文前缀补全,而且能够支持中文的任意中缀补全。

【技术实现步骤摘要】

本专利技术涉及计算机搜索引擎技术,尤其是一种基于广义后缀树的中文搜索引擎模 糊自动补全方法。
技术介绍
近年来,搜索引擎因其能够在几乎无限的资源中为广大用户找到所需的信息而越 来越受到重视。优秀的搜索引擎也不断涌现,如Google,Baidu等。在搜索引擎系统中, 自动补全是一项非常有用的技术。当用户在搜索框输入字符串的前缀时,自动补全接口能 够立刻返回与该前缀匹配的候选词集合。比如Google Suggest能够为用户提供查询补全, Facebook能够为用户提供好友查询补全。但是主流搜索引擎如G00gle,Baidu所提供的是 精确自动补全,当用户键入的字符串没有错误时,这种方法工作良好,如果用户在键入字符 串时发生错误,精确自动补全便不能为用户提供候选词。针对上述不足,微软已经提出了 一种基于字典的后缀树(Suffix tree)模糊自动补全方法,能够处理英文语境下单词的模 糊匹配,当用户在键入字符串时发生了小错误,用户期望的字符串仍能被自动补全。所述 后缀树的概念最早由W^einer于1973年提出,既而由McCreight在1976年和Ukkonen在 1992年和199本文档来自技高网...

【技术保护点】
一种基于广义后缀树的中文搜索引擎模糊自动补全方法,其特征在于包括以下步骤:步骤一:建立词的广义后缀树索引利用现有的建立后缀树的方法,对中文词库中的所有词建立广义后缀树索引;步骤二:计算字的相似度对于GBK编码中的每个中文字进行预处理,计算每个字两两之间的音形相似度sim(c↓[i],c↓[j]),将计算结果以数组的形式存储于音形相似度数据库中;计算每个字两两之间的字形相似度sim(c↓[i],c↓[j]),将计算结果以数组的形式存储于字形相似度数据库中;步骤三:计算相似度接近的词的权重值依据用户输入的中文字符串,在步骤二所述的音形相似度数据库和/或字形相似度数据库中查找相似度接近的词,计算这些...

【技术特征摘要】

【专利技术属性】
技术研发人员:吴朝晖冯叶磊姜晓红
申请(专利权)人:浙江大学
类型:发明
国别省市:86

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1