【技术实现步骤摘要】
本专利技术涉及计算机搜索引擎技术,尤其是一种基于广义后缀树的中文搜索引擎模 糊自动补全方法。
技术介绍
近年来,搜索引擎因其能够在几乎无限的资源中为广大用户找到所需的信息而越 来越受到重视。优秀的搜索引擎也不断涌现,如Google,Baidu等。在搜索引擎系统中, 自动补全是一项非常有用的技术。当用户在搜索框输入字符串的前缀时,自动补全接口能 够立刻返回与该前缀匹配的候选词集合。比如Google Suggest能够为用户提供查询补全, Facebook能够为用户提供好友查询补全。但是主流搜索引擎如G00gle,Baidu所提供的是 精确自动补全,当用户键入的字符串没有错误时,这种方法工作良好,如果用户在键入字符 串时发生错误,精确自动补全便不能为用户提供候选词。针对上述不足,微软已经提出了 一种基于字典的后缀树(Suffix tree)模糊自动补全方法,能够处理英文语境下单词的模 糊匹配,当用户在键入字符串时发生了小错误,用户期望的字符串仍能被自动补全。所述 后缀树的概念最早由W^einer于1973年提出,既而由McCreight在1976年和Ukkonen在 ...
【技术保护点】
一种基于广义后缀树的中文搜索引擎模糊自动补全方法,其特征在于包括以下步骤:步骤一:建立词的广义后缀树索引利用现有的建立后缀树的方法,对中文词库中的所有词建立广义后缀树索引;步骤二:计算字的相似度对于GBK编码中的每个中文字进行预处理,计算每个字两两之间的音形相似度sim(c↓[i],c↓[j]),将计算结果以数组的形式存储于音形相似度数据库中;计算每个字两两之间的字形相似度sim(c↓[i],c↓[j]),将计算结果以数组的形式存储于字形相似度数据库中;步骤三:计算相似度接近的词的权重值依据用户输入的中文字符串,在步骤二所述的音形相似度数据库和/或字形相似度数据库中查找相似 ...
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。