一种搜索处理方法及装置制造方法及图纸

技术编号:14290670 阅读:46 留言:0更新日期:2016-12-25 20:58
本发明专利技术公开了一种搜索处理方法及装置,所述方法包括,根据接收的检索字符串,生成若干与所述检索字符串具有预定编辑距离的备选字符串;分别利用备选词库的字典树查找所述备选字符串;如果查找到所述备选字符串,则作为推荐检索字符串提供给用户。本方法根据预设的编辑距离生成数量可控的备选字符串,因此算法计算量较为恒定,不会随备选词库的字符串数量的增加而增长;并且生成的备选字符串无需与备选词库中的字符串逐一计算编辑距离,而是利用搜索速度较快的字典树对备选字符串进行进一步筛选后获得推荐检索字符串,提高了检索处理速度。

【技术实现步骤摘要】

本专利技术涉及互联网
,特别是涉及一种搜索处理方法及装置
技术介绍
现有的搜索系统主要是根据用户输入的检索字符串(或称关键词)在互联网中进行相关的信息检索。在实际使用中,用户输入的字符串有时会不完整或出现个别字符输入错误,从而导致其与检索词库中保存的备选字符串无法完全匹配,这时就需要对用户输入的字符串进行模糊匹配,找出与其相近的检索频率更高的备选字符串推荐给用户进行检索。例如当用户输入字符串“中国人明解放军”时,系统进行模糊匹配后,会提示用户想要检索的是否为“中国人民解放军”。现有的最常用的基于模糊匹配的搜索方法为,从检索词库中挑出部分备选字符串,与用户输入的检索字符串逐一计算最小编辑距离(Edit Distance),从而找出与所述检索字符串的编辑距离最短,并且搜索频率较高的备选字符串。这里解释一下两个字符串间的编辑距离,设AB是两个字符串。对A做如下操作:从A中删除一个字符;向A中插入一个字符;将A中的一个字符替换为另一个字符。通过上述三类操作,将字符串A编辑成字符串B所需的最小操作数称为A和B的最小编辑距离。但是这种搜索方法当备选字符串较多时,由于需要逐一与备选字符串计算最小编辑距离,因此运算量较大,导致系统响应时间过长,影响用户体验。
技术实现思路
本专利技术实施例提供了一种搜索处理方法及装置,以解决现有技术中的搜索处理方法当备选字符串数量较多时,需要将检索字符串逐一与备选字符串计算最小编辑距离,因此运算量较大,导致系统响应时间过长,影响用户体验的问题。为了解决上述技术问题,本专利技术实施例公开了如下技术方案:一方面,提供了一种检索方法,所述方法包括:一种搜索处理方法,其特征在于,所述方法包括:根据接收的检索字符串,生成若干与所述检索字符串具有预定编辑距离的备选字符串;分别利用备选词库的字典树查找所述备选字符串;如果查找到所述备选字符串,则作为推荐检索字符串提供给用户。可选的,所述方法还包括:根据所述备选词库建立字典树,所述字典树的节点存储有指向子节点的地址指针数组,所述数组中的地址指针的值分别与所述子节点对应的字符的编码值相同;所述分别利用备选词库的字典树查找所述备选字符串包括:在所述字典树中依次查找所述备选字符串包含的字符,以待查找字符的编码值作为当前节点的地址指针的查询索引。可选的,所述根据备选词库建立字典树之前,所述方法还包括:根据所述备选词库中的字符串获得所述字符串对应的完备字符集合;将所述完备字符集合中的各字符分别编码,以使所述字符的编码值为从预设值开始连续变化的整数,所述预设值为大于等于1的整数。可选的,所述生成若干与所述检索字符串具有预定编辑距离的备选字符串包括:预定义备选字符集合,预设编辑距离;根据所述备选字符集合和所述编辑距离对所述检索字符串进行如下编辑操作中的至少一个,生成与所述检索字符串具有所述编辑距离的备选字符串:在所述检索字符串中插入至少一个字符,所述至少一个字符为所述备选字符集合中的字符;将所述检索字符串中的至少一个字符替换成所述备选字符集合中的字符;将所述检索字符串中的至少一个字符删除。可选的,所述根据接收的检索字符串,生成若干与所述检索字符串具有预定编辑距离的备选字符串包括:若需要删除所述检索字符串中的目标字符时,以预设的自定义字符替换所述目标字符;所述分别利用备选词库的字典树查找所述备选字符串包括:当查找至所述目标字符串中的自定义字符时,忽略所述自定义字符后,继续查找与所述自定义字符相邻的下一个字符。可选的,所述如果查找到所述备选字符串,则作为推荐检索字符串提供给用户包括:如果查找到至少两个所述备选字符串,则根据所述备选字符串的权重从所述备选字符串中选择所述推荐检索字符串提供给用户。可选的,所述根据所述备选字符串的权重从所述备选字符串中选择所述推荐检索字符串提供给用户包括:根据备选字符串在用户的检索历史记录中出现的频率,或根据备选字符串在预设的备选检索资料中出现的频率,从所述备选字符串中选择所述推荐检索字符串提供给用户。另一方面,提供了一种搜索处理装置,所述装置包括:生成单元,用于根据接收的检索字符串,生成若干与所述检索字符串具有预定编辑距离的备选字符串;查找单元,用于分别利用备选词库的字典树查找所述备选字符串;推荐单元,用于如果查找到所述备选字符串,则作为推荐检索字符串提供给用户。可选的,所述装置还包括:建立单元,用于根据所述备选词库建立字典树,所述字典树的节点存储有指向子节点的地址指针数组,所述数组中的地址指针的值分别与所述子节点对应的字符的编码值相同;所述查找单元具体用于在所述字典树中依次查找所述备选字符串包含的字符,以待查找字符的编码值作为当前节点的地址指针的查询索引。可选的,所述装置还包括:获得单元,用于根据所述备选词库中的字符串获得所述字符串对应的完备字符集合;编码单元,用于将所述完备字符集合中的各字符分别编码,以使所述字符的编码值为从预设值开始连续变化的整数,所述预设值为大于等于1的整数。可选的,所述生成单元包括:预定义子单元,用于预定义备选字符集合,以及预设编辑距离;编辑子单元,用于根据所述备选字符集合和所述编辑距离对所述检索字符串进行编辑操作,生成与所述检索字符串具有所述编辑距离的备选字符串,所述编辑子单元至少包括一个如下子单元:插入编辑子单元,用于在所述检索字符串中插入至少一个字符,所述至少一个字符为所述备选字符集合中的字符;替换编辑子单元,用于将所述检索字符串中的至少一个字符替换成所述备选字符集合中的字符;删除编辑子单元,用于将所述检索字符串中的至少一个字符删除。可选的,所述生成单元具体用于若需要删除所述检索字符串中的目标字符时,以预
设的自定义字符替换所述目标字符;所述查找单元具体用于当查找至所述目标字符串中的自定义字符时,忽略所述自定义字符后,继续查找与所述自定义字符相邻的下一个字符。可选的,所述推荐单元包括:权重推荐子单元,用于如果查找到至少两个所述备选字符串,则根据所述备选字符串的权重从所述备选字符串中选择所述推荐检索字符串提供给用户。可选的,所述权重推荐子单元,具体用于根据备选字符串在用户的检索历史记录中出现的频率,或根据备选字符串在预设的备选检索资料中出现的频率,从所述备选字符串中选择所述推荐检索字符串提供给用户。上述技术方案提供的检索方法及装置,首先根据接收的检索字符串,生成若干与所述检索字符串具有预定编辑距离的备选字符串,再分别利用备选词库的字典树查找所述备选字符串,如果查找到所述备选字符串,则作为推荐检索字符串提供给用户。本方案根据预设的编辑距离生成数量可控的备选字符串,因此算法计算量较为恒定,不会随备选词库的字符串数量的增加而增长;并且生成的备选字符串无需与备选词库中的字符串逐一计算编辑距离,而是利用搜索速度较快的字典树对备选字符串进行进一步筛选后获得推荐检索字符串,提高了检索处理速度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种搜索处理方法提供的一个实施例的流程示意图;图2为字典树的结构示意图;图3为本发本文档来自技高网
...
一种搜索处理方法及装置

【技术保护点】
一种搜索处理方法,其特征在于,所述方法包括:根据接收的检索字符串,生成若干与所述检索字符串具有预定编辑距离的备选字符串;分别利用备选词库的字典树查找所述备选字符串;如果查找到所述备选字符串,则作为推荐检索字符串提供给用户。

【技术特征摘要】
1.一种搜索处理方法,其特征在于,所述方法包括:根据接收的检索字符串,生成若干与所述检索字符串具有预定编辑距离的备选字符串;分别利用备选词库的字典树查找所述备选字符串;如果查找到所述备选字符串,则作为推荐检索字符串提供给用户。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述备选词库建立字典树,所述字典树的节点存储有指向子节点的地址指针数组,所述数组中的地址指针的值分别与所述子节点对应的字符的编码值相同;所述分别利用备选词库的字典树查找所述备选字符串包括:在所述字典树中依次查找所述备选字符串包含的字符,以待查找字符的编码值作为当前节点的地址指针的查询索引。3.根据权利要求2所述的方法,其特征在于,所述根据备选词库建立字典树之前,所述方法还包括:根据所述备选词库中的字符串获得所述字符串对应的完备字符集合;将所述完备字符集合中的各字符分别编码,以使所述字符的编码值为从预设值开始连续变化的整数,所述预设值为大于等于1的整数。4.根据权利要求1至3任意一项所述的方法,其特征在于,所述生成若干与所述检索字符串具有预定编辑距离的备选字符串包括:预定义备选字符集合,预设编辑距离;根据所述备选字符集合和所述编辑距离对所述检索字符串进行如下编辑操作中的至少一个,生成与所述检索字符串具有所述编辑距离的备选字符串:在所述检索字符串中插入至少一个字符,所述至少一个字符为所述备选字符集合中的字符;将所述检索字符串中的至少一个字符替换成所述备选字符集合中的字符;将所述检索字符串中的至少一个字符删除。5.根据权利要求4所述的方法,其特征在于,所述根据接收的检索字符串,生成若干与所述检索字符串具有预定编辑距离的备选字符串包括:若需要删除所述检索字符串中的目标字符时,以预设的自定义字符替换所述目标字符;所述分别利用备选词库的字典树查找所述备选字符串包括:当查找至所述目标字符串中的自定义字符时,忽略所述自定义字符后,继续查找与所述自定义字符相邻的下一个字符。6.根据权利要求5所述的方法,其特征在于,所述如果查找到所述备选字符串,则作为推荐检索字符串提供给用户包括:如果查找到至少两个所述备选字符串,则根据所述备选字符串的权重从所述备选字符串中选择所述推荐检索字符串提供给用户。7.根据权利要求6所述的方法,其特征在于,所述根据所述备选字符串的权重从所述备选字符串中选择所述推荐检索字符串提供给用户包括:根据备选字符串在用户的检索历史记录中出现的频率,或根据备选字符串在预设的备选检索资料中出现的频率,从所述备选字符串中...

【专利技术属性】
技术研发人员:梁捷李富科
申请(专利权)人:广州爱九游信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1