用于模糊搜索的优化方法、优化装置及存储介质制造方法及图纸

技术编号:37793501 阅读:21 留言:0更新日期:2023-06-09 09:23
本申请公开了一种用于模糊搜索的优化方法、优化装置及存储介质。该优化方法包括:分别获取输入的查询字符串和知识库存储的多个文档字符串;将查询字符串进行分词以得到多个查询子字符串;将多个文档字符串的任意文档字符串进行分词以得到任意文档字符串的多个文档子字符串;对于任意文档子字符串,判断查询字符串是否存在与任意文档子字符串无模糊相似度的目标查询子字符串;在查询字符串存在与任意文档子字符串无模糊相似度的目标查询子字符串的情况下,将目标查询子字符串替换为空,并且将目标查询子字符串与任意文档子字符串的编辑距离确定为预设值。本申请减少了模糊搜索返回错误结果的情况,并且可以提高模糊搜索的效率。的效率。的效率。

【技术实现步骤摘要】
用于模糊搜索的优化方法、优化装置及存储介质


[0001]本申请涉及计算机
,具体地涉及一种用于模糊搜索的优化方法、优化装置及存储介质。

技术介绍

[0002]搜索引擎技术已成为信息资源获取的重要手段之一。而搜索可以被简单划分为“模糊搜索”与“精准搜索”。模糊搜索是指搜索系统自动按照用户输入关键词的同义词或字符串的相似度进行模糊检索,从而得出较多的检索结果。现有技术中的模糊搜索技术一般包括查询、编辑距离计算、排序和输出结果这几步。例如,先按照段落中字符串的长度对查询串依次进行划分,得到查询串子串集合,当段落内的字符串与查询串中的字符串相匹配时,则该字符串对应索引的原字符串的匹配度加上该字符串的长度,当该字符串的匹配度大于预设上界值时,且该位置列表没有重复的元素时,则将该字符串添加到结果集合中,否则,则对该字符串进行编辑距离验证;当该字符串的匹配度小于预设下界值时,则直接过滤掉该字符串;当该字符串的匹配度在预设下界值与预设上界值时,则对该字符串进行编辑距离验证。现有技术中是直接通过查询相关子串计算编辑距离,缺乏语义信息,可能会存在虽然字符相同本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于模糊搜索的优化方法,其特征在于,所述优化方法包括:分别获取输入的查询字符串和知识库存储的多个文档字符串;将所述查询字符串进行分词以得到多个查询子字符串;将所述多个文档字符串的任意文档字符串进行分词以得到所述任意文档字符串的多个文档子字符串;对于任意文档子字符串,判断所述查询字符串是否存在与所述任意文档子字符串无模糊相似度的目标查询子字符串;在所述查询字符串存在与所述任意文档子字符串无模糊相似度的目标查询子字符串的情况下,将所述目标查询子字符串替换为空,并且将所述目标查询子字符串与所述任意文档子字符串的编辑距离确定为预设值。2.根据权利要求1所述的优化方法,其特征在于,所述多个查询子字符串和所述任意文档字符串的多个文档子字符串均包括分词数组和词性数组,所述词性数组和所述分词数组一一对应。3.根据权利要求2所述的优化方法,其特征在于,所述判断所述查询字符串是否存在与所述任意文档子字符串无模糊相似度的目标查询子字符串包括以下中至少一者:根据所述多个查询子字符串与所述任意文档字符串的多个文档子字符串的分词数组和词性数组,判断所述查询字符串是否存在与所述任意文档子字符串的字符匹配但词性不同的查询子字符串;在所述查询字符串存在与所述任意文档子字符串的字符匹配但词性不同的查询子字符串的情况下,判定所述查询字符串存在与所述任意文档子字符串无模糊相似度的目标查询子字符串;或者获取所述查询字符串与所述任意文档字符串的实体集;根据所述分词数组、所述词性数组和所述实体集判断所述查询字符串是否存在与所述任意文档子字符串的字符匹配、词性相同但实体类型不同的查询子字符串;在所述查询字符串存在与所述任意文档子字符串的字符匹配、词性相同但实体类型不同的查询子字符串的情况下,判定所述查询字符串存在与所述任意文档子字符串无模糊相似度的目标查询子字符串;或者获取所述查询字符串与所述任意文档字符串的实体集以及所述知识库的同义词表;根据所述分词数组、所述词性数组、所述实体集和所述同义词表判断所述查询字符串是否存在与所述任意文档子字符串的字符匹配、词性相同、实体类型相同但非同义词的查询子字符串;在所述查询字符串存在与所述任意文档子字符串的字符匹配、词性相同、实体类型相同但非同义词的查询子字符串的情况下,判定所述查询字符串存在与所述任意文档子字符串无模糊相似度的目标查询子字符串。4.根据权利要求3所述的优化方法,其特征在于,所述根据所述多个查询子字符串与所述任意文档字符串的多个文档子字符串的分词数组和词性数组,判断所述查询字符串是否存在与所述任意文档子字符串的字符匹配但词性不同的查询子字符串包括:根据所述多个查询子字符串与所述任意文档字符串的多个文档子字符串的分词数组,判断所述查询字符串是否存在与所述任意文档子字符串有交集的字符;在所述查询字符串存在与所述任意文档子字符串有交集的字符的情况下,获取相似查询子字符串和相似文档子字符串;根据所述多个查询子字符串与所述任意文档字符串的多个文档子字符串的词性数组,
判断所述相似查询子字符串和所述相似文档子字符串是否词性相同;在所述相似查询子字符串和所述相似文档子字符串词性不同的情况下,判...

【专利技术属性】
技术研发人员:周阳廖登周志忠童兴张泽群
申请(专利权)人:中科云谷科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1