模糊搜索优化方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:30794239 阅读:24 留言:0更新日期:2021-11-16 07:58
本申请提供一种模糊搜索优化方法、装置、电子设备和可读存储介质,针对号码库中的各个已存号码,将已存号码按预设位数进行移位分词处理,得到至少一个第一类索引词,再将已存号码进行倒序处理,得到第二类索引词。此外,将已存号码作为第三类索引词,并将至少一个第一类索引词、第二类索引词和第三类索引词,构成已存号码对应的待搜索词集。本方案中,可以按实际应用场景进行分词,避免现有的进行全量分词存在的占用过多存储空间的问题,且通过倒序处理,可在匹配时避免由于不同号码类别在前缀上的差异对匹配造成的干扰,如此,可在避免占用过多空间的基础上,保障后续的检索准确性、快捷性。捷性。捷性。

【技术实现步骤摘要】
模糊搜索优化方法、装置、电子设备和可读存储介质


[0001]本专利技术涉及计算机模糊搜索
,具体而言,涉及一种模糊搜索优化方法、装置、电子设备和可读存储介质。

技术介绍

[0002]在数据的搜索处理领域中,主要包括全文搜索方式和模糊搜索方式,其中,全文搜索方式主要是对每一个词建立一个索引,指明该词在词库中的位置以及出现的次数。当用户查询时,检索程序根据事先建立的索引进行查找,并将查找的结果反馈给用户。而模糊搜索方式允许被搜索信息和搜索提问之间存在一定的差异,即做到搜索内容和被匹配内容做到部分的匹配。
[0003]目前,在对于号码查询搜索处理中,由于号码的表达形式各种各样,对于查询检索造成困扰。现有的常用处理方式包括,例如将所有的号码进行标准化处理后进行存储,以供查询检索。这种方式需要明确知道各个号码所属的地区,否则难以做到准确的标准化处理。此外,还有采用利用如Elastic search的正则模糊搜索方式,这种方式存在搜索效率低下、搜索缓慢的缺陷。另外,还有采用n

gram的分词处理得到全量的分词结果,以供查询搜索的方式。这种方式会产生大量的额外数据,导致占用大量的存储空间的问题。

技术实现思路

[0004]本专利技术的目的包括,例如,提供了一种模糊搜索优化方法、装置、电子设备和可读存储介质,其能够避免占用过多存储资源的情况下保障检索的准确性和快捷性。
[0005]本专利技术的实施例可以这样实现:
[0006]第一方面,本专利技术提供一种模糊搜索优化方法,所述方法包括:
[0007]针对号码库中的各个已存号码,将所述已存号码按预设位数进行移位分词处理,得到至少一个第一类索引词;
[0008]将所述已存号码进行倒序处理,得到第二类索引词;
[0009]将所述已存号码作为第三类索引词,并将所述至少一个第一类索引词、第二类索引词和第三类索引词,构成所述已存号码对应的待搜索词集。
[0010]在可选的实施方式中,所述方法还包括:
[0011]获取待搜索号码;
[0012]将所述待搜索号码进行倒序处理,得到倒序号码;
[0013]基于所述待搜索号码和倒序号码,对所述号码库中各所述待搜索词集包含的索引词进行匹配,得到匹配结果。
[0014]在可选的实施方式中,各所述已存号码包含多个元素;
[0015]所述将所述已存号码按预设位数进行移位分词处理,得到至少一个第一类索引词的步骤之前,所述方法还包括:
[0016]识别出所述已存号码中包含的多个元素中的字符元素;
[0017]将所述已存号码中除各个字符元素之外的其他元素删除;
[0018]将删除处理后剩余的各个字符元素按原本在所述已存号码中的顺序进行拼接组合。
[0019]在可选的实施方式中,所述将所述已存号码按预设位数进行移位分词处理,得到至少一个第一类索引词的步骤,包括:
[0020]将所述已存号码按从右到左的顺序,依次按预设最小位数到预设最大位数的分词方式对所述已存号码进行移位分词处理,得到至少一个第一类索引词;
[0021]其中,所述预设最小位数和所述预设最大位数为根据所述号码库中包含的所有已存号码各自的位数所确定。
[0022]在可选的实施方式中,所述基于所述待搜索号码和倒序号码,对所述号码库中各所述待搜索词集包含的索引词进行匹配,得到匹配结果的步骤,包括:
[0023]在所述倒序号码的末尾添加预设后缀信息;
[0024]基于添加预设后缀信息后的倒序号码以及所述待搜索号码,对所述号码库中各所述待搜索词集包含的索引词进行匹配,得到匹配结果。
[0025]在可选的实施方式中,所述预设后缀信息为对预设前缀信息进行倒序处理后得到,所述预设前缀信息包括各个地区的区号在不同表示形式下的信息。
[0026]在可选的实施方式中,所述将所述待搜索号码进行倒序处理的步骤之前,所述方法还包括:
[0027]识别出所述待搜索号码中包含的字符元素;
[0028]将所述待搜索号码中除所述字符元素之外的其他元素删除;
[0029]将删除处理后剩余的字符元素按原本在所述待搜索号码中的顺序进行拼接组合。
[0030]第二方面,本专利技术提供一种模糊搜索优化装置,所述装置包括:
[0031]第一处理模块,用于针对号码库中的各个已存号码,将所述已存号码按预设位数进行移位分词处理,得到至少一个第一类索引词;
[0032]第二处理模块,用于将所述已存号码进行倒序处理,得到第二类索引词;
[0033]构成模块,用于将所述已存号码作为第三类索引词,并将所述至少一个第一类索引词、第二类索引词和第三类索引词,构成所述已存号码对应的待搜索词集。
[0034]第三方面,本专利技术提供一种电子设备,包括一个或多个存储介质和一个或多个与存储介质通信的处理器,一个或多个存储介质存储有处理器可执行的机器可执行指令,当电子设备运行时,处理器执行所述机器可执行指令,以执行前述实施方式中任意一项所述的方法步骤。
[0035]第四方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有机器可执行指令,所述机器可执行指令被执行时实现前述实施方式中任意一项所述的方法步骤。
[0036]本专利技术实施例的有益效果包括,例如:
[0037]本申请提供一种模糊搜索优化方法、装置、电子设备和可读存储介质,针对号码库中的各个已存号码,将已存号码按预设位数进行移位分词处理,得到至少一个第一类索引词,再将已存号码进行倒序处理,得到第二类索引词。此外,将已存号码作为第三类索引词,并将至少一个第一类索引词、第二类索引词和第三类索引词,构成已存号码对应的待搜索
词集。本方案中,通过按预设位数进行移位分词处理的方式,可以按实际应用场景进行分词,避免现有的进行全量分词存在的占用过多存储空间的问题,并且,进行倒序处理,可以在匹配时避免由于不同号码类别在前缀上的差异对匹配造成的干扰,如此,结合倒序得到的索引词、分词处理的索引词以及原本的号码构成待搜索词集,在避免占用过多空间的基础上,保障后续的检索准确性、快捷性。
附图说明
[0038]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0039]图1为本申请实施例提供的模糊搜索优化方法的流程图;
[0040]图2为本申请实施例提供的模糊搜索优化方法中,元素滤除方法的流程图;
[0041]图3为本申请实施例提供的模糊搜索优化方法的另一流程图;
[0042]图4为本申请实施例提供的模糊搜索优化方法中,元素滤除方法的另一流程图;
[0043]图5为图3中步骤S230包含的子步骤的流程图;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模糊搜索优化方法,其特征在于,所述方法包括:针对号码库中的各个已存号码,将所述已存号码按预设位数进行移位分词处理,得到至少一个第一类索引词;将所述已存号码进行倒序处理,得到第二类索引词;将所述已存号码作为第三类索引词,并将所述至少一个第一类索引词、第二类索引词和第三类索引词,构成所述已存号码对应的待搜索词集。2.根据权利要求1所述的模糊搜索优化方法,其特征在于,所述方法还包括:获取待搜索号码;将所述待搜索号码进行倒序处理,得到倒序号码;基于所述待搜索号码和倒序号码,对所述号码库中各所述待搜索词集包含的索引词进行匹配,得到匹配结果。3.根据权利要求1所述的模糊搜索优化方法,其特征在于,各所述已存号码包含多个元素;所述将所述已存号码按预设位数进行移位分词处理,得到至少一个第一类索引词的步骤之前,所述方法还包括:识别出所述已存号码中包含的多个元素中的字符元素;将所述已存号码中除各个字符元素之外的其他元素删除;将删除处理后剩余的各个字符元素按原本在所述已存号码中的顺序进行拼接组合。4.根据权利要求1所述的模糊搜索优化方法,其特征在于,所述将所述已存号码按预设位数进行移位分词处理,得到至少一个第一类索引词的步骤,包括:将所述已存号码按从右到左的顺序,依次按预设最小位数到预设最大位数的分词方式对所述已存号码进行移位分词处理,得到至少一个第一类索引词;其中,所述预设最小位数和所述预设最大位数为根据所述号码库中包含的所有已存号码各自的位数所确定。5.根据权利要求2所述的模糊搜索优化方法,其特征在于,所述基于所述待搜索号码和倒序号码,对所述号码库中各所述待搜索词集包含的索引词进行匹配,得到匹配结果的步骤,包括:在所述...

【专利技术属性】
技术研发人员:岳永鹏周行柴千祥
申请(专利权)人:成都知道创宇信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1