一种数据搜索方法和装置制造方法及图纸

技术编号:28750583 阅读:23 留言:0更新日期:2021-06-09 10:14
本发明专利技术公开了一种数据搜索方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:从搜索文本中提取至少一个目标关键词,分别计算所述至少一个目标关键词与设定的多个基准字段之间的匹配率;比较所述匹配率与设定第一阈值的大小,在存在所述匹配率小于所述第一阈值的情况下,利用层次分析法计算所述多个基准字段对应的权重;根据所述权重修正所述匹配率,以按照修正后的匹配率,对所述多个基准字段进行排序,得到搜索结果。该方法使用层次分词法计算基准字段对应的权重,利用权重修正匹配率,以基于修正后的匹配率确定搜索结果,提高了搜索结果的准确性。提高了搜索结果的准确性。提高了搜索结果的准确性。

【技术实现步骤摘要】
一种数据搜索方法和装置


[0001]本专利技术涉及计算机领域,尤其涉及一种数据搜索方法和装置。

技术介绍

[0002]数据搜索是信息领域非常核心的功能,通过搜索可以迅速定位到用户所需要的信息。现有技术中,系统应用的搜索排序算法一般是使用ElasticSearch这个企业级搜索引擎实现的。其中,ElasticSearch是一个分布式、高扩展、高实时的搜索与数据分析引擎,使用Java语言开发,能很方便的使大量数据具有搜索、分析和探索的能力。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]ElasticSearch以文本关键词的频率作为搜索的唯一依据,搜索结果的准确性较低。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种数据搜索方法和装置,使用层次分词法计算基准字段对应的权重,利用权重修正匹配率,以基于修正后的匹配率确定搜索结果,提高了搜索结果的准确性。
[0006]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种数据搜索方法。
[0007]本专利技术实施例的一种数据搜索方法,包括:从搜索文本中提取至少一个目标关键词,分别计算所述至少一个目标关键词与设定的多个基准字段之间的匹配率;比较所述匹配率与设定第一阈值的大小,在存在所述匹配率小于所述第一阈值的情况下,利用层次分析法计算所述多个基准字段对应的权重;根据所述权重修正所述匹配率,以按照修正后的匹配率,对所述多个基准字段进行排序,得到搜索结果。
[0008]可选地,利用层次分析法计算所述多个基准字段对应的权重,包括:建立层次结构模型,其中,所述层次结构模型包括目标层、准则层和方案层,所述目标层的总目标为比重程度,所述准则层为所述多个基准字段,所述方案层为权重;对同一层的元素关于上一层中单个准则的重要性进行两两比较,以构造判断比较矩阵;对所述判断比较矩阵进行归一化处理,得到特征向量,以根据所述特征向量计算所述多个基准字段的权重。
[0009]可选地,所述方法还包括:校验所述判断比较矩阵的一致性,以根据一致性校验结果调整所述判断比较矩阵;对所述判断比较矩阵进行归一化处理,包括:对调整后的所述判断比较矩阵进行归一化处理。
[0010]可选地,校验所述判断比较矩阵的一致性,包括:根据所述判断比较矩阵和所述特征向量,计算所述判断比较矩阵的最大特征值和一致性指标;将所述一致性指标与设定第二阈值比较,以根据比较结果确定所述判断比较矩阵的一致性。
[0011]可选地,根据所述权重修正所述匹配率,包括:将所述多个基准字段的权重与对应的所述匹配率相乘,得到所述修正后的匹配率。
[0012]可选地,计算所述至少一个目标关键词与设定的一个基准字段之间的匹配率,包
括:分别计算每个目标关键词在所述基准字段中出现的频率,以及在所述多个基准字段的逆向文件频率;将每个所述目标关键词在所述基准字段中出现的频率和对应的所述逆向文件频率相乘后求和,得到所述至少一个目标关键词与所述基准字段之间的匹配率。
[0013]可选地,从搜索文本中提取至少一个目标关键词,包括:对搜索文本进行预处理,得到多个候选关键词;构建候选关键词图,以迭代计算所述多个候选关键词的权重;其中,所述候选关键词图包括由所述多个候选关键词组成的节点集,和采用共现关系构造的节点之间的边集;根据所述多个候选关键词的权重大小,从所述多个候选关键词中选取至少一个目标关键词。
[0014]为实现上述目的,根据本专利技术实施例的另一方面,提供了一种数据搜索装置。
[0015]本专利技术实施例的一种数据搜索装置,包括:匹配率计算模块,用于从搜索文本中提取至少一个目标关键词,分别计算所述至少一个目标关键词与设定的多个基准字段之间的匹配率;权重计算模块,用于比较所述匹配率与设定第一阈值的大小,在存在所述匹配率小于所述第一阈值的情况下,利用层次分析法计算所述多个基准字段对应的权重;修正排序模块,用于根据所述权重修正所述匹配率,以按照修正后的匹配率,对所述多个基准字段进行排序,得到搜索结果。
[0016]可选地,所述权重计算模块,还用于:建立层次结构模型,其中,所述层次结构模型包括目标层、准则层和方案层,所述目标层的总目标为比重程度,所述准则层为所述多个基准字段,所述方案层为权重;对同一层的元素关于上一层中单个准则的重要性进行两两比较,以构造判断比较矩阵;对所述判断比较矩阵进行归一化处理,得到特征向量,以根据所述特征向量计算所述多个基准字段的权重。
[0017]可选地,所述装置还包括:校验调整模块,用于校验所述判断比较矩阵的一致性,以根据一致性校验结果调整所述判断比较矩阵;所述权重计算模块,还用于:对调整后的所述判断比较矩阵进行归一化处理。
[0018]可选地,所述权重计算模块,还用于:根据所述判断比较矩阵和所述特征向量,计算所述判断比较矩阵的最大特征值和一致性指标;将所述一致性指标与设定第二阈值比较,以根据比较结果确定所述判断比较矩阵的一致性。
[0019]可选地,所述修正排序模块,还用于:将所述多个基准字段的权重与对应的所述匹配率相乘,得到所述修正后的匹配率。
[0020]可选地,所述匹配率计算模块,还用于:分别计算每个目标关键词在所述基准字段中出现的频率,以及在所述多个基准字段的逆向文件频率;将每个所述目标关键词在所述基准字段中出现的频率和对应的所述逆向文件频率相乘后求和,得到所述至少一个目标关键词与所述基准字段之间的匹配率。
[0021]可选地,所述匹配率计算模块,还用于:对搜索文本进行预处理,得到多个候选关键词;构建候选关键词图,以迭代计算所述多个候选关键词的权重;其中,所述候选关键词图包括由所述多个候选关键词组成的节点集,和采用共现关系构造的节点之间的边集;根据所述多个候选关键词的权重大小,从所述多个候选关键词中选取至少一个目标关键词。
[0022]为实现上述目的,根据本专利技术实施例的再一方面,提供了一种电子设备。
[0023]本专利技术实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多
个处理器实现本专利技术实施例的一种数据搜索方法。
[0024]为实现上述目的,根据本专利技术实施例的再一方面,提供了一种计算机可读介质。
[0025]本专利技术实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术实施例的一种数据搜索方法。
[0026]上述专利技术中的一个实施例具有如下优点或有益效果:使用层次分词法计算基准字段对应的权重,利用权重修正匹配率,以基于修正后的匹配率确定搜索结果,提高了搜索结果的准确性;通过层次分析法对各基准字段的重要性构建判断比较矩阵,并进行归一化处理,进而得出各基准字段对应的权重,将层次分析法与搜索场景关联,提升搜索结果的准确性、灵活性;对于一致性校验未通过的判断比较矩阵进行调整,进一步保证搜索结果的准确性。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据搜索方法,其特征在于,包括:从搜索文本中提取至少一个目标关键词,分别计算所述至少一个目标关键词与设定的多个基准字段之间的匹配率;比较所述匹配率与设定第一阈值的大小,在存在所述匹配率小于所述第一阈值的情况下,利用层次分析法计算所述多个基准字段对应的权重;根据所述权重修正所述匹配率,以按照修正后的匹配率,对所述多个基准字段进行排序,得到搜索结果。2.根据权利要求1所述的方法,其特征在于,利用层次分析法计算所述多个基准字段对应的权重,包括:建立层次结构模型,其中,所述层次结构模型包括目标层、准则层和方案层,所述目标层的总目标为比重程度,所述准则层为所述多个基准字段,所述方案层为权重;对同一层的元素关于上一层中单个准则的重要性进行两两比较,以构造判断比较矩阵;对所述判断比较矩阵进行归一化处理,得到特征向量,以根据所述特征向量计算所述多个基准字段的权重。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:校验所述判断比较矩阵的一致性,以根据一致性校验结果调整所述判断比较矩阵;对所述判断比较矩阵进行归一化处理,包括:对调整后的所述判断比较矩阵进行归一化处理。4.根据权利要求3所述的方法,其特征在于,校验所述判断比较矩阵的一致性,包括:根据所述判断比较矩阵和所述特征向量,计算所述判断比较矩阵的最大特征值和一致性指标;将所述一致性指标与设定第二阈值比较,以根据比较结果确定所述判断比较矩阵的一致性。5.根据权利要求1所述方法,其特征在于,根据所述权重修正所述匹配率,包括:将所述多个基准字段的权重与对应的所述匹配率相乘,得到所述修正后的匹配率。6.根据权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:张斌赵苗苗
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1