数据搜索方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:36826725 阅读:16 留言:0更新日期:2023-03-12 01:29
本发明专利技术涉及数据搜索技术,揭露一种数据搜索方法,包括:获取预设数据库中每张数据表的高频搜索记录,标记每个所述高频搜索记录在对应数据表中的位置信息;对所述高频搜索记录执行分词操作,得到高频分词;以所述高频分词为索引,创建由所述高频分词及对应的高频搜索记录的位置信息构成的分词索引表;接收用户输入的待搜索文本,识别所述待搜索文本的关键字;在所述分词索引表中,查询与所述关键字匹配的高频分词对应的位置信息,获取查询到的位置信息对应的数据作为搜索结果。本发明专利技术还提出一种数据搜索方法、电子设备以及计算机可读存储介质。本发明专利技术可以提升数据搜索效率。本发明专利技术可以提升数据搜索效率。本发明专利技术可以提升数据搜索效率。

【技术实现步骤摘要】
数据搜索方法、装置、电子设备及计算机可读存储介质


[0001]本专利技术涉及数据搜索
,尤其涉及一种数据搜索方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]数据搜索能力对于某些专业类网站或系统是十分重要的能力,例如,企业信息查询系统,通过该系统提供的数据搜索功能,可以查询到目标企业的各类相关信息。
[0003]根据查询条件对数据库数据进行遍历是较为常见的数据搜索方法,但当系统存在大量的数据表时,如果根据查询条件对所有数据表中所有记录和查询条件进行一一比对,然后返回满足条件的记录,这样会造成大量磁盘I/O操作,导致最终数据查询效率低下,影响用户体验。因此,如何提升数据搜索能力是非常关键的问题。

技术实现思路

[0004]本专利技术提供一种数据搜索方法、装置、电子设备及计算机可读存储介质,其主要目的在于提升数据搜索效率。
[0005]为实现上述目的,本专利技术提供的一种数据搜索方法,包括:
[0006]获取预设数据库中每张数据表的高频搜索记录,标记每个所述高频搜索记录在对应数据表中的位置信息;
[0007]对所述高频搜索记录执行分词操作,得到高频分词;
[0008]以所述高频分词为索引,创建由所述高频分词及对应的高频搜索记录的位置信息构成的分词索引表;
[0009]接收用户输入的待搜索文本,识别所述待搜索文本的关键字;
[0010]在所述分词索引表中,查询与所述关键字匹配的高频分词对应的位置信息,获取查询到的位置信息对应的数据作为搜索结果。
[0011]可选地,所述获取预设数据库中每张数据表中的高频搜索记录,包括:
[0012]获取所述预设数据库的预设时间段内的操作日志;
[0013]根据所述操作日志,依次统计每张所述数据表中每条数据记录被操作的操作次数;
[0014]选取所述操作次数大于或等于预设操作阈值的字段作为对应数据表的高频搜索记录。
[0015]可选地,所述对所述高频搜索记录执行分词操作,得到高频分词,包括:
[0016]利用不少于两种分词算法,对所述高频搜索记录进行分词,得到每种分词算法对应的分词结果;
[0017]将不同分词结果中交集部分的分词作为已确定分词,将不同分词结果中非交集部分的分词作为待定分词;
[0018]将所述待定分词中含有相同字符且在所述高频搜索记录中的位置相邻的分词作
为比对组;
[0019]依次计算每个所述比对组中每个分词相对于所述高频搜索记录的信息损失;
[0020]选取所述信息损失最大的分词作为对应比对组的已确定分词,汇集所有已确定分词作为所述高频分词。
[0021]可选地,所述依次计算每个所述比对组中每个分词相对于所述高频搜索记录的信息损失,包括:
[0022]依次以每个所述比对组中的每个分词作为目标分词,在所述高频搜索记录中剔除所述目标分词后得到对比字段;
[0023]对所述高频搜索记录进行向量转换,得到高频搜索记录向量矩阵,对所述对比字段进行向量转换,得到对比字段向量矩阵;
[0024]计算所述高频搜索记录向量矩阵与所述对比字段向量矩阵之间的距离,将所述距离作为对应目标分词相对于所述高频搜索记录的信息损失。
[0025]可选地,所述识别所述待搜索文本的关键字,包括:
[0026]根据预设的业务规则,对所述待搜索文本进行正则判断;
[0027]当所述搜索文本符合正则判断时,将正则判断的输出结果作为所述待搜索文本的关键字;
[0028]当所述搜索文本不符合正则判断时,对所述待搜索文本进行分词,得到一个或一个以上的待搜索分词;
[0029]生成每个所述待搜索分词的词向量及所述待搜索文本的文本向量矩阵;
[0030]根据每个所述待搜索分词的词向量及所述待搜索文本的文本向量矩阵,依次计算每个所述待搜索分词的关键值;
[0031]选择所述关键值满足预设关键值条件的待搜索分词作为所述待搜索文本的关键字。
[0032]可选地,所述根据每个所述待搜索分词的词向量及所述待搜索文本的文本向量矩阵,依次计算每个所述待搜索分词的关键值,包括:
[0033]利用如下关键值算法计算每个所述待搜索分词的关键值:
[0034][0035]其中,K为所述关键值,|W|为所述待搜索文本的文本向量矩阵,T为矩阵转置符号,||为求模符号,为所述待搜索分词的词向量。
[0036]为了解决上述问题,本专利技术还提供一种数据搜索方法,所述装置包括:
[0037]高频搜索记录获取模块,用于获取预设数据库中每张数据表的高频搜索记录,标记每个所述高频搜索记录在对应数据表中的位置信息;
[0038]分词索引表创建模块,用于对所述高频搜索记录执行分词操作,得到高频分词,以所述高频分词为索引,创建由所述高频分词及对应的高频搜索记录的位置信息构成的分词索引表;
[0039]基于索引表的数据搜索模块,用于接收用户输入的待搜索文本,识别所述待搜索文本的关键字,在所述分词索引表中,查询与所述关键字匹配的高频分词对应的位置信息,获取查询到的位置信息对应的数据作为搜索结果。
[0040]可选地,所述索引表创建模块通过下述操作对所述高频搜索记录执行分词操作:
[0041]利用不少于两种分词算法,对所述高频搜索记录进行分词,得到每种分词算法对应的分词结果;
[0042]将不同分词结果中交集部分的分词作为已确定分词,将不同分词结果中非交集部分的分词作为待定分词;
[0043]将所述待定分词中含有相同字符且在所述高频搜索记录中的位置相邻的分词作为比对组;
[0044]依次计算每个所述比对组中每个分词相对于所述高频搜索记录的信息损失;
[0045]选取所述信息损失最大的分词作为对应比对组的已确定分词,汇集所有已确定分词作为所述高频分词。
[0046]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0047]存储器,存储至少一个计算机程序;及
[0048]处理器,执行所述存储器中存储的程序以实现上述所述的数据搜索方法。
[0049]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的数据搜索方法。
[0050]本专利技术实施例,通过对高频搜索记录进行分词,得到高频分词,创建由高频分词为索引的分词索引表,在将待搜索文本对应的关键字与分词索引表中的高频分词进行匹配,获取与所述关键字匹配的高频分词指向的数据位置信息,根据获取到的位置信息得到搜索结果,这种操作方式,一方面在数据搜索过程中,利用分词索引表直接获取精准数据,无需遍历每张数据表的数据记录,提升数据搜索效率,另一方面,利用待搜索文本的关键字与分词索引表中的高频分词进行匹配,可以精准数据搜索比对对象,提升数据搜索效率。...

【技术保护点】

【技术特征摘要】
1.一种数据搜索方法,其特征在于,所述方法包括:获取预设数据库中每张数据表的高频搜索记录,标记每个所述高频搜索记录在对应数据表中的位置信息;对所述高频搜索记录执行分词操作,得到高频分词;以所述高频分词为索引,创建由所述高频分词及对应的高频搜索记录的位置信息构成的分词索引表;接收用户输入的待搜索文本,识别所述待搜索文本的关键字;在所述分词索引表中,查询与所述关键字匹配的高频分词对应的位置信息,获取查询到的位置信息对应的数据作为搜索结果。2.如权利要求1所述的数据搜索方法,其特征在于,所述获取预设数据库中每张数据表中的高频搜索记录,包括:获取所述预设数据库的预设时间段内的操作日志;根据所述操作日志,依次统计每张所述数据表中每条数据记录被操作的操作次数;选取所述操作次数大于或等于预设操作阈值的字段作为对应数据表的高频搜索记录。3.如权利要求1所述的数据搜索方法,其特征在于,所述对所述高频搜索记录执行分词操作,得到高频分词,包括:利用不少于两种分词算法,对所述高频搜索记录进行分词,得到每种分词算法对应的分词结果;将不同分词结果中交集部分的分词作为已确定分词,将不同分词结果中非交集部分的分词作为待定分词;将所述待定分词中含有相同字符且在所述高频搜索记录中的位置相邻的分词作为比对组;依次计算每个所述比对组中每个分词相对于所述高频搜索记录的信息损失;选取所述信息损失最大的分词作为对应比对组的已确定分词,汇集所有已确定分词作为所述高频分词。4.如权利要求3所述的数据搜索方法,其特征在于,所述依次计算每个所述比对组中每个分词相对于所述高频搜索记录的信息损失,包括:依次以每个所述比对组中的每个分词作为目标分词,在所述高频搜索记录中剔除所述目标分词后得到对比字段;对所述高频搜索记录进行向量转换,得到高频搜索记录向量矩阵,对所述对比字段进行向量转换,得到对比字段向量矩阵;计算所述高频搜索记录向量矩阵与所述对比字段向量矩阵之间的距离,将所述距离作为对应目标分词相对于所述高频搜索记录的信息损失。5.如权利要求1所述的数据搜索方法,其特征在于,所述识别所述待搜索文本的关键字,包括:根据预设的业务规则,对所述待搜索文本进行正则判断;当所述搜索文本符合正则判断时,将正则判断的输出结果作为所述待搜索文本的关键字;当所述搜索文本不符合正则判断时,对所述待搜索文本进行分词,得到一个或一个以
上的待搜索分词;生成每个所述待搜...

【专利技术属性】
技术研发人员:黄敏周伟杰熊善良蔡文笔韦有朋洪丰
申请(专利权)人:北京海卓飞网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1