一种数据查询方法、装置和计算设备制造方法及图纸

技术编号:24996277 阅读:21 留言:0更新日期:2020-07-24 17:58
本发明专利技术公开了一种数据查询方法,适于在计算设备中执行,该计算设备中存储有多个字符串集的数据索引,该数据索引包括一级目录和其下的至少一个二级目录,且每个二级目录都标记有所属的字符串集,该方法包括步骤:将待查询的目标字符串集划分为多个字符串片段,并将每个字符串片段划分为前缀片段和后缀片段;生成前缀片段的第一索引和后缀片段的第二索引,并在数据索引中查找以该第一索引为一级目录、以该第二索引为二级目录的多个候选字符串集;以及计算每个候选字符串集与目标字符串集具有相同目录表示的字符串片段个数,并将相同个数最多的候选字符串集作为目标字符串集的最相近字符串集。本发明专利技术公开了对应的数据查询装置和计算设备。

【技术实现步骤摘要】
一种数据查询方法、装置和计算设备
本专利技术涉及计算机和科学
,尤其涉及一种数据查询方法、装置和计算设备。
技术介绍
随着计算机和互联网技术的发展,中小学教育,乃至大学教育中的练习和考试题目均实现了电子化存储,并可上传到网络上供学生使用。而且,用户还可以将不懂的题目上传到平台上,以搜索与该题目最相近的题目进行学习。但目前的题目搜索引擎,仍无法为用户自动匹配出最准确最相近的题目,从而影响用户体验。因此,需要一种能够更精确的相近题目确定方法。
技术实现思路
鉴于上述问题,本专利技术提出了一种数据查询方法、装置和计算设备,以力图解决或者至少解决上面存在的问题。根据本专利技术的一个方面,提供了一种数据查询方法,适于在计算设备中执行,该计算设备中存储有多个字符串集的数据索引,该数据索引包括一级目录和其下的至少一个二级目录,且每个二级目录都标记有所属的字符串集,该方法包括步骤:将待查询的目标字符串集划分为多个字符串片段,并将每个字符串片段划分为前缀片段和后缀片段;生成前缀片段的第一索引和所述后缀片段的第二索引,并在数据索引中查找以该第一索引为一级目录、以该第二索引为二级目录的多个候选字符串集;以及计算每个候选字符串集与目标字符串集具有相同目录表示的字符串片段个数,并将相同个数最多的候选字符串集作为所述目标字符串集的最相近字符串集。可选地,在根据本专利技术的数据查询方法中,字符串集为试题,候选字符串集为候选试题。可选地,在根据本专利技术的数据查询方法中,数据索引表示为索引树。>可选地,在根据本专利技术的数据查询方法中,二级目录表示为键值对,其以二级目录的索引值为键、以包含该第一索引和第二索引组成的字符串的字符串集为值;其中该字符串集还标记有在该字符串集中出现该目录表示的次数,作为该字符串集的元素个数。可选地,在根据本专利技术的数据查询方法中,还包括步骤:统计每个一级目录下的所有二级目录的总元素个数,作为该一级目录的计数;当某个一级目录的计数达到第一阈值时,删除该一级目录下的所有二级目录,并将该一级目录标记为已删除。可选地,在根据本专利技术的数据查询方法中,还包括步骤:统计各一级目录下的每个二级目录的总元素个数,作为该二级目录的计数;当某二级目录的计数达到第二阈值时,将该二级目录下的所有字符串集删除,并用预设空值替换。可选地,在根据本专利技术的数据查询方法中,其中,被删除的一级目录标记有该一级目录的计数;被替换的二级目录标记有该二级目录的计数。可选地,在根据本专利技术的数据查询方法中,生成前缀片段的第一索引和后缀片段的第二索引,并在数据索引中查找以该第一索引为一级目录、以该第二索引为二级目录的多个候选字符串集的步骤包括:生成前缀片段的第一索引;若数据索引中存在以该第一索引命名的一级目录、且该一级目录未被标记为已删除,则生成后缀片段的第二索引;反之,则终止查找。可选地,在根据本专利技术的数据查询方法中,在生成后缀片段的第二索引之后,还包括步骤:在查找到的一级目录中继续查找以该第二索引命名的二级目录;若未查找到该二级目录,或者所查找的二级目录的值为预设空值,则终止查找。可选地,在根据本专利技术的数据查询方法中,计算每个候选字符串集与目标字符串集具有相同目录表示的字符串片段个数的步骤包括:每查找到一个候选字符串集,则判定该候选字符串集与所述目标字符串集具有一个相同的目录表示,并为该候选字符串集计数加1。可选地,在根据本专利技术的数据查询方法中,计算每个候选字符串集与目标字符串集具有相同目录表示的字符串片段个数的步骤包括:从索引树中统计每个候选字符串集所包含的目录表示集合;获取目标字符串集的目录表示集合,并将该集合与每个候选字符串集的目录表示集合对比,以确定其中具有相同目录表示的个数。可选地,在根据本专利技术的数据查询方法中,将待查询的目标字符串集划分为多个字符串片段的步骤包括:将目标字符串集进行分句处理,得到多个字符串;基于预定步长,从每个字符串提取多个字符串片段。可选地,在根据本专利技术的数据查询方法中,预定步长为1个字符,字符串片段的最大长度为4个字符、最小长度为3个字符,前缀片段的长度为2个字符。可选地,在根据本专利技术的数据查询方法中,第一索引和第二索引均为哈希索引,索引树为B+树。根据本专利技术的又一个方面,提供了一种数据查询装置,适于驻留在计算设备中,所述计算设备中存储有多个字符串集的数据索引,数据索引包括一级目录和其下的至少一个二级目录,且每个二级目录都标记有所属的字符串集,该装置包括:片段提取模块,适于将待查询的目标字符串集划分为多个字符串片段,并将每个字符串片段划分为前缀片段和后缀片段;候选集查询模块,适于生成前缀片段的第一索引和后缀片段的第二索引,并在数据索引中查找以该第一索引为一级目录、以该第二索引为二级目录的多个候选字符串集;以及相近集确定模块,适于计算每个候选字符串集与目标字符串集具有相同目录表示的字符串片段个数,并将相同个数最多的候选字符串集作为所述目标字符串集的最相近字符串集。根据本专利技术的又一个方面,提供了一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,该程序指令被配置为适于由所述至少一个处理器执行,程序指令包括用于执行如上所述的数据查询方法的指令。根据本专利技术的又一个方面,提供了一种存储有程序指令的可读存储介质,当该程序指令被计算设备读取并执行时,使得该计算设备执行如上所述的数据查询方法。根据本专利技术的技术方案,在内存中将字符串集(如一道试题)划分为多个字符串片段,并将每个字符串片段以一级目录和二级目录的索引结构表示,同时还标注该字符串片段所属的字符串集。对于某个待查询的目标字符串集,获取该字符串集的所有字符串片段及各片段的索引结构表示,然后去内存中查找包含这些索引表示的候选字符串集(如候选试题)。与目标字符串集具有相同字符串片段数目最多的,即为最相近字符串集。这种方式能够准确找到每个试题的最相近试题,进而可以从内存中查找所存储的该最相近试题的答案,便于用户学习。而且,本专利技术先将试题等字符串集进行分句处理,得到多个字符串后,再将每个字符串以预定移动步长,分割为多个字符串片段,优选四个字符长度,该四个字符中前两个为前缀片段,对应的索引值作为一级目录;后两个为后缀片段,对应的索引值作为二级目录,从而将一个字符串集精细划分为多个字符串片段的目录表示。附图说明为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。图1示出了根据本专利技术一个实施例的计算设备100的结构框图;图2示出了根据本专利技术一个实施例的数据查询方法200的流程图;以及图3示出了根据本专利技术一个实施例的数据查询装置300的结构图。具体实施方式<本文档来自技高网...

【技术保护点】
1.一种数据查询方法,适于在计算设备中执行,所述计算设备中存储有多个字符串集的数据索引,所述数据索引包括一级目录和其下的至少一个二级目录,且每个二级目录都标记有所属的字符串集,该方法包括步骤:/n将待查询的目标字符串集划分为多个字符串片段,并将每个字符串片段划分为前缀片段和后缀片段;/n生成所述前缀片段的第一索引和所述后缀片段的第二索引,并在所述数据索引中查找以该第一索引为一级目录、以该第二索引为二级目录的多个候选字符串集;以及/n计算每个候选字符串集与目标字符串集具有相同目录表示的字符串片段个数,并将相同个数最多的候选字符串集作为所述目标字符串集的最相近字符串集。/n

【技术特征摘要】
1.一种数据查询方法,适于在计算设备中执行,所述计算设备中存储有多个字符串集的数据索引,所述数据索引包括一级目录和其下的至少一个二级目录,且每个二级目录都标记有所属的字符串集,该方法包括步骤:
将待查询的目标字符串集划分为多个字符串片段,并将每个字符串片段划分为前缀片段和后缀片段;
生成所述前缀片段的第一索引和所述后缀片段的第二索引,并在所述数据索引中查找以该第一索引为一级目录、以该第二索引为二级目录的多个候选字符串集;以及
计算每个候选字符串集与目标字符串集具有相同目录表示的字符串片段个数,并将相同个数最多的候选字符串集作为所述目标字符串集的最相近字符串集。


2.如权利要求1所述的方法,其中,所述字符串集为试题,所述候选字符串集为候选试题。


3.如权利要求1所述的方法,其中,所述数据索引表示为索引树。


4.如权利要求1-3中任一项所述的方法,其中,
所述二级目录表示为键值对,其以二级目录的索引值为键、以包含该第一索引和第二索引组成的字符串的字符串集为值,其中该字符串集还标记有在该字符串集中出现该目录表示的次数,作为该字符串集的元素个数。


5.如权利要求4所述的方法,还包括步骤:
统计每个一级目录下的所有二级目录的总元素个数,作为该一级目录的计数;
当某个一级目录的计数达到第一阈值时,删除该一级目录下的所有二级目录,并将该一级目录标记为已删除。


6.如权利要求4或5所述的方法,还包括步骤:
统...

【专利技术属性】
技术研发人员:郭小雷
申请(专利权)人:作业不凡北京教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1