Top‑k关键词搜索方法/系统,可读存储介质及终端技术方案

技术编号:16379888 阅读:49 留言:0更新日期:2017-10-15 14:05
本发明专利技术提供一种Top‑k关键词搜索方法/系统,可读存储介质及终端,搜索方法包括:生成网格式关系数据库;计算网格式关系数据库中每一节点上元组的关联度上限,并非递增顺序进行排序;判断该元组的关联度上限是否大于当前已查找到的搜索结果中第k个最大关联度;若否,输出当前已查找到的搜索结果中第k个最大关联度;若是,处理查找到的网格式关系数据库中一节点上存在未处理的元组,保存在处理完元组后产生的搜索结果,并更新网格式关系数据库中所有节点上存在未处理的元组的关联度上限;循环执行,直至处理完未处理的元组。本发明专利技术降低关系数据库top‑k关键词搜索方法性能,降低搜索处理过程中对关系数据库的频繁访问和服务器内存消耗。

The Top K keyword search method / system, computer-readable storage medium and terminal

The invention provides a Top K keyword search method / system, computer-readable storage medium and terminal search method comprises: generating grid computing network database; relational database format of each node associated with the upper limit of the Shangyuan group, not increasing sequence; judge the tuple correlation degree is greater than the current limit find the search results in the K maximum correlation degree; if not, the output current has been found in the search results of the K maximum correlation degree; if so, unprocessed tuples on the same node network format relational database processing find, save in the processed tuple search results, and update unprocessed tuples on all nodes in network format in a relational database relational limit; loop until processed unprocessed tuples. The invention reduces the relational database top k keyword search method of performance, reduce the search of the relationship between the database server and frequent access memory consumption process.

【技术实现步骤摘要】
Top-k关键词搜索方法/系统,可读存储介质及终端
本专利技术属于计算机数据库和信息检索领域,涉及一种搜索方法和系统,特别是涉及一种Top-k关键词搜索方法/系统,可读存储介质及终端。
技术介绍
“大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。关系数据库作为长久以来人们储存数据的一个重要工具包含了大量的数据信息,如何从大型关系数据库中挖掘有用信息是大数据时代面临的一个重要挑战。其中,关键词查询由于其简单、高效的特点成为一个重要的研究方向。目前,许多主流的关系数据库系统(例如MicrosoftSQLServer,Oracle,MySQL和IBMDB2)都支持一个扩展功能:全文索引(FulltextIndex),来处理文本文档搜索,但其却存在以下两个方面的不足:(1)虽然可以支持对多个属性的同时索引,但是多个表的不同属性的全文索引是分别建立的。即使在一些系统中支持由关键词和“AND”、“OR”等组成的关系表达式,这种查询的结果本质上仍然是单个关系表的元组集合,而无法生成由来自于不同表的元组组成的一个复杂结果;(2)全文索引通常是一个独立的引擎,不能真正地和数据库系统结合。针对文本的查询谓词与SQL遵循不同的概念和语法,系统有时甚至需要用户使用特定的语法引导查询处理器优化查询。另外,它们也很难提供灵活的评分(Scoring)和排序(Ranking)策略。因此,在这种平台上很难构建一个高效的关键词搜索系统。目前互联网搜索引擎采用的关键词搜索技术只能提供有限的结构化数据查询能力。在互联网中,为了实现对后端数据库的有限查询,许多Web站点或者把数据库中的数据导出为静态的HTML文档,或者使用表单来查询数据库。对于前者,当数据库发生变化时有很大的维护开销,并且丢失了数据库模式中包含的语义信息。对于后者,给用户和开发者带来了不小的麻烦,并且灵活性有限。因此,近十多年来,关系数据库中关键词查询已经成为数据库领域的研究热点,每年在数据库领域的顶级国际会议和期刊上面都有多篇相关论文发表。通过支持关键词查询,企业可以在现有关系型数据库上建立针对大规模数据库的、快速而便捷的信息发布和搜索系统,从而可以把数据库技术和信息检索技术集成在同一个平台上,实现结构化数据和文本文档数据的无缝集成的美好愿景,为企业带来良好的经济和社会效益。现有数据库搜索方法无法有效解决对数据库的大量重复访问和计算大量低关联度的查询结果等问题,且top-k关键词查询方法处理单个查询所需要的时间较大(x秒~x分),且现有成果多是学术研究,没有针对其实际应用的具体方案,从而限制了关键词查询系统的实际应用。因此,如何提供一种Top-k关键词搜索方法/系统,可读存储介质及终端,以解决现有技术中无法有效解决对数据库的大量重复访问和计算大量低关联度的查询结果,且单个查询所需要的时间较大,从而产生限制了关键词查询系统的实际应用等缺陷,实已成为本领域从业人员亟待解决的技术问题。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种Top-k关键词搜索方法/系统,可读存储介质及终端,用于解决现有技术中无法有效解决对数据库的大量重复访问和计算大量低关联度的查询结果,且单个查询所需要的时间较大,从而产生限制了关键词查询系统的实际应用的问题。为实现上述目的及其他相关目的,本专利技术提供一种,【独权内容,请用一个段落描述】于本专利技术的一实施例中,【每一个从权内容,请用一个段落描述】于本专利技术的一实施例中,【每一个从权内容,请用一个段落描述】如上所述,本专利技术的完整的专利技术名称,具有以下有益效果:附图说明图1显示为本专利技术的Top-k关键词搜索方法于一实施例中的流程示意图。图2显示为备选网络示例图。图3显示为本专利技术的Top-k关键词搜索系统于一实施例中的原理结构示意图。元件标号说明3Top-k关键词搜索系统31数据库生成模块332计算模块33第一处理模块34第二处理模块35循环模块341过滤单元342连接单元S11~S15步骤具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。实施例一本实施例提供一种Top-k关键词搜索方法,包括:根据所述Top-k关键词所组成的关键词集合,生成网格式关系数据库;计算所述网格式关系数据库中每一节点上元组可组成的搜索结果的关联度上限,并按照关联度的非递增顺序进行排序;查找出网格式关系数据库中一节点上存在未处理的元组,判断该元组可组成的搜索结果的关联度上限是否大于当前已查找到的搜索结果中第k个最大关联度;若否,则停止搜索,直接输出当前已查找到的搜索结果中第k个最大关联度;若否,则继续执行下一步骤;k为大于1的正整数;处理查找到的网格式关系数据库中一节点上存在未处理的元组,保存在处理完所述元组后产生的搜索结果,并更新所述网格式关系数据库中所有节点上存在未处理的元组的关联度上限;循环执行上一步骤,直至处理完网格式数据中所有节点上存在的未处理的元组。以下将结合图示对本实施例所提供的Top-k关键词搜索方法进行详细描述。请参阅图1,显示为Top-k关键词搜索方法于一实施例中的原理结构示意图。如图1所示,所述Top-k关键词搜索方法具体包括以下几个步骤:S11,根据所述Top-k关键词所组成的关键词集合,生成网格式关系数据库。在本实施例中,所述网格式关系数据库为基于Lattice的关系数据库。在所述基于Lattice的关系数据库中关键词搜索的结果是一组元组连接树(JoinedTupleTree,简称JTT),为关系数据库中包含了关键词的元组根据主外间引用关系连接起来组成的一个无环、无多重边、无特定根节点的一个无向树。每一个元组连接树(JTT)都是一个关系代数表达式(RelationalAlgebraExpression)的结果。这种代数表达式被称为备选网络(CandidateNetwork,CN)。请参阅图2,显示为备选网络示例图。备选网络的生成和关系数据库模式以及关键词在关系表中的实际分布有关,关系数据库中Top-k关键词搜索的效率取决于如果快速有效的执行这些生成的备选网络从而找到关联度最大的k的JTT作为搜索结果。在本实施例中,所述S11具体包括根据所述Top-k关键词所组成的关键词集合搜索,将搜索过程中生成的备选网络CN用根树方式表示;将所有备选网络CN通过共享公共子树的方式,生成所述网格式关系数据库,即Lattice结构式的关系数据库。其中,所述备选网络可以共享不同的备选网络处理过程的中间结果。在本实施例中,在Lattice中本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201710508847.html" title="Top‑k关键词搜索方法/系统,可读存储介质及终端原文来自X技术">Top‑k关键词搜索方法/系统,可读存储介质及终端</a>

【技术保护点】
一种Top‑k关键词搜索方法,其特征在于,包括:根据所述Top‑k关键词所组成的关键词集合,生成网格式关系数据库;计算所述网格式关系数据库中每一节点上元组可组成的搜索结果的关联度上限,并按照关联度的非递增顺序进行排序;查找出网格式关系数据库中一节点上存在未处理的元组,判断该元组可组成的搜索结果的关联度上限是否大于当前已查找到的搜索结果中第k个最大关联度;若否,则停止搜索,直接输出当前已查找到的搜索结果中第k个最大关联度;若是,则继续执行下一步骤;k为大于1的正整数;处理查找到的网格式关系数据库中一节点上存在未处理的元组,保存在处理完所述元组后产生的搜索结果,并更新所述网格式关系数据库中所有节点上存在未处理的元组的关联度上限;循环执行判断步骤和处理步骤,直至处理完网格式数据中所有节点上存在的未处理的元组。

【技术特征摘要】
1.一种Top-k关键词搜索方法,其特征在于,包括:根据所述Top-k关键词所组成的关键词集合,生成网格式关系数据库;计算所述网格式关系数据库中每一节点上元组可组成的搜索结果的关联度上限,并按照关联度的非递增顺序进行排序;查找出网格式关系数据库中一节点上存在未处理的元组,判断该元组可组成的搜索结果的关联度上限是否大于当前已查找到的搜索结果中第k个最大关联度;若否,则停止搜索,直接输出当前已查找到的搜索结果中第k个最大关联度;若是,则继续执行下一步骤;k为大于1的正整数;处理查找到的网格式关系数据库中一节点上存在未处理的元组,保存在处理完所述元组后产生的搜索结果,并更新所述网格式关系数据库中所有节点上存在未处理的元组的关联度上限;循环执行判断步骤和处理步骤,直至处理完网格式数据中所有节点上存在的未处理的元组。2.根据权利要求1所述的Top-k关键词搜索方法,其特征在于,所述根据所述Top-k关键词所组成的关键词集合,生成网格式关系数据库的步骤包括:根据所述Top-k关键词所组成的关键词集合搜索,将搜索过程中生成的备选网络用根树方式表示;将所有备选网络通过共享公共子树的方式,生成所述网格式关系数据库。3.根据权利要求1所述的Top-k关键词搜索方法,其特征在于,计算所述网格式关系数据库中每一节点上元组可组成的搜索结果的关联度上限的计算公式为:网格式数据库中一节点ViQ上的4.根据权利要求3所述的Top-k关键词搜索方法,其特征在于,所述计算公式在初始阶段为0,在搜索处理过程中,该关联度上限根据执行过程而动态增长。5.根据权利要求1所述的Top-k关键词搜索方法,其特征在于,所述处理查找到的网格式关系数据库中一节点上存在未处理的元组的步骤包括:过滤步骤:判断未处理的元组能否和该节点的子节点的至少一个输出元组相连接,若是,继续判断未处理的元组能否和该节点的父节点的至少一个输出元组相连接;若是,继续执行连接步骤;若否,过滤掉该元组;连接步骤:在连接过程中,从父节点的每一个与该元组连接的输出元组开始,从上往下查找所有包含该元组的元组连接树,生成在处理完所述元组后产生的搜索结果。6.一...

【专利技术属性】
技术研发人员:许延伟
申请(专利权)人:上海宽带技术及应用工程研究中心
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1