The invention provides a Top K keyword search method / system, computer-readable storage medium and terminal search method comprises: generating grid computing network database; relational database format of each node associated with the upper limit of the Shangyuan group, not increasing sequence; judge the tuple correlation degree is greater than the current limit find the search results in the K maximum correlation degree; if not, the output current has been found in the search results of the K maximum correlation degree; if so, unprocessed tuples on the same node network format relational database processing find, save in the processed tuple search results, and update unprocessed tuples on all nodes in network format in a relational database relational limit; loop until processed unprocessed tuples. The invention reduces the relational database top k keyword search method of performance, reduce the search of the relationship between the database server and frequent access memory consumption process.
【技术实现步骤摘要】
Top-k关键词搜索方法/系统,可读存储介质及终端
本专利技术属于计算机数据库和信息检索领域,涉及一种搜索方法和系统,特别是涉及一种Top-k关键词搜索方法/系统,可读存储介质及终端。
技术介绍
“大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。关系数据库作为长久以来人们储存数据的一个重要工具包含了大量的数据信息,如何从大型关系数据库中挖掘有用信息是大数据时代面临的一个重要挑战。其中,关键词查询由于其简单、高效的特点成为一个重要的研究方向。目前,许多主流的关系数据库系统(例如MicrosoftSQLServer,Oracle,MySQL和IBMDB2)都支持一个扩展功能:全文索引(FulltextIndex),来处理文本文档搜索,但其却存在以下两个方面的不足:(1)虽然可以支持对多个属性的同时索引,但是多个表的不同属性的全文索引是分别建立的。即使在一些系统中支持由关键词和“AND”、“OR”等组成的关系表达式,这种查询的结果本质上仍然是单个关系表的元组集合,而无法生成由来自于不同表的元组组成的一个复杂结果;(2)全文索引通常是一个独立的引擎,不能真正地和数据库系统结合。针对文本的查询谓词与SQL遵循不同的概念和语法,系统有时甚至需要用户使用特定的语法引导查询处理器优化查询。另外,它们也很难提供灵活的评分(Scoring)和排序(Ranking)策略。因此,在这种平台上很难构建一个高效的关键词搜索系统。目前互联网搜索引擎采用的关键词搜索技术只能提供有限的 ...
【技术保护点】
一种Top‑k关键词搜索方法,其特征在于,包括:根据所述Top‑k关键词所组成的关键词集合,生成网格式关系数据库;计算所述网格式关系数据库中每一节点上元组可组成的搜索结果的关联度上限,并按照关联度的非递增顺序进行排序;查找出网格式关系数据库中一节点上存在未处理的元组,判断该元组可组成的搜索结果的关联度上限是否大于当前已查找到的搜索结果中第k个最大关联度;若否,则停止搜索,直接输出当前已查找到的搜索结果中第k个最大关联度;若是,则继续执行下一步骤;k为大于1的正整数;处理查找到的网格式关系数据库中一节点上存在未处理的元组,保存在处理完所述元组后产生的搜索结果,并更新所述网格式关系数据库中所有节点上存在未处理的元组的关联度上限;循环执行判断步骤和处理步骤,直至处理完网格式数据中所有节点上存在的未处理的元组。
【技术特征摘要】
1.一种Top-k关键词搜索方法,其特征在于,包括:根据所述Top-k关键词所组成的关键词集合,生成网格式关系数据库;计算所述网格式关系数据库中每一节点上元组可组成的搜索结果的关联度上限,并按照关联度的非递增顺序进行排序;查找出网格式关系数据库中一节点上存在未处理的元组,判断该元组可组成的搜索结果的关联度上限是否大于当前已查找到的搜索结果中第k个最大关联度;若否,则停止搜索,直接输出当前已查找到的搜索结果中第k个最大关联度;若是,则继续执行下一步骤;k为大于1的正整数;处理查找到的网格式关系数据库中一节点上存在未处理的元组,保存在处理完所述元组后产生的搜索结果,并更新所述网格式关系数据库中所有节点上存在未处理的元组的关联度上限;循环执行判断步骤和处理步骤,直至处理完网格式数据中所有节点上存在的未处理的元组。2.根据权利要求1所述的Top-k关键词搜索方法,其特征在于,所述根据所述Top-k关键词所组成的关键词集合,生成网格式关系数据库的步骤包括:根据所述Top-k关键词所组成的关键词集合搜索,将搜索过程中生成的备选网络用根树方式表示;将所有备选网络通过共享公共子树的方式,生成所述网格式关系数据库。3.根据权利要求1所述的Top-k关键词搜索方法,其特征在于,计算所述网格式关系数据库中每一节点上元组可组成的搜索结果的关联度上限的计算公式为:网格式数据库中一节点ViQ上的4.根据权利要求3所述的Top-k关键词搜索方法,其特征在于,所述计算公式在初始阶段为0,在搜索处理过程中,该关联度上限根据执行过程而动态增长。5.根据权利要求1所述的Top-k关键词搜索方法,其特征在于,所述处理查找到的网格式关系数据库中一节点上存在未处理的元组的步骤包括:过滤步骤:判断未处理的元组能否和该节点的子节点的至少一个输出元组相连接,若是,继续判断未处理的元组能否和该节点的父节点的至少一个输出元组相连接;若是,继续执行连接步骤;若否,过滤掉该元组;连接步骤:在连接过程中,从父节点的每一个与该元组连接的输出元组开始,从上往下查找所有包含该元组的元组连接树,生成在处理完所述元组后产生的搜索结果。6.一...
【专利技术属性】
技术研发人员:许延伟,
申请(专利权)人:上海宽带技术及应用工程研究中心,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。