用于对具有数据集的数据库进行搜索的方法和系统技术方案

技术编号:17490854 阅读:46 留言:0更新日期:2018-03-17 13:49
本发明专利技术涉及用于对具有数据集(Mi)的数据库进行搜索的方法,数据集(Mi)包括属性(A

A method and system for searching a database with a data set

The invention relates to a method for searching a database with a data set (Mi), and the data set (Mi) includes attributes (A

【技术实现步骤摘要】
【国外来华专利技术】用于对具有数据集的数据库进行搜索的方法和系统本专利技术涉及用于对具有数据集的数据库进行搜索的方法,其中数据集包括属性。本专利技术还涉及计算机程序,其具有程序代码,该程序代码用于,在其由计算机执行时,执行根据本专利技术的方法。本专利技术还涉及用于对存储在数据存储单元上并且具有数据集的数据库进行搜索的搜索引擎,其中数据集包括属性。搜索引擎包括:捕获接口,其能够用于捕获搜索查询;关联性确定单元,其能够用于向数据集分配搜索查询的关联性数据;以及输出单元,其能够用于基于关联性数据,输出数据集的至少一个子集。本专利技术还涉及具有根据本专利技术的搜索引擎的系统。对数据库进行搜索以得到特定信息是现代数据处理的中心任务。数据库越大,对响应于来自用户的搜索查询输出最关联的数据集的解决方案的需求就越大。只有以这种方式,才能使得存储在数据库中的信息可以被用户最优地使用。这尤其适用于目录功能,其中数据集例如与例如网络商店中的各个产品相对应。用户期望的是,响应于搜索查询,精确地向他展示与他关联的那些产品。反之亦然,向用户呈现最关联的产品是网络商店所有者的重要利益所在。其他的示例例如是图书馆目录、科学数据库、参考材料或文件。然而,在一般的搜索方法中,会出现找到非关联的数据集的问题,例如,在模糊搜索词的情况下或者因为出现了由所使用的搜索方法引起的伪影(Artefakte)。这例如导致在根据所确定的相关性而组织的列表中,实际关联的命中仅被显示在更下方,用户找不到这些命中或只能困难地找到这些命中。例如,在网络商店的情况下,这种低效的搜索功能导致用户的失落并导致所有者的营业额损失。因此,本专利技术的目的是提供一种方法、计算机程序和搜索引擎,其能够用于改进对搜索查询的数据集的实际关联性的确定。该目的是通过具有权利要求1的特征的方法、具有权利要求12的特征的计算机程序、具有权利要求13的特征的搜索引擎以及具有权利要求19的特征的系统来实现的。根据从属权利要求,能够得到有利的配置和改进。在根据本专利技术的方法中,如果捕获到搜索查询,则向数据集分配针对搜索查询的关联性数据并且基于关联性数据输出数据集的至少一个子集。然后,通过与针对该搜索查询输出的数据集的用户交互来捕获交互数据。确定指示各个属性与针对搜索查询的交互数据之间的相关性的相关性数据。最后,利用相关性数据和数据集的属性,再次生成针对搜索查询的数据集的关联性数据。因此,这是一种从用户与搜索结果的交互中学习的迭代方法。例如,被搜索的数据库包括能够被分配有产品的数据集。特别地,数据库由此能够包括产品目录。在本专利技术的意义上,术语“产品”在这种情况下表示由提供商提供给用户的客体,特别是商品和服务。这些例如可以是物理客体,或者是文件,例如音乐或视频文件、文本和图像或网站等。此外,在本申请中,产品还可以被理解为表示一组具有特定特性的各个产品或一组相同产品类别的各个产品。被分配了产品的数据集可以包括与相应产品有关的不同属性。例如,这些属性可以是诸如描述文本、分类、产品类型、特征数据、制造商名称、产品特性和价格的信息。在第一步中,在数据库中执行搜索,将关联性数据分配给各个数据集。根据本专利技术,术语“关联性数据”包括提供信息的那些数据,所述信息与是否已经找到与搜索查询关联的数据集和/或哪些数据集是关联的有关。此外,数据集的关联性可以被定量地确定,例如以便能够对不同数据集的关联性进行比较。因此,不一定要针对每个单独的数据集确定定量的关联性数据,而是能够确定整个数据集的关联性数据或数据集的子集的关联性数据,例如,在这样的情况下,通过根据关联度将数据集添加到命中列表,而不进行区分。由此,关联性数据也可以是命中列表。由此确定了例如哪些数据集与搜索查询相关联,例如,哪些产品与搜索查询相匹配。基于关联性来输出搜索结果,例如,列表形式的搜索结果。例如,如果关联性数据包括与数据集的关联性有关的定量信息,则能够根据关联性来这样组织列表:数据集与搜索查询越相关,将数据集越向上排列。进一步的步骤捕获用户如何与数据集交互。用户交互可以以各种方式实现。例如,用户可以通过激活网站上的链接来得到以详细形式输出的数据集。用户还可以购买被分配给数据集的产品、可以将其存储在提醒列表中、或者可以进行评价。在这样的情况下,针对搜索查询来考虑用户交互。由此,考虑与在利用该搜索查询进行搜索时呈现给用户的那些数据集的用户交互。例如,可以记录(即,例如存储)各个数据集的各个交互数据。在这样的情况下,针对数据集,可以记录例如在已经响应于特定的搜索查询输出数据集之后,用户已经与所述数据集进行了交互,例如,以购买的方式进行了交互。交互数据还可以以集合形式被记录,例如,被记录为在特定搜索查询后已经与用户进行交互的数据集的集合。参照其他信息(例如,参照与各个用户或进一步的搜索查询有关的信息),能够进一步改进搜索。被捕获的用户交互随后被用于得到关于搜索结果是否与用户关联以及多大程度上与用户关联的结论。例如,如果数据集被显示为非常关联并且用户没有检索到与所述数据集有关的任何的进一步信息,则这可能指示用户对该数据集没有任何兴趣。在另一个示例中,产品被显示为不太关联,但随后被购买。这暗示应该对在原始搜索中确定的关联性进行改进。为了对搜索中的数据集的关联性数据进行优化,现在生成指示数据集的属性与用户交互之间的相关性的相关性数据。例如,如果基于捕获的交互数据确定出具有特定属性的数据集有特别高或特别低的关联性,则相关性数据反映该信息。因此,例如可以确定特别关联的或特别不关联的数据集具有哪些共同的属性。为此,可以使用机器学习和人工智能的各种方法,例如使用神经网络。相关性数据用于基于捕获的交互数据以更准确的方式确定搜索查询的数据集的关联性。为此,再次生成数据集的关联性数据,在这样的情况下,考虑相关性数据和数据集的属性。如果再次执行搜索查询,则由于本次搜索查询的新的关联性数据,能够找到更关联的结果。在这样的情况下,可以以集合形式记录相关性数据,例如被记录为相关性矩阵。然而,也可以针对各个数据集来记录相关性数据,例如,通过将相关性数据分配给特定产品的数据集,该相关性数据包括用户和产品的交互与搜索查询之间的相关性。在只有少量的交互数据可以用于评价数据集的关联性的应用中,例如,在新的网络商店、少量用户或小众产品的情况下,根据本专利技术的方法是特别有利的。例如,如果用户仅与一些数据集进行了交互,则对通过数据集的属性从这些交互中得到的交互数据的泛化还允许更准确地确定具有类似属性的其他数据集的关联性数据,针对这些其他数据集的关联性数据,还没有交互数据或者仅有很少的交互数据被捕获。在本专利技术的一个实施例中,在确定相关性数据时,确定期望的交互数据与实际的交互数据之间的差别。这使得可以以特别精确的方式有利地确定相关性数据。为此,首先确定期望的交互数据。例如,生成与已经输出的数据集的交互的分布,在该分布中,用户与具有最高关联性的搜索结果交互得最多。例如,能够期望的是,更关联的产品将比不太关联的产品被更频繁地购买。如果对实际的交互数据的捕获给出了不同的结果,则可以以根据该交互数据来修正关联性数据的方式来确定相关性数据。在这样的情况下,如上文描述的,考虑与数据集的属性的相关性。在这样的情况下,例如,期望的交互数据可以定义期望的分布,本文档来自技高网...
用于对具有数据集的数据库进行搜索的方法和系统

【技术保护点】
一种用于对具有数据集(Mi)的数据库进行搜索的方法,所述数据集(Mi)包括属性(A

【技术特征摘要】
【国外来华专利技术】2015.05.18 EP 15168040.21.一种用于对具有数据集(Mi)的数据库进行搜索的方法,所述数据集(Mi)包括属性(A1i到Ani),其中,如果捕获到搜索查询(S),则-向所述数据集(Mi)分配针对所述搜索查询(S)的关联性数据(RSi),-基于所述关联性数据(RSi),输出所述数据集(Mi)的至少一个子集,-通过与针对搜索查询(S)输出的数据集(Mi)的用户交互,捕获交互数据(ISi),-确定相关性数据(KS,1到KS,n),并且所述相关性数据(KS,1到KS,n)指示各个属性(A1i到Ani)与针对所述搜索查询(S)的所述交互数据(ISi)之间的相关性,以及-利用所述相关性数据(KS,1到KS,n)以及所述数据集(Mi)的属性(A1i到Ani),再次生成针对所述搜索查询(S)的数据集(Mi)的关联性数据(RSi),其特征在于,在确定所述相关性数据(KS,1到KS,n)时,确定期望的交互数据(<ISi>)与实际的交互数据(ISi)之间的差别。2.根据权利要求1所述的方法,其特征在于,所述搜索查询(S)包括至少一个搜索词(S1)。3.根据前述权利要求之一所述的方法,其特征在于,所述搜索查询(S)包括对为用户预定义的至少一个搜索选项的选择。4.根据前述权利要求之一所述的方法,其特征在于,基于推荐服务,生成针对所述搜索查询(S)的数据集(Mi)的关联性数据(RSi)。5.根据前述权利要求之一所述的方法,其特征在于,还基于进一步的交互数据(IS’i)确定所述相关性数据(KS,1到KS,n),所述进一步的交互数据(IS’i)和与针对进一步的搜索查询(S’)输出的数据集(Mi)的用户交互有关,所述进一步的搜索查询(S’)与所述搜索查询(S)至少具有预定的相似度(αS,S’)。6.根据前述权利要求之一所述的方法,其特征在于,根据取决于所述关联性数据(RSi)的排名,在输出期间对所述子集中的数据集(Mi)进行组织。7.根据前述权利要求之一所述的方法,其特征在于,所述用户交互包括调用与所述数据集(Mi)有关的信息、和/或保存和/或购买被分配给所述数据集(Mi)的产品(Pi)。8.根据前述权利要求之一所述的方法,其特征在于,在确定所述相关性数据(KS,1到KS,n)时,根据所述用户交互的类型对所述交互数据(ISi)进行加权。9.根据前述权利要求之一所述的方法,其特征在于,在确定所述相关性数据(KS,1到KS,n)时,基于所述用户交互的频率对所述用户交互进行加权。10.根据前述权利要求之一所述的方法,其特征在于,所述属性(A1i到Ani)包括运行文本、数值信息和/或被分配给所述数据集(Mi)的产品(Pi)的定义形式。11.根据前述权利...

【专利技术属性】
技术研发人员:卡斯滕·克劳斯
申请(专利权)人:欧米克数据质量有限公司
类型:发明
国别省市:德国,DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1