本发明专利技术涉及一种由计算机实施的、用于在多个(D)数据集(d1)中进行搜索的方法,其中接收具有至少一个搜索词语(qi)的一个搜索查询(Q),根据一个参考量(T)推导出具有与该搜索词语(qi)相似或相同的多个词语(tj)的一个部分量(V),针对该部分量(V)的每个词语(tj)确定与该搜索词语(qi)的一个相似性量度(Aj),确定该词语(tj)的出现概率(pj),将取决于该词语(tj)的一个加权分布(Xj)应用到该部分量(V)的这些词语(tk)上,其中具有一个较大相似性量度的这些词语(tk)与具有一个较小相似性量度的多个词语(tk)相比被更重地加权,并且根据该部分量(V)的这些词语(tk)的这些加权概率来确定该词语(tj)的一个修改的概率(p’j,P”j)。另外对这些数据集(di)就其与该搜索查询(Q)的相关性(R)来进行评估,其中做出关于该部分量的这些词语(tj)是否出现在该数据集(dj)中的一个检查,并且如果该部分量(Q)的一个词语(tj)出现在该数据集(d1)中,则该词语(tj)的一个较小修改的概率(p’j,P”j)导致该数据集(d1)的一个较大相关性值,并且至少一个部分数据集量作为其相关性值(R)的一个函数被输出。本发明专利技术进一步涉及一种用于执行所述方法的搜索引擎。
【技术实现步骤摘要】
【国外来华专利技术】用于搜索多个数据记录的方法和搜索引擎
本专利技术涉及一种用于搜索多个数据记录的计算机实施的方法。另外,本专利技术涉及一种可以由一台计算机执行的适当的搜索引擎。
技术介绍
例如在称作网上商店的活动中,搜索多个数据记录是非常重要的。多个产品的一位供应商使用数据记录来记录提供在一个数据库中的产品。一位用户随后可以使用他的计算机经由一个网络(如互联网)来建立到该网上商店的连接并且从该数据库中再调用这些数据记录。如果该数据库包括非常大的数据库存,并且如果单独的数据记录具有一个相对复杂的结构,则对该用户来说能够使用一个搜索引擎来搜索这些数据记录是必要的。在这种情况下,该用户将一个搜索查询传送到该网上商店。该网上商店或连接到其上的一个系统处理该搜索查询并且当符合时将以一种特殊方式排序的数据记录返回给该用户。在这种背景下,引起确定与来自该用户的搜索查询具体相关的数据记录的问题。此外,已知的实践是不但搜索一个网上商店的数据库而且搜索可以经由互联网接收的数据。这类搜索引擎称为互联网搜索引擎。对于所有这些搜索引擎而言,出现搜索查询频繁地模糊并且遭受不确定性的问题。在搜索查询中的搜索词语频繁地与有待搜索的数据记录中出现的词语不精确地相对应。此外,这些搜索词语可能包含打字错误或也可能旨在表示语法上不同形式的搜索词语。当处理搜索查询时,因此始终要尽力考虑到搜索查询的模糊性和不确定性的因素。EP1095326B1描述了一种用于检索以文本格式存储的信息的搜索系统。为了检索这些信息,该搜索系统涉及将一个树形结构作为用于文本的一个数据结构使用。另外,使用一个量度来确定一个查询和检索到的信息之间的匹配程度,其中该量度确定用于文本中的词或符号与查询之间的一个近似匹配程度的一个间隔量度和用于文本中的词或符号的顺序与一个查询顺序之间的一个匹配近似程度的另一个间隔量度的一个组合。EP1208465B1描述了一种用于搜索文件集合的搜索引擎。在这种搜索引擎的情况下,数据处理单元形成连接在一个网络中的多组节点。搜索引擎被定制,这样使得它可以相对于供搜索查询的数据体和查询速度来被按比例缩放。EP1341009B1描述了一种用于操作互联网搜索引擎的方法。该方法涉及借助一个智能代理处理的互联网上的网站之间的链路。被访问的网站内容被过滤以便确定内容的关联性。在这种情况下确认的关联网站被编索引,并且被编索引的主题特定的信息被存储在一个数据库之中。这种过滤允许一个网站的内容通过基于字典的一个主题特定的过滤,所述过滤将该网站的内容与在该字典中查找到的术语相比较。EP1459206B1描述了一种用于搜索项目集合的计算机实施的方法,在该集合中每一个项目均具有一个属性集合。该方法涉及从两个或更多个属性的一个第一集合中形成的一个查询的接收。距离函数随后被应用到该集合中的项目的一个或多个上,并且一个所得项目或多个所得项目基于该距离函数而被识别。在这种情况下,确切地基于集合中的具有在属性的第一集合与用于该项目的属性的集合之间的交集内的所有属性的项目的数量,距离函数确定该查询与该集合中的一个项目之间的距离。最终,EP1622054A1、WO2008/085637A2以及WO2008/137395A1描述了用于搜索数据记录的另外搜索方法和搜索引擎。最终,Tuan-QuangNguyen等人的“在扩展的布尔模型中使用扩充词语的查询扩展(QueryexpansionusingaugmentedtermsinanextendedBooleanmodel)”,韩国信息科学家和工程师计算科学与工程韩国研究所杂志,第2卷,第1期,2008年3月(2008-03),第26-43页,国际标准期刊编号:1976-4677披露一种涉及首先由例如选自检索词典的词语扩展的原始搜索查询的搜索方法。这些添加的词语的选择考虑到与原始搜索词语的相似性的因素。最终,考虑到在文件中搜索词语的共同出现的因素而添加另外的词语(扩充词语)。随后为以这种方式扩展的搜索查询中的词语提供加权,为原始查询词语提供加权1并且为所添加的词语提供取决于与原始搜索词语的相似性的一个加权。然而,不利的是,这个文献中的方法没有解决尤其以下问题:在一个搜索查询中的拼写错误的词导致对于该拼写错误的词的一个非常高水平的关联性,因为不正确拼写的词在文件中根本不出现或很少出现。本专利技术是基于提供一种用于搜索多个数据记录的计算机实施的方法和一种适当搜索引擎的技术问题的,该搜索引擎可以由一台计算机执行并且获得该多个数据记录并且输出与一个接收到的搜索查询尽可能相关的特殊数据记录。
技术实现思路
本专利技术借助于一种用于搜索多个数据记录的计算机实施的方法和一种搜索引擎解决了这个技术问题。根据本专利技术的方法涉及一种含有被接收的至少一个搜索词语的搜索查询。其次,根据一个参考集合确认含有相似于或相同于该搜索词语的词语的一个子集。如果该搜索查询含有多个搜索词语,则分别针对每一个搜索词语来确认一个参考集合。对于该子集中的每一个词语而言,随后确定与该搜索词语的一个相似性量度并且确定该词语的出现概率。取决于该词语的一个加权分布随后被应用到该子集中的词语上,其中与具有一个较低相似性量度的词语相比,具有一个较高相似性量度的词语被更强地加权。在这之后,根据该子集中的这些词语的加权的概率来确定针对该词语的一个修改的概率。其次,根据本专利技术的方法涉及被评定其与搜索查询的关联性的数据记录。这个评定涉及一个检查以确定在子集中的这些词语是否在该数据记录中出现,并且如果该子集中的一个词语在该数据记录中出现,则针对该词语的一个较低的修改概率导致针对该数据记录的一个较高的关联性评定值。最终,至少一个数据记录子集基于其关联性评定值而被输出。对于一个搜索查询中的一个搜索词语的关联性而言,重要的是在含有这类词语的集合中有多频繁地出现这个搜索词语。如果一个词语通常非常频繁地出现,则与通常非常少地出现在词语集合中的搜索查询中的一个搜索词语相比,处理该搜索查询是不太相关联的。根据本专利技术的方法通过确定针对该子集中的每一个词语的一个出现概率而考虑到搜索词语发生的不同频率的因素。举例来说,这些词语概率可以使用含有多个词语的特殊集合而预先确定,例如使用预先选择的其中词频率已经被确定的文本。与词语出现的概率相关的集合可以进而由出现在有待搜索的数据记录中的所有词语形成。这些数据记录可以被预先搜索并且编索引。在这种情况下,对于一个数据记录中的每一个词语而言,进而可能确定这个词语已经在数据记录中出现的频率。然而,在这种情况下,可能首先出现有待搜索的数据记录可能含有错误并且其次在一个搜索查询中的搜索词语也可能含有错误的问题。举例来说,这些错误可能为拼写错误或打字错误。例如,一个词可能包含于一个数据记录中的一个不正确的拼写中。如果目前确定了这些词语的出现频率,则在一个搜索词语中的一个拼写错误的词将会导致这个词具有与该搜索查询的一个特别高水平的关联性,因为该词出现得非常少。当根据数据记录中出现的所有词语确定一个词语的出现概率时,相同状况发生。如果数据记录含有一个拼写错误的词,则这个词出现得非常少,这意味着这个词的出现概率是非常低的并且因此该词与一个搜索查询的关联性是非常高的。根据本专利技术的方法不但通过考虑到一个搜索查询中的一个词语的发生概本文档来自技高网...

【技术保护点】
【技术特征摘要】
【国外来华专利技术】2010.08.25 EP 10174043.91.一种用于搜索多个数据记录dI的计算机实施的方法,其中-接收含有至少一个搜索词语qi的搜索查询Q,-根据参考集T来确认含有与该搜索词语qi相似或相同的词语tj的子集V,-针对该子集V中的每个词语tj-确定与该搜索词语qi的相似性量度Aj,-确定该词语tj的出现概率pj,-将取决于所述词语tj的加权分布Xj应用到所述子集V中的这些词语tk上,其中具有较高相似性量度Ak的这些词语tk与具有较低相似性量度Ak的词语tk相比被更强地加权,以及-根据所述子集V中的这些词语tk的这些加权的概率来确定所述词语tj的修改的概率(p’j,p”j),-对这些数据记录dI针对它们与所述搜索查询Q的相关性进行评定,其中-执行一个检查来确定所述子集V中的这些词语tj是否出现在所述数据记录dI中,以及-如果所述子集V中的词语tj出现在所述数据记录dI中,那么所述词语tj的较低修改的概率(p’j,p”j)导致所述数据记录dI的较高相关性评定值,以及-当所述子集V中的词语tj在被更高评定的一个数据记录中较频繁地出现时,这些数据记录dI的相关性评定值包含该被更高评定的数据记录,和-基于至少一个数据记录子集的相关性评定值来输出所述至少一个数据记录子集。2.如权利要求1所述的方法,其特征在于所述加权分布Xj处于一种形式以使得词语tj的修改的概率(p’j,p”j)的确定仅考虑所述词语tj本身的概率pj的因素并且还考虑与这个词语tj相比具有一个较高相似性量度Ak的其他词语tk的概率pk的因素。3.如权利要求1所述的方法,其特征在于通过对一个S形函数的评估来确定所述加权分布Xj,第二词语tk的概率pk通过所述加权分布得到第一词语ti的修改的概率(p’i,p”i),评估中心是所述第一词语ti的相似性量度Ai与所述第二词语tk的相似性量度Ak的差集。4.如权利要求1或2所述的方法,其特征在于所述加权分布Xj处于一种形式以使得词语tj的修改的概率(p’j,p”j)的确定还考虑具有较低加权的其他词语tk的概率pk的因素,所述较低加权具有较低相似性量度Ak,具有较低相似性量度的另一个词语tk的加权取决于其修改的概率(p’j,p”j)被确定的所述词语tj的相似性量度Aj与另一个词语tk的相似性量度Ak之间的差。5.如权利要求1或2所述的方法,其特征在于所述修改的概率(p’j,p”j)的确定涉及一个中间步骤的插入,在所述中间步骤中考虑了每数据记录中的词语的数量的分布的因素。6.如权利要求1或2所述的方法,其特征在于一个数据记录dI的评定值是根据相关联词语t...
【专利技术属性】
技术研发人员:埃明·卡拉耶尔,卡斯滕·海因茨,马蒂亚斯·克林斯,
申请(专利权)人:欧米克数据质量有限公司,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。