【技术实现步骤摘要】
【国外来华专利技术】用于搜索多个数据记录的方法和搜索引擎
本专利技术涉及一种用于搜索多个数据记录的计算机实施的方法。另外,本专利技术涉及一种可以由一台计算机执行的适当的搜索引擎。
技术介绍
例如在称作网上商店的活动中,搜索多个数据记录是非常重要的。多个产品的一位供应商使用数据记录来记录提供在一个数据库中的产品。一位用户随后可以使用他的计算机经由一个网络(如互联网)来建立到该网上商店的连接并且从该数据库中再调用这些数据记录。如果该数据库包括非常大的数据库存,并且如果单独的数据记录具有一个相对复杂的结构,则对该用户来说能够使用一个搜索引擎来搜索这些数据记录是必要的。在这种情况下,该用户将一个搜索查询传送到该网上商店。该网上商店或连接到其上的一个系统处理该搜索查询并且当符合时将以一种特殊方式排序的数据记录返回给该用户。在这种背景下,引起确定与来自该用户的搜索查询具体相关的数据记录的问题。此外,已知的实践是不但搜索一个网上商店的数据库而且搜索可以经由互联网接收的数据。这类搜索引擎称为互联网搜索引擎。对于所有这些搜索引擎而言,出现搜索查询频繁地模糊并且遭受不确定性的问题。在搜索查询中的搜索词语 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】2010.08.25 EP 10174043.91.一种用于搜索多个数据记录dI的计算机实施的方法,其中-接收含有至少一个搜索词语qi的搜索查询Q,-根据参考集T来确认含有与该搜索词语qi相似或相同的词语tj的子集V,-针对该子集V中的每个词语tj-确定与该搜索词语qi的相似性量度Aj,-确定该词语tj的出现概率pj,-将取决于所述词语tj的加权分布Xj应用到所述子集V中的这些词语tk上,其中具有较高相似性量度Ak的这些词语tk与具有较低相似性量度Ak的词语tk相比被更强地加权,以及-根据所述子集V中的这些词语tk的这些加权的概率来确定所述词语tj的修改的概率(p’j,p”j),-对这些数据记录dI针对它们与所述搜索查询Q的相关性进行评定,其中-执行一个检查来确定所述子集V中的这些词语tj是否出现在所述数据记录dI中,以及-如果所述子集V中的词语tj出现在所述数据记录dI中,那么所述词语tj的较低修改的概率(p’j,p”j)导致所述数据记录dI的较高相关性评定值,以及-当所述子集V中的词语tj在被更高评定的一个数据记录中较频繁地出现时,这些数据记录dI的相关性评定值包含该被更高评定的数据记录,和-基于至少一个数据记录子集的相关性评定值来输出所述至少一个数据记录子集。2.如权利要求1所述的方法,其特征在于所述加权分布Xj处于一种形式以使得词语tj的修改的概率(p’j,p”j)的确定仅考虑所述词语tj本身的概率pj的因素并且还考虑与这个词语tj相比具有一个较高相似性量度Ak的其他词语tk的概率pk的因素。3.如权利要求1所述的方法,其特征在于通过对一个S形函数的评估来确定所述加权分布Xj,第二词语tk的概率pk通过所述加权分布得到第一词语ti的修改的概率(p’i,p”i),评估中心是所述第一词语ti的相似性量度Ai与所述第二词语tk的相似性量度Ak的差集。4.如权利要求1或2所述的方法,其特征在于所述加权分布Xj处于一种形式以使得词语tj的修改的概率(p’j,p”j)的确定还考虑具有较低加权的其他词语tk的概率pk的因素,所述较低加权具有较低相似性量度Ak,具有较低相似性量度的另一个词语tk的加权取决于其修改的概率(p’j,p”j)被确定的所述词语tj的相似性量度Aj与另一个词语tk的相似性量度Ak之间的差。5.如权利要求1或2所述的方法,其特征在于所述修改的概率(p’j,p”j)的确定涉及一个中间步骤的插入,在所述中间步骤中考虑了每数据记录中的词语的数量的分布的因素。6.如权利要求1或2所述的方法,其特征在于一个数据记录dI的评定值是根据相关联词语t...
【专利技术属性】
技术研发人员:埃明·卡拉耶尔,卡斯滕·海因茨,马蒂亚斯·克林斯,
申请(专利权)人:欧米克数据质量有限公司,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。