使用相关性反馈进行数据库搜索的方法及相应的储存介质技术

技术编号:3940273 阅读:253 留言:0更新日期:2012-04-11 18:40
提供了使用相关性反馈进行数据库搜索的方法以及其上记录有用于执行该方法的程序的记录介质,在所述方法中,分级策略被应用于数据库系统以进行高效的数据库搜索。所述方法包括:接收对第一搜索结果的相关性反馈;基于所接收的相关性反馈得出相关性函数;以及将所述第一搜索结果应用到所述相关性函数,并且提供根据相关性级别排序的第二搜索结果。由此,可以通过使用相关性反馈和分级策略来从少量反馈得出准确的相关性函数,从而可以实现高效的数据库搜索而无需用户检查所有搜索结果来获得期望的结果。

【技术实现步骤摘要】

本专利技术的示例性实施例总体上涉及数据库,并且更具体地,涉及进行数据库搜索 的方法以及其上记录有用于执行该方法的程序的记录介质。
技术介绍
在一般的数据库搜索中获得期望的数据或文档是困难的,因为用户不能容易地使 用查询界面和关键字来表示具体的搜索,并且提供有太多搜索结果。例如,在PubMed数据 库(生物医学研究中重要的信息来源)的情况下,当输入诸如“乳腺癌”这样的关键字时, 返回了二十万个或更多文档作为搜索结果。在这种情况下,用户必须进行预处理,例如参照 出版日期、作者、文章名称等对搜索结果进行排序,并且随后不便于查找期望的文章。同时,已经研究了重新排列搜索结果以便用户可以容易地获得期望结果的方法, 例如,如从搜索网站Google所看到的,通过文档的引用信息来计算文档总体重要性并且使 用所计算的重要性来对搜索结果进行分级(rank)的方法。为了解决上述问题,已经考虑了 使用机械训练策略的方法。然而,该方法受限于训练过程和分级过程是离线进行的并且需 要大量训练数据来获得在特定水准之上的搜索准确度。存在另一个问题,即针对同一关键字查询,不同的用户可能期望不同的结果。例 如,对于同一关键字“乳腺癌”,一个用户可能期望遗传学相关的文章,而另一用户可能期望 关于最新癌症手术的文章。基于总体重要性的分级策略通常无法响应特定用户对信息(即 个性化信息)的请求。
技术实现思路
因此,提供本专利技术的示例性实施例来基本地避免由于现有技术的限制和缺点造成 的一个或更多问题。本专利技术的示例性实施例提供使用相关性反馈来进行数据库搜索的方法,以使得用 户可以使用反馈获得更准确的期望的搜索结果。本专利技术的示例性实施例还提供具有指令程序的记录介质,所述指令程序被有形地 实施、记录于所述记录介质上,并且可由执行使用相关性反馈进行数据库搜索的方法的数 字处理装置执行,所述记录介质是所述数字处理装置可读的。在一些示例性实施例中,一种进行数据库搜索的方法包括接收对第一搜索结果 的相关性反馈;基于所接收的相关性反馈得出相关性函数;以及将所述第一搜索结果应用 到所述相关性函数,并且提供根据相关性级别排序的第二搜索结果。所述接收相关性反馈可以包括接收包含搜索条件的查询;提供对应于所述查询 的第一搜索结果;以及接收对所述第一搜索结果的相关性反馈。所述得出相关性函数可以包括使用分级策略得出所述相关性函数,以根据所述 第一搜索结果中包括的每个数据的相关性级别来返回分级评分,所述分级策略基于所接收 的相关性反馈。 所述分级策略可以是分级支持向量机(RankSVM)、RankNet和RankBoost之一。所述得出相关性函数可以是以SQL语法的以下形式而进行的使用包含训练数据 的训练表作为输入因子,而使用包含已训练结果数据的模型表作为输出因子。所述训练表可以包括实例标识符属性、描述实例的特征向量属性,以及所述实例 的分级标签属性。所述得出相关性函数和所述应用第一搜索结果至少之一可以是以单独的独立查 询语言指令的形式或者整合到现有查询语言的指令的形式,在数据库系统上进行的。所述应用第一搜索结果可以是以SQL语法的以下形式进行的将包含已训练结果 数据的模型表和包含要被预测的数据的测试表用作输入因子,而将包含通过对所要被预测 的数据给出分级评分所获得的结果数据的结果表用作输出因子。所述测试表可以包括实例标识符属性和描述实例的特征向量属性,并且所述结果 表可以包括所述实例标识符属性和实例的分级评分属性。所述相关性反馈可以是对所述第一搜索结果的多级相关性反馈和对所述第一搜 索结果的相对相关性排序反馈之一。所述相关性函数可以被储存为数据库系统上的表。在其他示例性实施例中,一种记录介质具有指令程序,所述指令程序被有形地实 施、记录于所述记录介质上,并且可由执行用于进行数据库搜索的方法的数字处理装置来 执行,所述记录介质是所述数字处理装置可读的。所述程序进行以下操作接收对第一搜索 结果的相关性反馈;基于所接收的相关性反馈得出相关性函数;以及将所述第一搜索结果 应用到所述相关性函数,并且提供根据相关性级别排序的第二搜索结果。附图说明通过参照附图详细描述本专利技术的示例性实施例,本专利技术的示例性实施例将变得更 加显而易见,其中图1和2是用于解释根据本专利技术示例性实施例、使用相关性反馈进行数据库搜索 的方法的概念图;图3和4是根据本专利技术示例性实施例、使用相关性反馈进行数据库搜索的方法的 流程图;图5说明了根据本专利技术示例性实施例、使用相关性反馈进行数据库搜索的方法中 使用的表;图6示出了根据本专利技术示例性实施例、使用相关性反馈进行数据库搜索的方法的 训练过程中的效率实验结果;图7示出了根据本专利技术示例性实施例、使用相关性反馈进行数据库搜索的方法的 预测过程中的效率实验结果;以及图8示出了根据本专利技术示例性实施例、使用相关性反馈进行数据库搜索的方法的 准确度实验结果。具体实施方式 本文公开了本专利技术的示例性实施例。然而,本文公开的具体结构和功能细节对于 描述本专利技术示例性实施例的目的来说仅仅是代表性的,本专利技术的示例性实施例可以以很多 可替代的形式来实施,并且不应该被解读为限于本文所阐述的本专利技术的示例性实施例。因此,尽管本专利技术容许各种修改和可替代的形式,但是本专利技术的特定实施例在附 图中是以示例的方式示出的,并且将在本文中被详细描述。然而,应当理解,并不意图将本 专利技术限于所公开的具体形式,相反,本专利技术是要覆盖落入本专利技术精神和范围的所有修改、等 同方案和替代方案。在附图的全部描述中,类似的标号指代类似的部件。将理解,尽管在本文中可以使用第一、第二等术语来描述各个部件,但是这些部件 并不应该受这些术语限制。这些术语仅被用来将一个部件与其他部件进行区分。例如,第 一部件可以被称为第二部件,并且类似地,第二部件可以被称为第一部件,而不会偏离示例 性实施例的范围。使用在这里,术语“和/或”包括一个或更多相关联列举项的任意或者所 有组合。本文使用的术语仅用于描述特定实施例的目的,并不意图限制示例性实施例。使 用在这里,除非上下文以其他方式明确指出,否则单数形式“一个(a,an)”和“这个(the)” 也意图包括复数形式。还将理解,当使用在本文中时,术语“包括(comprise^comprising、 includes和/或including) ”表明存在所陈述的特征、整体、步骤、操作、部件和/或组件, 但是并不排除存在或添加一个或更多其他特征、整体、步骤、操作、部件、组件和/或其组合除非以其他方式限定,否则在这里使用的所有术语(包括技术和科技术语)具有 如本专利技术所属领域技术人员所普遍理解的相同含义。还将理解,诸如在普遍使用的辞典中 所定义术语这样的术语应该被解释为具有与它们在相关领域的语境中的含义一致的含义, 并且将不在理想化或过于正式的意义上被解释,除非在本文中被如此明确定义。还应该注意,在一些可替代实现中,框中所标注的功能/动作可以不按流程图中 标注的顺序发生。例如,被示出为连续的两个框在实际上可以基本上同时被执行,或者这些 框有时可以以相反的顺序被执行,这取决于所涉及的功能性/动作。数据挖掘策略包括使用关联规则挖掘、分类和预测、聚类,以及文本和网页挖掘 来进行数据分析;和从所述数据中提取有用信息。在这种情本文档来自技高网...

【技术保护点】
一种进行数据库搜索的方法,包括:接收对第一搜索结果的相关性反馈;基于所接收的相关性反馈得出相关性函数;以及将所述第一搜索结果应用到所述相关性函数,并且提供根据相关性级别排序的第二搜索结果。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:刘焕祚
申请(专利权)人:浦项工科大学校产学协力团
类型:发明
国别省市:KR[韩国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1