当前位置: 首页 > 专利查询>东南大学专利>正文

一种用户偏好检索方法技术

技术编号:8716314 阅读:204 留言:0更新日期:2013-05-17 19:03
本发明专利技术公开了一种用户偏好检索方法,首先判断多维的用户偏好模型中,注册中心数据的各维之间的相关性是否确定,如确定,则进行多维降到一维的数据处理,否则进行多维到低维的多维数据处理。本发明专利技术方法找出对用户偏好模型数据的有效的索引方法并根据用户偏好模型表达的用户偏好在数据库中有效地检索k个最优的数据项的索引方法,使得检索过程不必扫描整个数据库,并构建一个满足不同情况的top-k检索引擎,可提供高效的检索服务。

【技术实现步骤摘要】

本专利技术属于计算机领域,涉及用户偏好检索方法
技术介绍
在日趋激烈的竞争环境下,用户偏好检索引擎能有效的将用户转变为忠实的访问者,提高Web服务能力。成功的推荐系统会带来巨大的效益,不仅具有广阔的商业前景,而且将给计算机科学诸多领域的发展带来深远的影响。随着知识经济的发展,Web服务偏好最终将成为一种向用户提供个性化服务的有效手段,必将在人们的经济生活中有着更广泛的应用,扮演着更重要的角色,因此对Web服务偏好推荐技术的研究具有重要意义。CP-net (用户偏好模型)的性质在学术界已经得到广泛研究,但针对CP_net的检索方法还很少提出。以最具代表性的Top-k检索为例,其实现的直观方法是,通过两两比较排序所有的数据项,然后选取最好的若干个(k个)。这样的方法需要至少一个顺序扫描全部的数据集,这对于大数据来说代价是非常高的。另一方面,直接将两个数据项按照用户的条件偏好进行比较,判断哪一个更优是一个复杂度非常高的问题。top-k检索技术是一种支持用户偏好的检索引擎,能够找到最满足用户需求的k个服务。值得注意的是,本专利技术所涉的是用户偏好和数据库相结合的技术。以往的研究主要集中于如何在数据库的查询中表达用户的偏好和如何基于用户的偏好有效地检索数据。最具代表性的以偏好为中心的数据检索方法是Top-k和Skyline。但是,绝大部分的Top-k和Skyline方法都没有考虑用户偏好中各个属性间的依赖关系。因此,很难应用这些方法来处理由CP-net表示的用户偏好。然而相关的数据检索算法仍然采用定量的方法来衡量用户对数据库中数据项的感兴趣程度。这些定量的方法不能准确地获得CP-net表达的定性偏好的语义。该技术主要目的是找出对CP-net数据的有效的indexing方法并根据CP-net表达的用户偏好在数据库中有效地检索k个最优的数据项的索引方法,使得检索过程不必扫描整个数据库,并构建一个满足不同情况的top-k检索引擎,提供高效的检索服务。Hilbert (希尔伯特曲线)描述了一种多维空间与I维空间--映射的方法,在图像处理、多维数据索引等领域有着重要的地位。关于Hilbert曲线编码生成,有两种实现方法:一个是表驱动方法,另一个是计算的方法。表驱动方法通过扫描代码扫描列表来实现曲线生成。Fish给出了一个迭代的表驱动版本使得I维到2维的映射得以执行。Cole给出了由2维向I维转化的逆向的映射表驱动版本。J in和Melbr-Crummey提出了一个空间填充曲线产生的框架来有效地生成空间填充曲线。表驱动的一个最大缺点就是它的空间复杂度很高。计算的方法通过一对一的计算来实现映射。Butz的算法计算与曲线上任意一个点对应的坐标。Faloutsos和Roseman给出了一个非迭代的方法,通过分析Z_order与Hilbert的关系来实现这个映射。 PCA (主值分析法)主要用于数据降维,对于一系列例子的特征组成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的例子中都为1,或者与I差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常小。所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的维,从而使特征留下的都是“精品”,而且计算量也变小了。对于一个k维的特征来说,相当于它的每一维特征与其他维都是正交的(相当于在多维坐标系中,坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小。我们的做法就是求得一个k维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交,特征向量都是正交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。
技术实现思路
技术问题:本专利技术提供了一种可提供高效的检索服务的用户偏好检索方法。技术方案:本专利技术的用户偏好检索方法,包括以下步骤:首先判断多维的用户偏好模型中,注册中心数据的各维之间的相关性是否确定,如确定,则进行多维降到一维的数据处理,否则进行多维到低维的多维数据处理;多维到一维的数据处理的步骤为:al)把多维的用户偏好模型中的注册中心数据用希尔伯特曲线降维方法降成一维注册中心数据;a2)对所降成的一维数据建立位图索引或B+树索引;a3)用户偏好搜索引擎在把用户查询信息也用希尔伯特曲线降维方法降成一维,得到一维用户查询信息;a4)根据位图索引或B+树索引找到一维用户查询信息所对应的索引信息,然后在注册中心数据中找到对应的数据信息,把符合用户需求的服务地址和名称发送给用户;多维到低维的多维数据处理的步骤为:bl)用主值分析法或小波变换法,找到用户偏好模型中的注册中心数据中各维之间的相关性,并对注册中心数据进行降维,得到低维的注册中心数据;b2)对低维的注册中心数据建立多维的索引;b3)用户偏好搜索引擎把用户查询信息用主值分析法或小波变换法降维处理,得到低维用户查询信息;b4)根据多维的索引,找到低维用户查询信息所对应的索引信息,然后在注册中心数据中找到对应的数据信息,把符合用户需求的服务地址和名称发送给用户。本专利技术中,注册中心数据的各维之间的相关性是否确定的判断方法为:采用用户偏好模型中的Top-k检索引擎在注册中心数据库中检索服务信息,得到包含至少两个服务信息的检索结果,当检索结果的服务信息都不相同时,则说明多个用户对不同属性间的偏好程度不同的,数据维之间的相关性是确定的,如果检索结果的服务信息有相同的部分,则数据维之间的相关性是不确定的。本专利技术的步骤bl)中采用主值分析法时,步骤b3)中也采用主值分析法;如步骤bl)中采用小波变换法时,步骤b3)中也采用小波变换。有益效果:本专利技术与现有技术相比,具有以下优点:以往的研究主要集中于如何在数据库的查询中表达用户的偏好和如何基于用户的偏好有效地检索数据。最具代表性的以偏好为中心的数据检索方法是Top-k和Skyline。但是,绝大部分的Top-k和Skyline方法都没有考虑用户偏好中各个属性间的依赖关系。因此,很难应用这些方法来处理由CP-net表示的用户偏好。然而相关的数据检索算法仍然采用定量的方法来衡量用户对数据库中数据项的感兴趣程度。这些定量的方法不能准确地获得CP-net表达的定性偏好的语义。CP-net的性质在学术界已经得到广泛研究,但针对CP_net的检索方法还很少提出。以最具代表性的Top-k检索为例,其实现的直观方法是,通过两两比较排序所有的数据项,然后选取最好的若干个(k个)。这样的方法需要至少一个顺序扫描全部的数据集,这对于大型数据库来说代价是非常高的。另一方面,直接将两个数据项按照用户的条件偏好进行比较,判断哪一个更优是一个复杂度非常高的问题,Boutilier在文献中证明了对于二元值的无环CP-net进行dominance测试是一个NP完全问题。本专利技术方法找出对CP-net (用户偏好模型)数据的有效的indexing (索引)方法并根据CP-net (用户偏好模型)表达的用户偏好在数据库中有效地检索k个最优的数据项的索引方法,使得检索过程不必扫描整个数据库本文档来自技高网
...

【技术保护点】
一种用户偏好检索方法,其特征在于,该方法包括以下步骤:首先判断多维的用户偏好模型中,注册中心数据的各维之间的相关性是否确定,如确定,则进行多维降到一维的数据处理,否则进行多维到低维的多维数据处理;所述多维到一维的数据处理的步骤为:a1)把多维的用户偏好模型中的注册中心数据用希尔伯特曲线降维方法降成一维注册中心数据;a2)对所降成的一维数据建立位图索引或B+树索引;a3)用户偏好搜索引擎在把用户查询信息也用希尔伯特曲线降维方法降成一维,得到一维用户查询信息;a4)根据位图索引或B+树索引找到一维用户查询信息所对应的索引信息,然后在注册中心数据中找到对应的数据信息,把符合用户需求的服务地址和名称发送给用户;所述多维到低维的多维数据处理的步骤为:b1)用主值分析法或小波变换法,找到用户偏好模型中的注册中心数据中各维之间的相关性,并对注册中心数据进行降维,得到低维的注册中心数据;b2)对低维的注册中心数据建立多维的索引;b3)用户偏好搜索引擎把用户查询信息用主值分析法或小波变换法降维处理,得到低维用户查询信息;b4)根据多维的索引,找到低维用户查询信息所对应的索引信息,然后在注册中心数据中找到对应的数据信息,把符合用户需求的服务地址和名称发送给用户。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王红兵王玉文陈鑫吴琴
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1