【技术实现步骤摘要】
一种支持高维数据实时有偏查询的并行索引方法
本专利技术属于搜索
,尤其涉及一种支持高维数据实时有偏查询的并行索引方法。
技术介绍
高维数据:指属性(特征)多于20维的数据。各种类型的交易数据、社交网络信息、Web文档和使用数据、地理信息、文档词频数据、用户评分数据、多媒体数据等呈现出多源、海量、异构(非结构化的数据模型)与高维的特征即它们的维度(属性)通常可以达到成百上千维,甚至更高,造成各种应用中需要检索的数据日益复杂且数据量急剧膨胀。有偏查询:用户基于自身的偏好与在环境交互中的体验,在不同的场景中仅对数据属性中的某些特征维比较关心,选取部分特征(动态选择几个或更多特征)作为检索的要求,同时所选维度也具有了随机(用户定义)的权重,呈现出有偏(Bias-based)查询的特征。KNN相似搜索:K最邻近结点(k-NearestNeighbor)搜索,不同于范围(Range)搜索,不能预先确定要搜索的范围,即最近邻节点可能很近也可能很远(相对搜索条件而言)。并行索引:采用多个索引服务器构建索引,索引服务器具备通讯接口可以接受查询命令,每个服务器分别选取部分维度建 ...
【技术保护点】
一种支持高维数据实时有偏查询的并行索引方法,其特征在于,所述方法包括:查询系统使用MapReduce对数据属性进行特征抽取作为输入,由查询系统中的多个索引服务器采用数据密度弹性划分数据桶的哈希函数,优化LSH算法分别构建数据的向量索引,其中,各个索引服务器的向量索引之间形成正交关系;查询系统接收用户的有偏查询,通过有向聚类映射方法将有偏查询所携带的距离改变投影以映射到该查询系统的多个索引服务器中;如果所述映射的误差超过用户能够接受的范围,查询系统将有偏查询提交并行组合的索引服务器分别处理;并行组合的索引服务器按所述有偏查询中的用户给出的权重的比例分别返回经筛选后的结果,然后 ...
【技术特征摘要】
1.一种支持高维数据实时有偏查询的并行索引方法,其特征在于,所述方法包括:查询系统使用MapReduce对数据属性进行特征抽取作为输入,由查询系统中的多个索引服务器采用数据密度弹性划分数据桶的哈希函数,优化LSH算法分别构建数据的向量索引,其中,各个索引服务器的向量索引之间形成正交关系;查询系统接收用户的有偏查询,通过有向聚类映射方法将有偏查询所携带的距离改变投影以映射到该查询系统的多个索引服务器中;如果所述映射的误差超过用户能够接受的范围,查询系统将有偏查询...
【专利技术属性】
技术研发人员:王寅峰,邓果丽,许志良,
申请(专利权)人:深圳信息职业技术学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。