一种映射方法和设备技术

技术编号:15822644 阅读:36 留言:0更新日期:2017-07-15 04:52
本发明专利技术公开了一种映射方法,应用于集群系统中的主服务器,集群系统还包括各子服务器,包括:将所接收的离散集合切分为若干个离散子集合;将各离散子集合分布至对应的各子服务器,以使各子服务器根据预设偏移量计算公式以及最小完美哈希算法分别得出各离散子集合对应的偏移量值和连续整数子集后,通过将连续整数子集中各元素与偏移量值分别求和得到各离散子集合对应的映射连续整数子集;从各子服务器中获取对应的各映射连续整数子集,合并后得到连续整数映射集合。本方法不会受到单机内存和计算资源的限制,节省了硬件资源,可以对输入地离散集合做相应地线性扩展,提升了映射的转换效率以及机器学习算法的学习效果。

【技术实现步骤摘要】
一种映射方法和设备
本专利技术涉及通信
,特别涉及一种映射方法,本申请同时还涉及一种映射设备。
技术介绍
随着网络技术的不断发展,互联网领域产生的数据量发生了爆炸式的增长,超大规模的互联网数据中凌乱地分布着诸多极具意义的数据信息,通常利用机器学习算法对行业所需的数据信息进行处理与挖掘。尤其是在基于搜索查询结果排序、互联网广告点击率预测、商品个性化推荐、语音识别和智能问答等涉及大规模数据处理的系统中,超大规模机器学习算法已成为最重要的技术支撑之一。机器学习算法通常是对连续的数值矩阵和向量进行运算,这也就要求了输入数据必须是连续数值空间。然而互联网领域的大规模数据一般都是由用户的点击日志、搜索查询日志或者商品购买日志汇总而来,也就是说,绝大部分的互联网数据都是以离散集合的形式存在,比如:一组用户ID的集合:{user_1,user_2,…,user_n};一组商品ID的集合:{item_1,item_2,…,item_n};一组搜索查询的集合:{“男装”,“高跟鞋”,…}。因此在执行机器学习算法之前,先要通过连续数值化方法将离散集合转换为机器学习算法可以使用的连续数值空间,即需要有本文档来自技高网...
一种映射方法和设备

【技术保护点】
一种映射方法,其特征在于,所述方法应用于集群系统中的主服务器,所述集群系统还包括各子服务器,所述方法包括:将输入的离散集合切分为若干个按序排列的离散子集合;将各所述离散子集合分布至对应的各所述子服务器中,以使各所述子服务器根据预设偏移量算法以及预设最小完美哈希算法分别得出各所述离散子集合对应的偏移量值和连续整数子集后,通过将所述连续整数子集中各元素的值与偏移量值分别求和得到各所述离散子集合对应的映射连续整数子集;从各所述子服务器中获取对应的各所述映射连续整数子集,处理后得到映射连续整数集合。

【技术特征摘要】
1.一种映射方法,其特征在于,所述方法应用于集群系统中的主服务器,所述集群系统还包括各子服务器,所述方法包括:将输入的离散集合切分为若干个按序排列的离散子集合;将各所述离散子集合分布至对应的各所述子服务器中,以使各所述子服务器根据预设偏移量算法以及预设最小完美哈希算法分别得出各所述离散子集合对应的偏移量值和连续整数子集后,通过将所述连续整数子集中各元素的值与偏移量值分别求和得到各所述离散子集合对应的映射连续整数子集;从各所述子服务器中获取对应的各所述映射连续整数子集,处理后得到映射连续整数集合。2.如权利要求1所述的方法,其特征在于,将所接收的离散集合切分为若干个离散子集合,具体为:根据预设哈希函数映射出所述离散集合中各元素的哈希值;将各所述哈希值对预设正整数取模得到各所述元素的哈希值所对应的模值;将模值相等的元素分入同一个离散子集合,以形成预设正整数个所述离散子集合。3.如权利要求1所述的方法,其特征在于,处理后得到映射连续整数集合,具体为:计算出所有各所述映射连续整数子集的并集;将并集后集合中所有的元素按照大小顺序排列后得到映射连续整数集合。4.一种映射方法,其特征在于,所述方法应用于集群系统中的各子服务器,所述集群系统还包括主服务器,所述方法包括:从所述主服务器接收对应的离散子集合;根据预设偏移量算法以及最小完美哈希算法分别得出所述离散子集合对应的偏移量值和连续整数子集后,将所述连续整数子集中各元素的值与偏移量值分别求和得到所述离散子集合对应的映射连续整数子集;将所述映射连续整数子集转发至所述主服务器,以使所述主服务器将该映射连续整数子集以及所有从其他子服务器中获取的映射连续整数子集进行处理后得到映射连续整数集合。5.如权利要求4所述的方法,其特征在于,根据预设偏移量算法得出所述离散子集合对应的偏移量值,具体为:判断该离散子集合在所有离散子集合中的所处顺序是否为首位;若是,则该离散子集合对应的偏移量值为0;若否,则该离散子集合对应的偏移量值为所处顺序在其之前的所有离散子集合中的元素个数的总和。6.如权利要求4所述的方法,其特征在于,根据最小完美哈希算法得出所述离散子集合对应的连续整数子集,具体为:根据该离散子集合中元素的个数,构造出对应个数且带有编号的哈希函数,各所述哈希函数的编号形成了一个从0开始的连续正整数的数字序列;根据预设编号分配策略确定各所述元素对应的所述哈希函数的编号,并分别得出各所述元素对应的各所述哈希值;将各所述哈希值进行排序,以得出所述离散子集合对应的连续整数子集。7.如权利要求6所述的方法,其特征在于,根据预设编号分配策略确定各所述元素对应的所述哈希函数的编号,具体为:通过各所述元素基于各所述哈希函数的全部映射结果,确定该离散子集合对应的所有哈希值个数;分别以所述元素个数和所述哈希值个数为边数和节点数,构造无环超图;遍历所述无环超图的每一条边,根据预设节点计算公式得出各所述节点对应的计算结果,以形成基于计算结果的数组;基于数组以及预设编号计算公式,确定各所述元素对应的所述哈希函数的编号。8.如权利要求7所述的方法,其特征在于,基于数组以及预设编号计算公式,确定各所述元素对应的所述哈希函数的编号,具体为:根据所述数组以及预设编号计算公式计算出元素对应的编号值;判断所述编号值是否已被占用;若否,则所述编号值为所述元素对应的所述哈希函数的编号。9.如权利要求6或8任一项所述的方法,其特征在于,将各所述哈希值进行排序,以得出所述离散子集合对应的连续整数子集,具体为:根据所述哈希值对应的所述哈希函数的编号,确定在分配该编号之前分配出去的所有编号的个数,所述哈希值对应的整数为所述个数的大小;...

【专利技术属性】
技术研发人员:陈绪余晋李小龙丁轶熊怀东
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1