【技术实现步骤摘要】
相似度处理方法、对象筛选方法和装置
本申请涉及相似度计算领域,具体而言,涉及一种相似度处理方法、对象筛选方法和装置。
技术介绍
现有技术中,计算余弦相似度的过程本身不难,但是在大数据应用的背景下,协同过滤面临的主要瓶颈是计算性能的问题。应用协同过滤需要两两个体之间计算一次相似度,假设有N个对象,那么计算复杂度即为N2。专利技术人发现,在实际的应用中,计算规模是比较大的。以淘宝推荐场景为例,如果使用基于商品的协同过滤算法,淘宝8亿在线商品,那么计算复杂度则为8亿的平方,这个计算规模是无法承受的。这种大规模的计算会导致一些问题的存在,例如,需要进行计算复杂度为8亿的平方的计算,那么就需要大量的服务器,如果目前布局的服务器不足够多,将导致服务器一致处于满负荷运算中,对于其他的的请求将无法响应,会导致不良的后果出现。另外,专利技术人还发现,在其他的场景中,也可能存在对计算的一些要求,例如,计算时间的要求等,如果计算规模较大则无法达到时间要求。针对相关技术中相似度计算规模较大所导致的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种相似度处理方法、对象筛选 ...
【技术保护点】
一种相似度处理方法,其特征在于,包括:获取计算条件,其中,在所述计算条件被满足的情况下,能够计算两两相似度的对象个数的最大值为k;根据所述计算条件从n个对象中筛选出i个对象,其中,i小于等于n,i小于等于k;对所述i个对象两两计算相似度。
【技术特征摘要】
1.一种相似度处理方法,其特征在于,包括:获取计算条件,其中,在所述计算条件被满足的情况下,能够计算两两相似度的对象个数的最大值为k;根据所述计算条件从n个对象中筛选出i个对象,其中,i小于等于n,i小于等于k;对所述i个对象两两计算相似度。2.根据权利要求1所述的方法,其特征在于,所述计算条件包括以下至少之一:用于计算相似度的资源、计算相似度的时间、计算相似度的规模。3.根据权利要求1或2所述的方法,其特征在于,从所述n个对象中筛选出所述i个对象包括:根据所述n个对象中每个对象分别对应的一个或多个属性的值,从所述n个对象中筛选出i个对象。4.根据权利要求3所述的方法,其特征在于,根据所述n个对象中每个对象分别对应的一个或多个属性的值,从所述n个对象中筛选出i个对象包括:将一个或多个属性的值落入到预定范围的对象从所述n个对象中筛选出来作为所述i个对象,其中,所述预定范围是根据所述i的值确定的。5.根据权利要求3所述的方法,其特征在于,根据所述n个对象中每个对象分别对应的一个或多个属性值,从所述n个对象中筛选出i个对象包括:根据所述每个对象对应的一个或多个相同属性的值计算得到所述每个对象分别对应的聚类因子;根据所述聚类因子从所述n个对象中筛选出所述i个对象。6.根据权利要求5所述的方法,其特征在于,根据所述聚类因子从所述n个对象中筛选出所述i个对象包括:按照所述每个对象分别对应的聚类因子的大小对所述每个对象进行排列;从排列好的所述n个对象中选择连续的所述i个对象。7.根据权利要求3所述的方法,其特征在于,根据所述n个对象中每个对象分别对应的一个或多个属性值,从所述n个对象中筛选出i个对象包括:根据所述每个对象对应的一个或多个相同属性的值计算得到所述每个对象分别对应的聚类因子;根据所述聚类因子和所述一个或多个属性从所述n个对象中筛选出所述i个对象。8.一种相似度处理装置,其特征在于,包括:第一获取模块,用于获取计算条件,其中,在所述计算条件被满足的情况下,能够计算两两相似度的对象个数的最大值为k;第一筛选模块,用于根据所述计算条件从n个对象中筛选出i个对象,其中,i小于等于n,i小于等于k;第一计算模块,用于对所述i个对象两两计算相似度。9.根据权利要求8所述的装置,其特征在于,所述计算条件包括以下至少之一:用于计算相似度的资源、计算相似度的时间、计算相似度的规模。10.根据权利要求8或9所述的装置,其特征在于,所述第一筛选模块用于根据所述n个对象中每个对象分别对应的一个或多个属性的值,从所述n个对象中筛选出i个对象。11.根据权利要求10所述的装置,其特征在于,所述第一筛选模块用于将一个或多个属性的值落入到预定范围的对象从所述n个对象中筛选出来...
【专利技术属性】
技术研发人员:郑苏杭,徐萧萧,应倩岚,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。