一种基于空间格网粒子群的多维度相似度计算方法技术

技术编号:27656768 阅读:17 留言:0更新日期:2021-03-12 14:19
本发明专利技术公开了一种基于空间格网粒子群的多维度相似度计算方法,包括如下步骤:首先针对已构建的格网粒子画像进行初步特征工程,以此为基础进行归一化特征处理,形成归一化的格网粒子画像;对归一化后的格网粒子画像利用Euclidean距离算法与Cosine similarity算法分别对格网粒子画像间进行相似度计算,并针对计算结果进行topN排序;根据二者排序表通过权重控制,再进行聚合运算从而对格网相似度进行去拟合优化,最终生成最佳相似格网粒子群top结果,本发明专利技术结构科学合理,使用安全方便,本发明专利技术集成多种特征工程算法与空间距离算法,通过聚合多种空间距离计算方法来提升准确度。

【技术实现步骤摘要】
一种基于空间格网粒子群的多维度相似度计算方法
本专利技术涉及智能空间计算
,具体为一种基于空间格网粒子群的多维度相似度计算方法。
技术介绍
格网数据又称为栅格数据,是将空间分割成有规律性的网格,并在每个栅格单元(格网粒子)赋予属性来表示实体的一种数据形式,地理栅格数据也是GIS空间数据存储管理的一种重要手段,对于提升计算机空间存储效率具有重要意义。多维度相似度计算是通过格网粒子之间计算,从而预测出相似空间区域。在智能广告投放与区域推荐领域,如何提高其预测空间范围合理性与高效性一直是个难题。
技术实现思路
本专利技术提供一种基于空间格网粒子群的多维度相似度计算方法,可以有效解决上述
技术介绍
中提出多维度相似度计算是通过格网粒子之间计算,从而预测出相似空间区域。在智能广告投放与区域推荐领域,如何提高其预测空间范围合理性与高效性一直是个难题的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于空间格网粒子群的多维度相似度计算方法,包括如下步骤:首先针对已构建的格网粒子画像进行初步特征工程,以此为基础进行归一化特征处理,形成归一化的格网粒子画像;对归一化后的格网粒子画像利用Euclidean距离算法与Cosinesimilarity算法分别对格网粒子画像间进行相似度计算,并针对计算结果进行topN排序;根据二者排序表通过权重控制,再进行聚合运算从而对格网相似度进行去拟合优化,最终生成最佳相似格网粒子群top结果。根据上述技术方案,所述归一化(Min-MaxNormalization)处理,归一化的具体作用是归纳统一样本的统计分布性将空间格网粒子画像属性映射到0~1范围之内,特征处理映射公式如下:根据上述技术方案,所述euclidean距离公式,利用两点间距离最小相似度最高的方式判定,两空间格网粒子之间的相似度大小,具体euclidean公式如下:根据上述技术方案,所述euclidean距离公式将数据集代入计算模型中,可以计算出得到所有空间格网粒子的topN倒排表,N为常量控制参数。根据上述技术方案,所述Cosinesimilarity算法进行模型计算,Cosinesimilarity算法计算公式如下:根据上述技术方案,通过高维空间向量之间的对比分析,根据Cosinesimilarity算法,将数据集代入计算模型中,可以计算得到空间格网粒子topN倒排表,N为常量控制参数,可以根据调整N的大小来控制,倒排表的规模。根据上述技术方案,所述euclidean倒排表与Cosinesimilarity倒排表分别代入混合相似度计算模型中,混合相似度计算模型通过权重参数β控制两算法的重要度排比,并且将根据聚合函数混合计算euclidean倒排表与Cosinesimilarity倒排表的混合相似结果,生成二者排序结果最优的格网粒子,并针对于混合相似度计算进行综合排序,生成最终的倒排表。根据上述技术方案,使用测试数据集进行算法评估,GridSreachCV(网格搜索交叉验证),可以得出算法优化方案,并得出结论,算法的有优异性与使用的格网粒子数据的颗粒度有关。与现有技术相比,本专利技术的有益效果:本专利技术结构科学合理,使用安全方便,本专利技术集成多种特征工程算法与空间距离算法,通过聚合多种空间距离计算方法来提升准确度,利用构建完整的空间格网粒子画像来进行特征相关性的验证,从而实现“物尽其用”的最佳优化,从空间格网粒子画像中将离散特征转化为连续特征,从而去除部分噪声特征影响,使用matplotlab(datavisualization)将部分特征通过曲线拟合进行相关性筛选,从而实现空间格网粒子画像的特征工程,去除噪声特征对计算模型的影响,基于空间格网粒子群画像初步特征工程处理,能够充分利用同空间粒子不同维度的空间信息的拓扑结构,优化空间计算模型的准确率,通过特征工程处理,减少计算数据无效维度,提升模型计算效率。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是本专利技术的算法流程结构示意图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。实施例:如图1所示,本专利技术提供技术方案,一种基于空间格网粒子群的多维度相似度计算方法,包括如下步骤:首先针对已构建的格网粒子画像进行初步特征工程,以此为基础进行归一化特征处理,形成归一化的格网粒子画像;对归一化后的格网粒子画像利用Euclidean距离算法与Cosinesimilarity算法分别对格网粒子画像间进行相似度计算,并针对计算结果进行topN排序;根据二者排序表通过权重控制,再进行聚合运算从而对格网相似度进行去拟合优化,最终生成最佳相似格网粒子群top结果。根据上述技术方案,所述归一化(Min-MaxNormalization)处理,归一化的具体作用是归纳统一样本的统计分布性,归一化在0-1之间是统计的概率分布,归一化在-1-+1之间是统计的坐标分布,基于统计学归一化方法,我们将空间格网粒子画像属性映射到0~1范围之内,从而提升空间计算模型的高效性与准确度,归一化也称为离差标准化,特征处理映射公式如下:根据上述技术方案,所述euclidean距离公式,利用两点间距离最小相似度最高的方式判定,两空间格网粒子之间的相似度大小,具体euclidean公式如下:根据上述技术方案,所述euclidean距离公式将数据集代入计算模型中,可以计算出得到所有空间格网粒子的topN倒排表,N为常量控制参数,可以根据调整N的大小来控制,倒排表的规模,从而实现对相似召回规模的控制使计算存储效率大大提升。根据上述技术方案,所述Cosinesimilarity算法进行模型计算,Cosinesimilarity算法优势在于突出高维度方向相似性的对比分析,对于高维度的空间格网粒子拥有极高的耦合度,Cosinesimilarity算法计算公式如下:根据上述技术方案,通过高维空间向量之间的对比分析,实现超参对离群点敏感,从而剔除高维异常空间格网粒子,根据上述Cosinesimilarity算法,将数据集代入计算模型中,可以计算得到空间格网粒子topN倒排表,N为常量控制参数,可以根据调整N的大小来控制,倒排表的规模,从而实现对相似召回规模的控制使计算存储效率大大提升。根据上述技术方案,所述euclidean倒排表与Cosinesimilarity倒排表分别代入混合相似度计算模型中,混合相似度计算模型通过权重参数β控制两算法的重要度排比,并且将根据聚合函数混合计算euclidean倒排表与Cosinesimilarity倒排表的混合相似结果,生成二者排序结果最优的格网粒子,并针对于混合相似度计算进行综合排序,生本文档来自技高网...

【技术保护点】
1.一种基于空间格网粒子群的多维度相似度计算方法,其特征在于:包括如下步骤:/n首先针对已构建的格网粒子画像进行初步特征工程,以此为基础进行归一化特征处理,形成归一化的格网粒子画像;/n对归一化后的格网粒子画像利用Euclidean距离算法与Cosine similarity算法分别对格网粒子画像间进行相似度计算,并针对计算结果进行topN排序;/n根据二者排序表通过权重控制,再进行聚合运算从而对格网相似度进行去拟合优化,最终生成最佳相似格网粒子群top结果。/n

【技术特征摘要】
1.一种基于空间格网粒子群的多维度相似度计算方法,其特征在于:包括如下步骤:
首先针对已构建的格网粒子画像进行初步特征工程,以此为基础进行归一化特征处理,形成归一化的格网粒子画像;
对归一化后的格网粒子画像利用Euclidean距离算法与Cosinesimilarity算法分别对格网粒子画像间进行相似度计算,并针对计算结果进行topN排序;
根据二者排序表通过权重控制,再进行聚合运算从而对格网相似度进行去拟合优化,最终生成最佳相似格网粒子群top结果。


2.根据权利要求1所述的一种基于空间格网粒子群的多维度相似度计算方法,其特征在于,所述归一化(Min-MaxNormalization)处理,归一化的具体作用是归纳统一样本的统计分布性将空间格网粒子画像属性映射到0~1范围之内,特征处理映射公式如下:





3.根据权利要求1所述的一种基于空间格网粒子群的多维度相似度计算方法,其特征在于,所述euclidean距离公式,利用两点间距离最小相似度最高的方式判定,两空间格网粒子之间的相似度大小,具体euclidean公式如下:





4.根据权利要求3所述的一种基于空间格网粒子群的多维度相似度计算方法,其特征在于,所述euclidean距离公式将数据集代入计算模型中,可以计算出得到所有空间格网粒子的topN倒排表,N为常量控制...

【专利技术属性】
技术研发人员:朱与墨田鹏飞吴丹
申请(专利权)人:亿景智联北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1