基于语义聚类的签到热点功能特征识别方法技术

技术编号：30036724 阅读：12 留言：0更新日期：2021-09-15 10:33

本发明专利技术涉及基于语义聚类的签到热点功能特征识别方法，属于数据处理技术领域，该方法包括获取某社交网站上某一段时间内用户的签到数据，根据签到数据确定若干个热点区域；对每个热点区域中的签到数据，利用基于语义相似度的POI聚类算法，进行POI分类；如利用Word2Vec相似度计算函数，计算样本点的语义相似度，输出相似矩阵W；然后计算拉普拉斯矩阵，接下来计算拉普拉斯矩阵前k个特征值所对应的特征向量，最后将计算得到的特征向量组成的矩阵U，U的每一行成为一个新生成的样本点，对这些新生成的样本点进行聚类，分类算法的计算消耗时间更少，且POI类别标签的分类结果更加准确和精简，识别率更高。识别率更高。识别率更高。

全部详细技术资料下载

【技术实现步骤摘要】
基于语义聚类的签到热点功能特征识别方法

[0001]本专利技术属于数据处理
，具体涉及基于语义聚类的签到热点功能特征识别方法。

技术介绍

[0002]近年来，随着互联网的发展，社交媒体发展迅速。社交媒体是通过发布技术者所创造的信息内容，该技术高度开发，并且具有拓展性强的特点，它改变了人类在阅读、分享和评论新闻信息内容的方式。
[0003]在国内，新浪微博是最近几年发展迅猛且影响力极大的全民网络社交媒体形式。微博签到数据反映了用户在特定的时间、地点条件下记录的所见、所闻、所感、言论以及状态。这些发生在用户身边的事件能够通过发布包含文字、图片、视频等内容的签到功能记录下来，具有丰富的位置、时间等属性信息。这些位置信息可能是咖啡店、商场、电影院、火车站等各种各样的兴趣点(point of interest，POI)。通过分析和挖掘微博签到数据，就能够了解到用户群体的特征，例如年龄性别、空间分布、兴趣爱好等，进而根据这些结论和知识为用户提供个性化的服务。
[0004]随着互联网技术和定位技术的高速发展，智能移动设备如手机、平板电脑、智能手表等产品的普及，这些为获得海量签到数据提供了有利条件。人们习惯于使用各种APP中的位置服务进行签到、评论、分享等操作，所以大量的签到数据可以反映人们的日常生活范围和轨迹。可以运用各种地理信息系统中空间分析方法对签到数据进行分析，得到城市人群活动热点区域，从而为城市公共资源的合理分配提供建议和支持。例如共享单车迅猛发展，可以通过城市人群活动热点探测来确定共享单车投放量和投...

【技术保护点】

【技术特征摘要】
1.基于语义聚类的签到热点功能特征识别方法，其特征在于，包括以下步骤：1)获取某社交网站上某一段时间内用户的签到数据，根据所述签到数据确定若干个热点区域；2)对每个热点区域中的签到数据，利用基于语义相似度的POI聚类算法，进行POI分类；所述基于语义相似度的POI聚类算法包括以下子步骤：获取签到数据的样本点，调用Word2Vec相似度计算函数，计算样本点的语义相似度，输出相似矩阵W；计算相似矩阵W的每一行元素之和d
i
，得到由d
i
组成n*n的对角矩阵，即度矩阵D；计算拉普拉斯矩阵L＝D
‑
W；计算L的特征值，将特征值从小到大排序，取前k个特征值，并计算前k个特征值的特征向量u1,u2,
…
,u
k
；将此k个特征向量组成矩阵U＝{u1,u2,
…
,u
k
}，U∈R
n*k
；令y
i
∈R
k
是U的第i行的向量，其中i＝1,2,
…
,n；将新样本点Y＝{y1,y2,
…
,y
n
}聚类成{C1,C2,
…
,C
k
}；输出簇A1,A2,
…
,A
k
，其中A
i
＝{j|y
j
∈C
i
}。2.根据权利要求1所述的基于语义聚类的签到热点功能特征识别方法，其特征在于，根据所述签到数据确定若干个热点区域包括：将签到数据反映的行为活动分为三类，分别为高频重访活动、低频重访活动、拍照活动；采用核密度估计方法，分别对各类型活动下的签到数据，进...

【专利技术属性】
技术研发人员：杨剑，王鹏启，贾奋励，王光霞，
申请(专利权)人：中国人民解放军三二零二三部队，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人