基于语义聚类的签到热点功能特征识别方法技术

技术编号:30036724 阅读:12 留言:0更新日期:2021-09-15 10:33
本发明专利技术涉及基于语义聚类的签到热点功能特征识别方法,属于数据处理技术领域,该方法包括获取某社交网站上某一段时间内用户的签到数据,根据签到数据确定若干个热点区域;对每个热点区域中的签到数据,利用基于语义相似度的POI聚类算法,进行POI分类;如利用Word2Vec相似度计算函数,计算样本点的语义相似度,输出相似矩阵W;然后计算拉普拉斯矩阵,接下来计算拉普拉斯矩阵前k个特征值所对应的特征向量,最后将计算得到的特征向量组成的矩阵U,U的每一行成为一个新生成的样本点,对这些新生成的样本点进行聚类,分类算法的计算消耗时间更少,且POI类别标签的分类结果更加准确和精简,识别率更高。识别率更高。识别率更高。

【技术实现步骤摘要】
基于语义聚类的签到热点功能特征识别方法


[0001]本专利技术属于数据处理
,具体涉及基于语义聚类的签到热点功能特征识别方法。

技术介绍

[0002]近年来,随着互联网的发展,社交媒体发展迅速。社交媒体是通过发布技术者所创造的信息内容,该技术高度开发,并且具有拓展性强的特点,它改变了人类在阅读、分享和评论新闻信息内容的方式。
[0003]在国内,新浪微博是最近几年发展迅猛且影响力极大的全民网络社交媒体形式。微博签到数据反映了用户在特定的时间、地点条件下记录的所见、所闻、所感、言论以及状态。这些发生在用户身边的事件能够通过发布包含文字、图片、视频等内容的签到功能记录下来,具有丰富的位置、时间等属性信息。这些位置信息可能是咖啡店、商场、电影院、火车站等各种各样的兴趣点(point of interest,POI)。通过分析和挖掘微博签到数据,就能够了解到用户群体的特征,例如年龄性别、空间分布、兴趣爱好等,进而根据这些结论和知识为用户提供个性化的服务。
[0004]随着互联网技术和定位技术的高速发展,智能移动设备如手机、平板电脑、智能手表等产品的普及,这些为获得海量签到数据提供了有利条件。人们习惯于使用各种APP中的位置服务进行签到、评论、分享等操作,所以大量的签到数据可以反映人们的日常生活范围和轨迹。可以运用各种地理信息系统中空间分析方法对签到数据进行分析,得到城市人群活动热点区域,从而为城市公共资源的合理分配提供建议和支持。例如共享单车迅猛发展,可以通过城市人群活动热点探测来确定共享单车投放量和投放点;对景区签到数据进行分析,可以为游客合理安排旅游时间,避免旅游景点的高峰期。
[0005]近年来,出现不少学者以社交媒体的位置签到数据作为数据源,进行城市热点和人群活动研究。国外常用于提取POI数据的社交媒体有Foursquare、Twitter、Facebook等。例如, Comito等人从带有地理标记的Twitter中挖掘用户旅行路线,从而分析旅游热点地区和人们行为活动;Li等人以加利福尼亚州Twitter和Flickr的推文和照片为例,研究了美国邻近地区地理数据的时空模式,探讨了城市热门地区和当地居民特征。
[0006]而新浪微博作为国内主流社交网络平台,同样得到了国内学者的广泛关注。例如,王波等人基于签到数据,分别从时间、空间两个角度分析南京市的居民签到行为特征,并进行城市功能区划分;张子昂等人基于微博签到数据,分别从时间、空间两个维度,对南京钟山风景区内部游客行为活动的演变特征进行探索;陈宏飞等人研究西安市夜间用户签到行为在时间和空间上的演变规律;滕巧爽等人以微博签到数据为例,从空间模式上进行分析,探测城市热点区域大致方向。
[0007]因此,现有技术中,基于社交媒体签到数据的研究均主要从空间或时间的维度来分析城市热点区域和用户签到行为特征,这些研究方法往往局限于常规的经典统计和地理统计,这就导致对数据的语义特征挖掘不够深入和全面,分析得到不准确的行为活动。
[0008]另外,目前对于POI数据的分类上,主要通过人工的方法,人们手动建立各分类体系中不同类别之间的映射关系,进而实现不同分类体系之间的转换与对比。这种人工构建分类体系映射POI关系的方法,需要投入大量的人力、物力和时间,无法进行大规模的推广和应用。
[0009]随着中文分词、语义计算、文本聚类等相关技术的发展和成熟,出现了基于内容的POI 文本分类方法,例如张春菊等人从语义层面分析地理信息标准分类体系的语义不一致性,提出基于语义的地理信息分类体系;罗安等人提出一种基于角色标注的中文POI名称语义分类方法;王勇等人利用分类特征词提取、去重、优化等技术,实现多源异构的POI分类体系映射与转换。然而,这些分类方法计算方法非常复杂,适用性不高,同时有可能会忽略词语有效特征,产生语义歧义,进而影响POI的分类精度。

技术实现思路

[0010]本专利技术的目的是提供一种基于语义聚类的签到热点功能特征识别方法,用于解决现有方法中POI数据分类算法复杂、且精度较低的问题。
[0011]基于上述目的,一种基于语义聚类的签到热点功能特征识别方法的技术方案如下:
[0012]1)获取某社交网站上某一段时间内用户的签到数据,根据所述签到数据确定若干个热点区域;
[0013]2)对每个热点区域中的签到数据,利用基于语义相似度的POI聚类算法,进行POI分类;所述基于语义相似度的POI聚类算法包括以下子步骤:
[0014]获取签到数据的样本点,调用Word2Vec相似度计算函数,计算样本点的语义相似度,输出相似矩阵W;计算相似矩阵W的每一行元素之和d
i
,得到由d
i
组成n*n的对角矩阵,即度矩阵D;
[0015]计算拉普拉斯矩阵L=D

W;计算L的特征值,将特征值从小到大排序,取前k个特征值,并计算前k个特征值的特征向量u1,u2,

,u
k
;将此k个特征向量组成矩阵U={u1,u2,

,u
k
},U∈R
n*k

[0016]令y
i
∈R
k
是U的第i行的向量,其中i=1,2,

,n;将新样本点Y={y1,y2,

,y
n
}聚类成 {C1,C2,

,C
k
};输出簇A1,A2,

,A
k
,其中A
i
={j|y
j
∈C
i
}。
[0017]上述技术方案的有益效果是:
[0018]本专利技术的签到热点功能特征识别方法,利用基于语义相似度的POI聚类算法,进行了 POI分类,利用Word2Vec相似度计算函数,计算样本点的语义相似度,输出相似矩阵W;然后计算拉普拉斯矩阵,接下来计算拉普拉斯矩阵前k个特征值所对应的特征向量,最后将计算得到的特征向量组成的矩阵U,U的每一行成为一个新生成的样本点,对这些新生成的样本点进行聚类,分类算法的计算消耗时间更少,且POI类别标签的分类结果更加准确和精简,识别率更高。
[0019]进一步的,为了满足用户对不同类型活动的签到数据进行分析的需求,根据所述签到数据确定若干个热点区域包括:
[0020]将签到数据反映的行为活动分为三类,分别为高频重访活动、低频重访活动、拍照活动;
[0021]采用核密度估计方法,分别对各类型活动下的签到数据,进行热点区域的探测选取:
[0022]使用核密度分析工具,输入字段为签到总次数,得到签到活动热点区域结果图;
[0023]对于高频重访活动:使用核密度分析工具,输入字段为签到总次数/签到人数,得到高频重访活动区域结果图,将高频重访活动区域结果图中筛选出的POI点与签到活动热点区域结果图叠加,选取重合匹配的区域作为该本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于语义聚类的签到热点功能特征识别方法,其特征在于,包括以下步骤:1)获取某社交网站上某一段时间内用户的签到数据,根据所述签到数据确定若干个热点区域;2)对每个热点区域中的签到数据,利用基于语义相似度的POI聚类算法,进行POI分类;所述基于语义相似度的POI聚类算法包括以下子步骤:获取签到数据的样本点,调用Word2Vec相似度计算函数,计算样本点的语义相似度,输出相似矩阵W;计算相似矩阵W的每一行元素之和d
i
,得到由d
i
组成n*n的对角矩阵,即度矩阵D;计算拉普拉斯矩阵L=D

W;计算L的特征值,将特征值从小到大排序,取前k个特征值,并计算前k个特征值的特征向量u1,u2,

,u
k
;将此k个特征向量组成矩阵U={u1,u2,

,u
k
},U∈R
n*k
;令y
i
∈R
k
是U的第i行的向量,其中i=1,2,

,n;将新样本点Y={y1,y2,

,y
n
}聚类成{C1,C2,

,C
k
};输出簇A1,A2,

,A
k
,其中A
i
={j|y
j
∈C
i
}。2.根据权利要求1所述的基于语义聚类的签到热点功能特征识别方法,其特征在于,根据所述签到数据确定若干个热点区域包括:将签到数据反映的行为活动分为三类,分别为高频重访活动、低频重访活动、拍照活动;采用核密度估计方法,分别对各类型活动下的签到数据,进...

【专利技术属性】
技术研发人员:杨剑王鹏启贾奋励王光霞
申请(专利权)人:中国人民解放军三二零二三部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1