【技术实现步骤摘要】
一种社交媒体中定位地点信息与文本地点信息融合方法
[0001]本专利技术涉及社交媒体监督数据处理分析
,具体涉及一种社交媒体中定位地点信息与文本地点信息融合方法
。
技术介绍
[0002]社交媒体数据
(social media data, SMD)
,例如从微博
、
推特
(Twitter)、Facebook
等平台抓取的数据,已经成为交通行为分析领域的一个重要数据来源
。
社交媒体中内嵌的地点信息,例如人们分享的定位信息,为分析行人的出行方式提供宝贵依据
。
之前研究仅利用人们分享的定位地点信息
(geotag
‑
based location)
来做交通行为分析,但文献研究证明,日常生活中在社交媒体分享定位信息的人的比例极低,以推特为例,分享
geotag
人比例仅为
1%
,从而致使大量社交媒体数据无法被充分利用
。
技术实现思路
[00 ...
【技术保护点】
【技术特征摘要】
1.
一种社交媒体中定位地点信息与文本地点信息融合方法,其特征在于,该方法包括以下步骤:步骤
S1
:采集并筛选与主题相关的社交媒体数据
SMD
;步骤
S2
:利用命名实体匹配算法
NEM
从主题相关的社交媒体数据
SMD
的文本中提取出有效的文本地点信息,并利用定位标记
Geotag
提取出定位地点信息;步骤
S3
:利用相应的融合策略将文本地点信息与定位地点信息进行融合,以确定每条社交媒体数据
SMD
使用哪种地点信息来为后续的交通行为分析服务
。2.
根据权利要求1所述的社交媒体中定位地点信息与文本地点信息融合方法,其特征在于,在所述步骤
S1
中,社交媒体数据
SMD
采集与筛选过程如下:步骤
S1.1
:数据爬取,根据关键字
、
时间窗
、
地理边界从社交媒体数据
SMD
中爬取与分析主题相关的数据;步骤
S1.2
:噪声滤除,将非当地官方语言数据
、
短数据
、
重复数据滤除,剩下的数据组成原始社交媒体数据
SMD
;步骤
S1.3
:数据筛选,使用文本滤波器筛选出与主题相关的数据,构成主题相关社交媒体数据
SMD。3.
根据权利要求2所述的社交媒体中定位地点信息与文本地点信息融合方法,其特征在于,所述步骤
S2
中,命名实体匹配算法
NEM
实现分为如下几个步骤:步骤
S2.1
:分词,将一段或一句文字分成不同的片段;步骤
S2.2
:建立地点名词典,通过爬取地点名数据库
GeoNames
和地点名数据库
OpenStreetMap
,建立分析区域的所有地点名的数据子库,即地点名词典;步骤
S2.3
:片段和地点名的标准化,将每个片段和每个地点名格式统一化,以及将缩写的文字恢复全称形式...
【专利技术属性】
技术研发人员:李腾,陈卓,
申请(专利权)人:苏州工业园区蒙纳士科学技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。