一种利用POI数据进行地表覆盖分类的方法及系统技术方案

技术编号:15763254 阅读:200 留言:0更新日期:2017-07-06 00:33
本发明专利技术公开了一种利用POI数据进行地表覆盖分类的方法及系统;获取POI数据集,将POI数据集作为地表覆盖分类数据;利用获取的POI数据集构建文档,将文档输入潜在狄利克雷LDA主题模型,进行POI文本主题计算;输出文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ;基于POI文本主题的地表覆盖分类,应用支持向量机SVM算法,构建地表覆盖分类模型;将文档中主题Z的分布概率Θ输入到构建的地表覆盖分类模型中,得到地表覆盖分类结果;基于所得地表覆盖分类结果,以随机抽样的方式从基于遥感影像的地表覆盖分类数据抽取采样点作为参考数据,利用混淆矩阵,对基于POI的地表覆盖分类结果进行精度验证。

Method and system for land surface classification by using POI data

The invention discloses a method using POI data and system for land cover classification method; obtaining the POI data set, classification data set covering surface as the POI data set; POI document by the data acquisition, the document input latent Dirichlet LDA topic model, POI text topic calculation; probability distribution with Z theme the probability distribution of the output document. And each subject in POI text W; POI text topics covered surface classification based on support vector machine SVM algorithm, application, construction land cover classification model; the probability distribution of the input document. In the theme of Z to construct the land cover classification model, get the land cover classification results; the land cover classification results based on the random sampling methods from surface cover classification based on remote sensing image data extraction sampling points as reference data, and Using the confusion matrix, the accuracy of POI based surface cover classification is verified.

【技术实现步骤摘要】
一种利用POI数据进行地表覆盖分类的方法及系统
本专利技术属于地表覆盖分类
,尤其涉及一种利用POI数据进行地表覆盖分类的方法及系统。
技术介绍
地表覆盖及变化数据是环境变化研究、地理国情监测和可持续发展规划等的重要科学数据,其分类与制图一直是国内外研究的热点。目前主要采用遥感影像分类制图方式,其是由专业人员通过分析遥感影像中的光谱和纹理信息,结合专家先验知识和各种参考资料,提取地表覆盖类型和分布信息。该方法受遥感影像获取和分类技术的影响,具有生产周期长,成本高,自动化程度低等不足,导致其难以满足地表覆盖产品快速制图的需求。为减少制图成本,满足用户对地表覆盖产品日益变化的应用需求,需要发展一种新的地表覆盖分类方法。近年来,随着地理时空大数据的应用与发展,很多学者已经在尝试将带地理标签的图片、轨迹、兴趣点(PointofInterest,POI)等众源数据应用于地表覆盖和土地利用的分类。“Antoniou,Vyron,etal."Investigatingthefeasibilityofgeo-taggedphotographsassourcesoflandcoverinputdata."ISPRSInternationalJournalofGeo-Information5.5(2016):64.”分析论述了Panoramio、Flickr、Geograph三种图片数据源应用于地表覆盖分类中的可行性;“See,Linda,etal."Buildingahybridlandcovermapwithcrowdsourcingandgeographicallyweightedregression."ISPRSJournalofPhotogrammetryandRemoteSensing103(2015):48-56.”应用Geo-Wiki中的地理标记信息,通过志愿者对其所在地区的地表覆盖类型进行人工判断,实现中等分辨率地表覆盖的分类与制图;“鲁国珍,常晓猛,李清泉,等.基于人类时空活动的城市土地利用分类研究[J].地球信息科学学报,2015,17(12):1497-1505.”通过分析QQ用户的时空轨迹,构建人类时空活动指数,建立人类活动与土地利用分类的关系;“Hu,Tengyun,etal."MappingurbanlandusebyusingLandsatimagesandopensocialdata."RemoteSensing8.2(2016):151.”依据POI数据的空间分布,采用核密度估计算法,进行商业、住宅等城市区域的划分。上述研究所应用到的图片数据需要人工解译,耗时耗力,而POI和轨迹数据的空间分布也无法直接反映地表覆盖类型。而且,他们都忽略了这些数据中的文本信息与地表覆盖分类语义的关联,诸如POI文本中“餐馆”、“高尔夫球场”、“海滨浴场”,分别对应了地表覆盖中的人造地表、草地和水体。因此,本专利技术提出了一种纯粹利用POI文本语义的地表覆盖分类方法。
技术实现思路
本专利技术提供了一种利用POI数据进行地表覆盖分类的方法及系统,由于POI数据中的文本信息与地表覆盖分类语义具有一定的关联,诸如POI文本中“餐馆”、“高尔夫球场”、“海滨浴场”,分别对应了地表覆盖中的人造地表、草地和水体,故可作为地表覆盖的分类数据。然而,不同POI数据间没有统一的分类标准,且某些POI类型诸如“未知分类”、“旅游景点”和“娱乐场所”等无法直接用于地表覆盖类型的判断。为解决上述问题,本专利技术提出了:一种利用POI数据进行地表覆盖分类的方法,包括如下步骤:步骤A:获取POI数据集,将POI数据集作为地表覆盖分类数据;POI数据集包括:POI类型与表示空间位置的坐标信息;步骤B:利用步骤A所获取的POI数据集构建文档,将文档输入到潜在狄利克雷LDA(LatentDirichletAllocation)主题模型,进行POI文本主题计算;输出文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ;步骤C:基于POI文本主题的地表覆盖分类,应用支持向量机SVM(SupportVectorMachine)算法,构建地表覆盖分类模型;将文档中主题Z的分布概率Θ输入到构建的地表覆盖分类模型中,得到地表覆盖分类结果;步骤D:基于步骤C所得地表覆盖分类结果,以随机抽样的方式从基于遥感影像的地表覆盖分类数据抽取采样点作为参考数据,利用混淆矩阵,对基于POI的地表覆盖分类结果进行精度验证。所述POI数据集包括:新浪微博POI数据集、百度地图POI数据集和高德地图POI数据集。所述步骤B包括:步骤B1:构建用于LDA主题模型输入的文档:将研究区划分为1000m*1000m分辨率的栅格单元,将步骤A所获取的POI数据集空间叠加到栅格单元中,将所有落入同一个栅格单元的POI文本词语W作为一个文档d;步骤B2:将文档d输入到LDA主题模型,利用LDA主题模型对POI的文本主题及分布进行计算,输出文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ。所述LDA主题模型以文档作为输入变量,并假定文档是由设定分布概率下主题Z与词语W决定的,主题Z由词语W构成;Θ是文档中主题Z的分布概率,φ是主题中词语W的分布概率;超参数α和β为LDA主题模型的输入参数,影响主题分布概率Θ和词语分布概率φ;M为文档的数量,N为每篇文档中词语W的个数,K为计算输出主题的数量,K为LDA主题模型的输入参数。文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ,计算公式如下:式中,ni表示第k个主题Z下第i个POI文本词语W的个数,nk表示第k个主题K中POI文本词语W的个数,V为POI数据集中所有POI文本词语W的数量。LDA主题模型中超参数α、β与主题数K决定了分布概率Θ和φ。α、β的取值人为设定,主题数K依据POI类型设定。为确定符合地表覆盖分类的主题数K,引入用于衡量文本混合度的指标perplexity,计算不同主题数K下主题Z的归类情况,perplexity计算公式如下:式中,Dtest为测试数据集,wd为文档中的词语,Nd则为文档的大小。perplexity值代表文档属于某个主题的可信度,Perplexity的值越小,表示计算结果中主题的可信度越高。确定模型参数α、β、K后,得到文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ,其矩阵构建如下:其中,POI文本词语W的分布概率φ反映了主题归类的可信度,文档中主题Z的分布概率Θ反映了地表覆盖类型的分布,文档中主题Z的分布概率Θ用于地表覆盖自动分类。所述地表覆盖分类模型构建过程如下:通过构建空间超平面公式(4)实现样本点的正确分类:A·Θ+b=0(4);其中,A和b分别为构成超平面的参数,Θ为由LDA模型计算所得文档中主题Z的分布概率Θ。随后,定义文档中主题Z的分布概率Θ距离超平面公式(4)的间隔r:其中,AT为参数A的转置;约束条件:yi[A·Θ+b]-1≥0,i=1,2,....M(6);其中,yi为分类的类型,yi∈{-1,+1},-1和+1代表两种不同的分类类型,i表示第i个文档d,M为文档总数。利用间隔r与约束条件,求得超平面参数A和b的值,并构建地表本文档来自技高网
...
一种利用POI数据进行地表覆盖分类的方法及系统

【技术保护点】
一种利用POI数据进行地表覆盖分类的方法,其特征是,包括如下步骤:步骤A:获取POI数据集,将POI数据集作为地表覆盖分类数据;POI数据集包括:POI类型与表示空间位置的坐标信息;步骤B:利用步骤A所获取的POI数据集构建文档,将文档输入到潜在狄利克雷LDA(Latent Dirichlet Allocation)主题模型,进行POI文本主题计算;输出文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ;步骤C:基于POI文本主题的地表覆盖分类,应用支持向量机SVM(Support Vector Machine)算法,构建地表覆盖分类模型;将文档中主题Z的分布概率Θ输入到构建的地表覆盖分类模型中,得到地表覆盖分类结果;步骤D:基于步骤C所得地表覆盖分类结果,以随机抽样的方式从基于遥感影像的地表覆盖分类数据抽取采样点作为参考数据,利用混淆矩阵,对基于POI的地表覆盖分类结果进行精度验证。

【技术特征摘要】
1.一种利用POI数据进行地表覆盖分类的方法,其特征是,包括如下步骤:步骤A:获取POI数据集,将POI数据集作为地表覆盖分类数据;POI数据集包括:POI类型与表示空间位置的坐标信息;步骤B:利用步骤A所获取的POI数据集构建文档,将文档输入到潜在狄利克雷LDA(LatentDirichletAllocation)主题模型,进行POI文本主题计算;输出文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ;步骤C:基于POI文本主题的地表覆盖分类,应用支持向量机SVM(SupportVectorMachine)算法,构建地表覆盖分类模型;将文档中主题Z的分布概率Θ输入到构建的地表覆盖分类模型中,得到地表覆盖分类结果;步骤D:基于步骤C所得地表覆盖分类结果,以随机抽样的方式从基于遥感影像的地表覆盖分类数据抽取采样点作为参考数据,利用混淆矩阵,对基于POI的地表覆盖分类结果进行精度验证。2.如权利要求1所述的一种利用POI数据进行地表覆盖分类的方法,其特征是,所述POI数据集包括:新浪微博POI数据集、百度地图POI数据集和高德地图POI数据集。3.如权利要求1所述的一种利用POI数据进行地表覆盖分类的方法,其特征是,所述步骤B包括:步骤B1:构建用于LDA主题模型输入的文档:将研究区划分为1000m*1000m分辨率的栅格单元,将步骤A所获取的POI数据集空间叠加到栅格单元中,将所有落入同一个栅格单元的POI文本词语W作为一个文档d;步骤B2:将文档d输入到LDA主题模型,利用LDA主题模型对POI的文本主题及分布进行计算,输出文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ。4.如权利要求1所述的一种利用POI数据进行地表覆盖分类的方法,其特征是,所述LDA主题模型以文档作为输入变量,并假定文档是由设定分布概率下主题Z与词语W决定的,主题Z由词语W构成;Θ是文档中主题Z的分布概率,φ是主题中词语W的分布概率;超参数α和β为LDA主题模型的输入参数,影响主题分布概率Θ和词语分布概率φ;M为文档的数量,N为每篇文档中词语W的个数,K为计算输出主题的数量,K为LDA主题模型的输入参数。5.如权利要求1所述的一种利用POI数据进行地表覆盖分类的方法,其特征是,文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ,计算公式如下:式中,ni表示第k个主题Z下第i个POI文本词语W的个数,nk表示第k个主题K中POI文本词语W的个数,V为POI数据集中所有POI文本词语W的数量。6.如权利要求1所述的一种利用POI数据进行地表覆盖分类的方法,其特征是,LDA主题模型中超参数α、β与主题数K决定了分布概率Θ和φ;α、β的取值人为设定,主题数K依据POI类型设定;为确定符合地表覆盖分类的主题数K,引入用于衡量文本混合度的指标perplexity,计算不同主题数K下主题Z的归类情况,perplexity计算公式如下:式中,Dtest为测试数据集,wd为文档中的词语,Nd则为文档的大小;pe...

【专利技术属性】
技术研发人员:邢汉发侯东阳孟媛曹芳洁徐海滨宋颉樊凯旋
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1