基于地理空间画像挖掘的多源城市时空标准地址融合方法技术

技术编号:24035654 阅读:59 留言:0更新日期:2020-05-07 01:49
本发明专利技术涉及一种基于地理空间画像挖掘的多源城市时空标准地址融合方法。该方法:基于网络爬虫技术及人工判别构建地理空间画像标签库;基于Rocchio分类模型绘制地理空间画像;利用ETL技术融合多源数据;基于地名地址匹配引擎审核数据质量。本方法优点在于提供了一种基于地理空间画像挖掘的多源城市时空标准地址融合方法,以多个维度来审视元数据,将地址数据中的标识、空间位置、属性信息等多源异构数据进行有效整合,提高标准地址数据质量。

Spatial-temporal standard address fusion method of multi-source cities based on the mining of geospatial portraits

【技术实现步骤摘要】
基于地理空间画像挖掘的多源城市时空标准地址融合方法
本专利技术属于空间数据融合领域,尤其涉及一种基于地理空间画像挖掘的多源城市时空标准地址融合方法。
技术介绍
在城市中,地址数据是非常普遍的,城市地址已经成为人们表达他们感兴趣点的位置的重要方式。地址信息实际上是一种空间信息,通过地址匹配技术可将地址信息转化成空间点位(薛明,肖学年.关于地理编码几个问题的思考[J].北京测绘,2007(2):54-56.)。从是否符合特定地址标准的角度分析,一般将那些符合标准命名规则、包含特定层次关系的地址称为“标准地址”,而将那些不符合特定层次关系和标准结构的地址称为“非标准地址”。标准地址是地名地址数据库建设中最为核心的研究内容之一(陆娟,石丽.公安地名地址数据库建设初探[J].江苏警官学院学报,2014,29(4):107-111.)。城市标准地址是为了便于城市公共安全管理,以及方便市民的工作、生活等需要,对城市道路、院落、建筑物等空间实体位置给予一个唯一的编码。城市标准地址信息作为最常用的社会公共信息资源之一,不仅与人们的日常生活息息相关,而且是政府行政管理、公共安全、经济建设及行业应用服务等不可或缺的基础信息资源。构建统一标准的城市标准地址信息服务体系,将有助于在智慧城市管理中解决户籍、治安管理、报警定位等公共安全及相关领域的诸多问题,并为公众的出行、旅游等活动提供方便。在国外,欧美等发达国家均已纷纷建立了全国性的标准地址数据库,并与人口普查、社会保障、物业财产等信息相关联,为社会经济发展起到了重要作用(张鹤,孔令彦,陈倬,等.城市地址编码发展历史及现状分析[J].测绘通报,2008(7):58-60.)。但在国内,由于地理人文环境的差异,以及历史沿革所带来的各种复杂性,尚没有建立覆盖全国的权威可靠的标准地址数据库,从而使得政府各部门长期以来缺乏可靠的标准地址信息资源,地址数据处于无序管理、随意命名和缺乏权威性的混乱状态(亢孟军,杜清运,王明军.地址树模型的中文地址提取方法[J].测绘学报,2015,44(1):99-107.)。虽然部分地区建立了局部的地址数据库,但是由于缺乏全国统一的标准和共享服务能力,与政府、企业、社会公众的需求存在很大差距,更不能适应智慧城市建设快速发展的需要。因此,标准地址数据已经成为了制约我国智慧城市建设水平提升的一个重要瓶颈。随着城区改造、新城扩建、小区建设及危房改造等城市开发建设的快速发展,城市的格局发生日新月异的变化,但与此同时也出现了严重的门址乱象。大量道路建设及改造等使城市地址体系不断变化,也使得地名混乱、无序、缺乏规律性,街道门牌编号混乱,地名命名方法复杂,缺乏统一的标准等问题日益突出,更使部门间数据的共建共享难以实现。因此,政府部门提出要全面开展地址清理采集,换发二维码门牌,有关部门建立健全地名命名、地址编码、门牌发放、地址应用等常态化协同工作机制,推动全面应用标准地址开展社会管理和公共服务。城市时空标准地址融合是构建城市标准地址库的重要环节,由于城市标准地址大数据具有多源异构特征,不同来源信息从不同维度描述地理要素的属性信息,如数据结构、属性内涵、字段定义,而传统的数据融合技术多应用于传感器领域和军事领域融合,更强调对于数据采集过程的整合及同构数据的处理,无法适应城市标准地址大数据的应用需求,因此,迫切需要有效机制实现多源数据的归一化融合处理。借鉴商业大数据中“用户画像”(库珀.交互设计之路[M].北京:电子工业出版社,2006:115-135.)的一般方法,将其引入到时空大数据当中,即为“地理画像”。将“用户画像”理解为使用一系列的商业标签来描述一个客户,目标是制定营销策略,那么,“地理画像”就可理解为用一系列的标签来描述一个地理区域,可以是一个小区、一座城市,或者是一片草原、一块农田,甚至是一个地质板块,目标可以是商业选址、城市规划、农业估产等。“地理画像”与“用户画像”的最大差别在于“用户画像”的最小单元是一个自然人,而“地理画像”的对象是一片区域,这个区域是由若干个小区域组成的,“地理画像”更接近于“用户群画像”。城市地理画像将是城市标准地址大数据应用的主要方向,其使用一系列标签对地理区域进行特征描述,可有效进行多源信息的描述刻画与动态监测,并可按规则对原始数据进行自动化的抽取和重新组织,以支持按主题的数据聚合。
技术实现思路
本专利技术的目的在于提供一种基于地理空间画像挖掘的多源城市时空标准地址融合方法,通过建立统一的数据组织结构及其数据融合规则,以多个维度来审视元数据,将地址数据中的标识、空间位置、属性信息等多源异构数据进行有效整合,提高标准地址数据质量。为实现上述目的,本专利技术的技术方案是:一种基于地理空间画像挖掘的多源城市时空标准地址融合方法,包括如下步骤:步骤S1、基于网络爬虫技术及人工判别构建地理空间画像标签库;步骤S2、基于Rocchio分类模型绘制地理空间画像;步骤S3、利用ETL技术融合多源数据;步骤S4、基于地名地址匹配引擎审核数据质量。在本专利技术一实施例中,所述步骤S1具体实现如下:步骤S11、针对目标地理空间对象,收集其在各部门的登记信息;同时,利用网络爬虫技术,在互联网上抓取与目标对象有关的数据;步骤S12、根据收集到的数据的类型,预先构建一个地理空间画像标签库;画像标签根据数据类型自成系列,数据类型包括自然地理属性、社会属性以及由包括物联网和互联网产生的动态数据,对应形成相应的画像标签;步骤S13、将多源数据划分为训练集和测试集,并从地理空间标签库中选择训练集和测试集对应的标签。在本专利技术一实施例中,所述步骤S2具体实现如下:步骤S21、对训练集和测试集进行文本分词和去停用词的预处理操作,初步净化数据,缩小文本的特征空间;步骤S22、基于互信息算法对预处理后的数据做特征选择,提取所需特征,进一步降低特征空间的维数,提高分类算法的效率;步骤S23、使用经过预处理和特征选择后的训练集和测试集,基于Rocchio分类算法构建Rocchio分类模型;利用构建好的Rocchio分类模型对处理后的多源数据进行分类,对应打上画像标签库中的标签,完成目标对象地理空间画像的绘制。在本专利技术一实施例中,所述步骤S3具体实现如下:步骤S31、根据城市时空标准地址数据融合主题,选择与地址相关的画像标签,汇总这些画像标签所关联的多源数据;步骤S32、依据标准地址属性数据项要求,利用ETL技术对地址相关数据进行抽取、清洗、转换等处理,过滤不完整、错误、重复的数据,融合为粒度一致、格式统一的城市时空标准地址数据。在本专利技术一实施例中,所述步骤S4具体实现方式为:利用GIS软件地名地址匹配引擎将地址信息转换为空间点在地图上展示,对融合的地址数据进行地址要素完整性、唯一性、对应性审核;若审核合格,则存储至数据库,构建数据成果;若审核不合格,则返回步骤S3重新进行数据融合,直至审核合格。相较于现有技术,本专利技术具有以下有益效果:本发本文档来自技高网
...

【技术保护点】
1.一种基于地理空间画像挖掘的多源城市时空标准地址融合方法,其特征在于,包括如下步骤:/n步骤S1、基于网络爬虫技术及人工判别构建地理空间画像标签库;/n步骤S2、基于Rocchio分类模型绘制地理空间画像;/n步骤S3、利用ETL技术融合多源数据;/n步骤S4、基于地名地址匹配引擎审核数据质量。/n

【技术特征摘要】
1.一种基于地理空间画像挖掘的多源城市时空标准地址融合方法,其特征在于,包括如下步骤:
步骤S1、基于网络爬虫技术及人工判别构建地理空间画像标签库;
步骤S2、基于Rocchio分类模型绘制地理空间画像;
步骤S3、利用ETL技术融合多源数据;
步骤S4、基于地名地址匹配引擎审核数据质量。


2.根据权利要求1所述的基于地理空间画像挖掘的多源城市时空标准地址融合方法,其特征在于,所述步骤S1具体实现如下:
步骤S11、针对目标地理空间对象,收集其在各部门的登记信息;同时,利用网络爬虫技术,在互联网上抓取与目标对象有关的数据;
步骤S12、根据收集到的数据的类型,预先构建一个地理空间画像标签库;画像标签根据数据类型自成系列,数据类型包括自然地理属性、社会属性以及由包括物联网和互联网产生的动态数据,对应形成相应的画像标签;
步骤S13、将多源数据划分为训练集和测试集,并从地理空间标签库中选择训练集和测试集对应的标签。


3.根据权利要求2所述的基于地理空间画像挖掘的多源城市时空标准地址融合方法,其特征在于,所述步骤S2具体实现如下:
步骤S21、对训练集和测试集进行文本分词和去停用词的预处理操作,初步净化数据,缩小文本的特征空间;
步骤S...

【专利技术属性】
技术研发人员:张平汪艳霞黄磊刘仁温素馨林熹
申请(专利权)人:福州市勘测院
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1