【技术实现步骤摘要】
一种地址解析方法、系统、计算机设备和存储介质
[0001]本申请涉及大数据
,特别是涉及一种地址解析方法、系统、计算机设备和存储介质。
技术介绍
[0002]随着互联网技术的高速发展,经济活动日趋频繁,逐步催生出了各种新的经济形态,尤其是电子商务、互联网金融、快寄物流等行业的发展,累积产生了海量的非结构化地址数据。
[0003]地址解析技术被认为是大量业务数据GIS实现可视化定位和空间分析的桥梁。中文地址通常是自然语言描述的非结构化文本,其中隐含了区域隶属关系和空间位置关系等语义信息。如果能将中文地址中的语义信息解析出来并将不符合标准的中文地址统一规范化,这对金融、互联网等众多行业的研发工作有着重要的意义。在企业服务领域更是如此,其中与经济活动密切相关的商事服务行业,人们迫切需要对海量企业工商注册地址数据进行解析,进而挖掘某一区域潜在的商业价值。
[0004]目前现有的企业工商注册地址解析系统,主要分为基于规则和基于统计的两类方法。基于规则的方法主要是利用匹配字典对中文地址分词,同时根据地址结构利用状态 ...
【技术保护点】
【技术特征摘要】
1.一种地址解析方法,其特征在于,所述方法包括:对原始数据进行数据处理,得到地址数据集;其中,所述地址数据集包括数值数据和文本数据;对所述数值数据进行解析,得到行政区划编码;对所述文本数据进行分词处理,得到分词短语;通过预置的行政区划字典,对所述行政区划编码和所述分词短语进行匹配,得到地址信息。2.根据权利要求1所述的地址解析方法,其特征在于,所述对原始数据进行数据处理,得到地址数据集,包括:获取所述原始数据,所述原始数据包括企业基本信息数据、年报数据、企业变更数据、企业异常数据、企业抽检数据、股东高管数据、动产质押数据、行政处罚数据、司法协助数据、知识产权数据和证照数据中的至少之一,所述原始数据中含有中文地址信息;对所述原始数据进行标准化处理,得到所述地址数据集。3.根据权利要求1所述的地址解析方法,其特征在于,所述对所述数值数据进行解析,得到行政区划编码,包括:判断所述数值数据是否为注册号或社会信用代码;若为注册号,则根据所述注册号得到所述行政区划编码,若为社会信用代码,则根据所述社会信用代码得到所述行政区划编码。4.根据权利要求1所述的地址解析方法,其特征在于,所述方法还包括:将得到的所述地址信息导入汇总数据库;根据各类业务需求,从所述汇总数据库中抽取各类业务需求所需的各类工商数据,分别建立各类业务需求对应的业务分析数据库,构建数据集市层;以所述数据集市层的各类工商数据为基础,搭建搜索引擎,对外提供数据接口服务和数据可视化服务。5.根据权利要求1所述的地址解析方法,其特征在于,所述预置的行政区划字典包括:省级行政区划字典、市级行政区划字典、县级行政区划字典、变更行政区划字典、省级行政区划字典中的行政区划的编码字典、市级行政区划字典中的行政区划的编码字典、县级行政区划字典中的行政区划的编码字典、变更行政区划字典中的行政区划的编码字典;其中,...
【专利技术属性】
技术研发人员:范凯波,胥辛雨,余朝阳,
申请(专利权)人:汉唐信通北京咨询股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。