System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及大数据信息处理领域,具体提供一种地址标准化拆分方法及装置。
技术介绍
1、在基层数据治理中,地址信息是一项常见的用户信息,如户籍地址、居住地址和单位地址等等。地址是一个连接广大的人、物、事的关键桥梁,这类信息对于分析社区年龄分布情况、收入情况等有着非常重要的意义,不仅可以更了解该社区的人口情况,同时也可以帮助作出合理的决策。
2、然而,在实际应用中,由于各地段没有统一的填写地址的标准,收集的用户地址格式差异较大,无法进行下一步的数据分析处理。
3、因此,如何对格式不尽相同的中文地址进行地址标准化拆分是一个亟待解决的问题。
技术实现思路
1、本专利技术是针对上述现有技术的不足,提供一种实用性强的地址标准化拆分方法。
2、本专利技术进一步的技术任务是提供一种设计合理,安全适用的地址标准化拆分装置。
3、本专利技术解决其技术问题所采用的技术方案是:
4、一种地址标准化拆分方法,首先,根据处理后的现有行政区划字段与处理后的用户描述的地址信息进行匹配,将匹配成功的字段更新到对应的字段,对于缺省的字段,将提取出来的字段与现有行政区划再次进行匹配,将匹配成功的缺省字段更新到对应的字段中。
5、进一步的,具有如下步骤:
6、s1、处理标准库行政区划字段和用户描述地址;
7、s2、对步骤s1处理后的标准行政区划名称进行降序排序;
8、s3、将步骤s2处理后的行政区划名称与步骤s1
9、s4、完善信息缺失的用户描述地址。
10、进一步的,在步骤s1中,进一步包括:
11、s101、处理标准库行政区划字段;
12、s102、处理用户描述地址。
13、进一步的,在步骤s101中,从标准行政区划中提取不带“省”、“市”、“县”、“镇”、“区”、“街道”的关键字信息,并将所述信息以字典形式进行存储,处理后的行政区划名称记为key,原行政区划名称记为value,并将省、市、区县和镇街存储在不同的字典中;
14、在步骤s102中,在处理用户描述地址时,统一删除描述地址中“省”、“市”、“县”、“镇”、“区”、“街道”行政区划后缀的信息。
15、进一步的,在步骤s2中,在步骤s1中处理后的行政区划名称会出现一部分处理后行政区划名称是另一部分处理后行政区划名称子集的情况,所以对处理后的行政区划名称按字符串长度进行降序排序。
16、进一步的,在步骤s3中,将步骤s2处理后的不带行政区划后缀的行政区划名称与步骤s1处理后的用户描述地址从最高级行政区划开始匹配,依次与用户提供的地址进行逐一匹配,匹配成功后删除成功匹配的字段,并将成功匹配的字段提取出来存储到相应层级数据表;
17、再匹配下一行政区划层级,未匹配成功则直接匹配下一行政区划层级;
18、如此往复,匹配直到最后一层行政区划层级后结束匹配。
19、进一步的,在步骤s4中,步骤s3完成后,对只填写街道信息、社区信息的用户地址,根据步骤s3解析出的街道、社区信息,与标准行政区划库进行匹配,对用户未填写部分的信息进行补充;
20、重复步骤s1-s4即可批量标准化用户描述地址信息。
21、一种地址标准化拆分装置,包括:至少一个存储器和至少一个处理器;
22、所述至少一个存储器,用于存储机器可读程序;
23、所述至少一个处理器,用于调用所述机器可读程序,执行一种地址标准化拆分方法。
24、本专利技术的一种地址标准化拆分方法及装置和现有技术相比,具有以下突出的有益效果:
25、(一)统一数据标准;
26、地址标准化是建立统一数据标准的基础。通过标准化,不同来源和不同格式的数据可以被整合到同一套标准下,使得数据的交换和处理变得更为便捷和高效。这不仅减少了数据冗余,还降低了数据管理成本,提高了数据的质量和一致性。
27、(二)提高查询效率;
28、地址标准化还可以提高查询效率。将数据按照统一的标准进行分类和编码时,可以使用更为精确和高效查询方式来获取所需信息。这使得能够更快地获取到准确的数据,从而提高了工作效率和决策的准确性。
29、(三)方便信息共享;
30、地址标准化有助于信息的共享和传播。当不同部门、不同机构或不同地区使用相同的地址标准时,他们可以更容易地进行信息交换和共享。这不仅有助于提高工作效率,还可以促进跨部门、跨机构和跨地区的合作与交流。
31、(四)增强分析能力;
32、地址标准化可以帮助增强数据分析能力。通过将数据按照统一的标准进行分类和编码,可以更方便地对数据进行深入挖掘和分析。这有助于发现数据背后的规律和趋势,为决策提供更有力的支持。
本文档来自技高网...【技术保护点】
1.一种地址标准化拆分方法,其特征在于,首先,根据处理后的现有行政区划字段与处理后的用户描述的地址信息进行匹配,将匹配成功的字段更新到对应的字段,对于缺省的字段,将提取出来的字段与现有行政区划再次进行匹配,将匹配成功的缺省字段更新到对应的字段中。
2.根据权利要求1所述的一种地址标准化拆分方法,其特征在于,具有如下步骤:
3.根据权利要求2所述的一种地址标准化拆分方法,其特征在于,在步骤S1中,进一步包括:
4.根据权利要求3所述的一种地址标准化拆分方法,其特征在于,在步骤S101中,从标准行政区划中提取不带“省”、“市”、“县”、“镇”、“区”、“街道”的关键字信息,并将所述信息以字典形式进行存储,处理后的行政区划名称记为key,原行政区划名称记为value,并将省、市、区县和镇街存储在不同的字典中;
5.根据权利要求4所述的一种地址标准化拆分方法,其特征在于,在步骤S2中,在步骤S1中处理后的行政区划名称会出现一部分处理后行政区划名称是另一部分处理后行政区划名称子集的情况,所以对处理后的行政区划名称按字符串长度进行降序排序。
...【技术特征摘要】
1.一种地址标准化拆分方法,其特征在于,首先,根据处理后的现有行政区划字段与处理后的用户描述的地址信息进行匹配,将匹配成功的字段更新到对应的字段,对于缺省的字段,将提取出来的字段与现有行政区划再次进行匹配,将匹配成功的缺省字段更新到对应的字段中。
2.根据权利要求1所述的一种地址标准化拆分方法,其特征在于,具有如下步骤:
3.根据权利要求2所述的一种地址标准化拆分方法,其特征在于,在步骤s1中,进一步包括:
4.根据权利要求3所述的一种地址标准化拆分方法,其特征在于,在步骤s101中,从标准行政区划中提取不带“省”、“市”、“县”、“镇”、“区”、“街道”的关键字信息,并将所述信息以字典形式进行存储,处理后的行政区划名称记为key,原行政区划名称记为value,并将省、市、区县和镇街存储在不同的字典中;
5.根据权利要求4所述的一种地址标准化拆分方法,其...
【专利技术属性】
技术研发人员:陈昕,赵海兴,陈义蒙,邱阳,申传旺,
申请(专利权)人:浪潮卓数大数据产业发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。