一种中英港语混合场景下自适应的地址库建设方法技术

技术编号：39301005 阅读：12 留言：0更新日期：2023-11-12 15:52

本发明专利技术公开是关于一种中英港语混合场景下自适应的地址库建设方法，涉及机械技术领域。地址分类转换：根据语言特性不同，对中文、港语、英语、港拼混合构成的地址进行分类；地址语义解析：对于地址翻译和地址拆分比对无法处理的基于语义构成的地址数据，通过语义特征及地区语言文化特征解析生成中文地址；地址关联比对：对多语言混合数据进行语义层面的关联比对，提取缺失、矛盾的地址数据，同时提炼地址补全素材库，支撑后续地址核准及补全；地址核准及补全：对确实和矛盾的地址进行关联关系推理，补全缺失地址，消解矛盾冲突地址信息，形成标准中文地址库。标准中文地址库。标准中文地址库。

全部详细技术资料下载

【技术实现步骤摘要】
一种中英港语混合场景下自适应的地址库建设方法

[0001]本专利技术公开涉及计算机技术与数据科学的交叉
，尤其涉及一种中英港语混合场景下自适应的地址库建设方法。

技术介绍

[0002]随着大数据时代的到来，各行业基于地址数据利用大数据技术赋能行业发展，逐渐改变着人们的生活方式。与此同时人们发现使用语言混杂、写法不一、错误频出的非标准地址进行数据分析，会导致分析效率低、分析精度差、分析结果偏离等问题。因此对地址数据进行标准化并建立标准地址库的需求日益明显。标准地址库建设方面主流的研究成果如下：
[0003]现有技术1：专利技术创造名称：用户地理信息分析与文本挖掘方法和装置，申请号：申请号：201910515695.X，申请日：2019
‑
06
‑
14，申请人：哈尔滨哈银消费金融有限责任公司，对英文语句进行分词处理，根据预先规则计算地址相似度。类似的，深圳市小赢信息技术有限责任公司，一种中文地址标准化方法通过对中文地址的相似度分析，实现中文地址的标准化。现有成果仅实现了英语、中文等单一语种情况下的地址数据分析处理。
[0004]现有技术2：专利技术创造名称：基础地址库构建方法及系统，申请号：201611259136.X申请日：2016
‑
12
‑
30，申请人：深圳市华傲数据技术有限公司，将地址数据拆分成多个地址要素，并标注地址要素，在已有标准库中关联匹配地址中空缺的部分并补全当前地址，将补全后的标准地址存入基础地址库。仅适用地址...

【技术保护点】

【技术特征摘要】
1.一种中英港语混合场景下自适应的地址库建设方法，其特征在于，应用于信息数据处理终端，该方法包括以下步骤：步骤一、地址分类转换：根据语言特性不同，对中文、港语、英语、港拼混合构成的地址进行分类；步骤二、地址语义解析：对于地址翻译和地址拆分比对无法处理的基于语义构成的地址数据，通过语义特征及地区语言文化特征解析生成中文地址；步骤三、地址关联比对：对多语言混合数据进行语义层面的关联比对，提取缺失、矛盾的地址数据，同时提炼地址补全素材库，支撑后续地址核准及补全；步骤四、地址核准及补全：对确实和矛盾的地址进行关联关系推理，补全缺失地址，消解矛盾冲突地址信息，形成标准中文地址库。2.根据权利要求1所述的中英港语混合场景下自适应的地址库建设方法，其特征在于，在步骤一中，地址分类转换包括以下步骤：(1)对原始非标准数据进行语义要素提取分析；(2)对原始非标准数据进行语言过滤，分为英语港拼地址数据和中文港语地址数据；(3)对英语港拼地址进行分段，生成英语港拼非标准分段地址和英语港拼无法分段地址。3.根据权利要求2所述的中英港语混合场景下自适应的地址库建设方法，其特征在于，地址分类转换还包括：(1)对英语港拼非标准分段地址进行英语港拼地址翻译，形成英语港拼分段翻译中文地址；(2)对中文港语地址进行分段，生成中文港语非标准分段地址和中文港语无法分段地址。4.根据权利要求3所述的中英港语混合场景下自适应的地址库建设方法，其特征在于，地址分类转换还包括：(3)对中文港语非标准分段地址进行中文港语地址翻译，形成中文港语分段翻译中文地址；(4)结合英语港拼分段翻译中文地址和中文港语分段翻译中文地址生成直译标准地址库。5.根据权利要求1所述的中英港语混合场景下自适应的...

【专利技术属性】
技术研发人员：沈宜，刘汪洋，贾宇，廖伟，
申请(专利权)人：深圳市网联安瑞网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人