一种地址标准化方法及装置制造方法及图纸

技术编号：30333203 阅读：27 留言：0更新日期：2021-10-10 00:55

本发明专利技术实施例提供了一种地址标准化方法及装置，该方法包括获取待处理地址数据，通过地址向量化模型对待处理地址数据进行处理，确定出待处理地址数据的语义特征向量，将待处理地址数据的语义特征向量输入到地址分词模型进行分词处理，确定出各子地址分词，对各子地址分词进行词性标注，得到标准化的地址数据。如此，该方案无需基于地址词典对待处理地址数据进行分词处理，从而可以降低针对待处理地址数据匹配分割时所消耗的时间成本，并可以有效地解决现有技术在待处理地址数据中出现新的地址段时就会无法及时地通过现有地址词典来实现对待处理地址数据的匹配分割的问题，进而可以有效地提高待处理地址数据的标准化处理效率。效率。效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种地址标准化方法及装置

[0001]本专利技术实施例涉及数据处理
，尤其涉及一种地址标准化方法及装置。

技术介绍

[0002]随着信息化技术的快速发展，地址数据作为用户的重要信息逐渐被广泛应用。但是，目前的大量地址数据中还存在相当一部分地址数据为非标准化的信息，而这部分非标准化的地址数据会给基于地址数据进行进一步分析处理的应用场景带来极大地不便。因此，为了确保地址数据的规范性、精确性，需要对非标准化的地址数据进行标准化处理。
[0003]现有方案通常基于地址词典来实现地址数据的标准化处理。具体地，通过地址词典中的地址分段触发词对待处理地址数据进行匹配分割，得到不同级别的地址段，并对不同级别的地址段进行标准化处理。然而，这种处理方式虽然在一定程度上提高了地址标准化处理的准确性，但是由于依赖地址词典的覆盖面，因此在待处理地址数据中存在新出现的地址段时就会无法通过现有地址词典来实现针对待处理地址数据进行准确地匹配分割，从而导致待处理地址数据的标准化处理效率低。
[0004]综上，目前亟需一种地址标准化方法，用以有效地提高地址数据标准化处理的效率。

技术实现思路

[0005]本专利技术实施例提供了一种地址标准化方法及装置，用以有效地提高地址数据标准化处理的效率。
[0006]第一方面，本专利技术实施例提供了一种地址标准化方法，包括：
[0007]获取待处理地址数据；
[0008]通过地址向量化模型对所述待处理地址数据进行处理，确定出所述待处理地址数据的语义特征向...

【技术保护点】

【技术特征摘要】
1.一种地址标准化方法，其特征在于，包括：获取待处理地址数据；通过地址向量化模型对所述待处理地址数据进行处理，确定出所述待处理地址数据的语义特征向量；所述地址向量化模型是基于多个训练子任务对第一历史样本集进行训练确定的；将所述待处理地址数据的语义特征向量输入到地址分词模型进行分词处理，确定出各子地址分词；对所述各子地址分词进行词性标注，得到标准化的地址数据。2.如权利要求1所述的方法，其特征在于，所述多个训练子任务包括地址行政区划子任务、兴趣点POI分类子任务、噪音混淆子任务以及地址区划重排子任务；所述地址行政区划子任务用于训练学习地址数据中的地址行政区划信息；所述兴趣点POI分类子任务用于训练学习地址数据与POI类别的关联关系；所述噪音混淆子任务用于增强训练学习的稳定性；所述地址区划重排子任务用于训练学习地址数据的层级包含关系。3.如权利要求1所述的方法，其特征在于，基于多个训练子任务对第一历史样本集进行训练确定所述地址向量化模型，包括：针对所述第一历史样本集中的同一样本，通过初始的地址向量化模型执行任一训练子任务，确定所述训练子任务的损失函数；根据各训练子任务的损失函数，确定出融合损失函数；根据所述融合损失函数调整所述初始的地址向量化模型，直至所述初始的地址向量化模型收敛或达到预设迭代训练轮次为止，得到所述地址向量化模型。4.如权利要求3所述的方法，其特征在于，所述针对所述第一历史样本集中的同一样本，通过初始的地址向量化模型执行任一训练子任务，确定所述训练子任务的损失函数，包括：针对地址行政区划子任务，以随机掩饰的方式，将所述第一历史样本集中的第一样本包含的部分行政区划进行掩饰处理，得到掩饰后的第一样本；将所述掩饰后的第一样本输入到所述初始的地址向量化模型进行处理，得到所述掩饰后的第一样本的语义特征向量；根据所述掩饰后的第一样本的语义特征向量和所述第一样本的标签语义特征向量，确定出第一损失函数。5.如权利要求3所述的方法，其特征在于，所述针对第一历史样本集中的同一样本，通过初始的地址向量化模型执行任一训练子任务，确定所述训练子任务的损失函数，包括：针对POI分类子任务，将所述第一历史样本集中的第一样本输入到所述初始的地址向量化模型进行处理，得到所述第一样本对应的预测POI类别；基于所述第一样本对应的预测POI类别和所述第一样本对应的标签POI类别，确定出第二损失函数。6.如权利要求3所述的方法，其特征在于，所述针对第一历史样本集中的同一样本，通过初始的地址向量化模型执行任一训练子任务，确定所述训练子任务的损失函数，包括：针对噪音混淆子任务...

【专利技术属性】
技术研发人员：徐阳，陈立力，周明伟，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人