一种地址标准化方法及装置制造方法及图纸

技术编号:30333203 阅读:27 留言:0更新日期:2021-10-10 00:55
本发明专利技术实施例提供了一种地址标准化方法及装置,该方法包括获取待处理地址数据,通过地址向量化模型对待处理地址数据进行处理,确定出待处理地址数据的语义特征向量,将待处理地址数据的语义特征向量输入到地址分词模型进行分词处理,确定出各子地址分词,对各子地址分词进行词性标注,得到标准化的地址数据。如此,该方案无需基于地址词典对待处理地址数据进行分词处理,从而可以降低针对待处理地址数据匹配分割时所消耗的时间成本,并可以有效地解决现有技术在待处理地址数据中出现新的地址段时就会无法及时地通过现有地址词典来实现对待处理地址数据的匹配分割的问题,进而可以有效地提高待处理地址数据的标准化处理效率。效率。效率。

【技术实现步骤摘要】
一种地址标准化方法及装置


[0001]本专利技术实施例涉及数据处理
,尤其涉及一种地址标准化方法及装置。

技术介绍

[0002]随着信息化技术的快速发展,地址数据作为用户的重要信息逐渐被广泛应用。但是,目前的大量地址数据中还存在相当一部分地址数据为非标准化的信息,而这部分非标准化的地址数据会给基于地址数据进行进一步分析处理的应用场景带来极大地不便。因此,为了确保地址数据的规范性、精确性,需要对非标准化的地址数据进行标准化处理。
[0003]现有方案通常基于地址词典来实现地址数据的标准化处理。具体地,通过地址词典中的地址分段触发词对待处理地址数据进行匹配分割,得到不同级别的地址段,并对不同级别的地址段进行标准化处理。然而,这种处理方式虽然在一定程度上提高了地址标准化处理的准确性,但是由于依赖地址词典的覆盖面,因此在待处理地址数据中存在新出现的地址段时就会无法通过现有地址词典来实现针对待处理地址数据进行准确地匹配分割,从而导致待处理地址数据的标准化处理效率低。
[0004]综上,目前亟需一种地址标准化方法,用以有效地提高地址数据标准化处理的效率。

技术实现思路

[0005]本专利技术实施例提供了一种地址标准化方法及装置,用以有效地提高地址数据标准化处理的效率。
[0006]第一方面,本专利技术实施例提供了一种地址标准化方法,包括:
[0007]获取待处理地址数据;
[0008]通过地址向量化模型对所述待处理地址数据进行处理,确定出所述待处理地址数据的语义特征向量;所述地址向量化模型是基于多个训练子任务对第一历史样本集进行训练确定的;
[0009]将所述待处理地址数据的语义特征向量输入到地址分词模型进行分词处理,确定出各子地址分词;
[0010]对所述各子地址分词进行词性标注,得到标准化的地址数据。
[0011]上述技术方案中,由于现有技术中的技术方案通过基于地址词典来实现对待处理地址数据的匹配分割,以便后续基于分割出的各级别的地址段进行标准化处理,因此,现有技术中的技术方案一方面存在匹配分割时所消耗的时间成本大,另一方面在待处理地址数据中出现新的地址段时就会无法及时地通过现有地址词典来实现对待处理地址数据的匹配分割。基于此,本专利技术中的技术方案通过地址向量化模型对待处理地址数据进行处理,可以更及时精确地得到待处理地址数据的语义特征向量,如此在将待处理地址数据的语义特征向量输入到地址分词模型进行分词处理时,就能够更加及时准确地得到各子地址分词,而无需基于地址词典对待处理地址数据进行分词处理,从而可以降低针对待处理地址数据
匹配分割时所消耗的时间成本,并可以有效地解决现有技术在待处理地址数据中出现新的地址段时就会无法及时地通过现有地址词典来实现对待处理地址数据的匹配分割的问题,进而可以有效地提高待处理地址数据的标准化处理效率。然后,在对各子地址分词进行词性标注后,就可以及时有效地得到标准化的地址数据。
[0012]可选地,所述多个训练子任务包括地址行政区划子任务、兴趣点POI分类子任务、噪音混淆子任务以及地址区划重排子任务;所述地址行政区划子任务用于训练学习地址数据中的地址行政区划信息;所述兴趣点POI分类子任务用于训练学习地址数据与POI类别的关联关系;所述噪音混淆子任务用于增强训练学习的稳定性;所述地址区划重排子任务用于训练学习地址数据的层级包含关系。
[0013]上述技术方案中,由于现有预训练模型的训练方式是基于两个训练子任务进行训练的,但是现有预训练模型在处理地址数据时效果并不好,并不适用于地址数据处理领域。因此本专利技术中的技术方案通过修改现有预训练模型的训练方式,使修改后的预训练模型更符合地址数据这种特定的文本领域,即,将现有预训练模型的训练方式由原来的两个训练子任务变为至少三个训练子任务,每个训练子任务用于训练学习不同的地址语义特征信息,以此对预训练模型进行训练,即可得到符合地址数据这种特定的文本领域的地址向量化模型,从而在对地址数据进行处理时,能够更及时精确地得到待处理地址数据的语义特征向量,以便为后续对地址数据进行更好的地址分词提供支持。
[0014]可选地,基于多个训练子任务对第一历史样本集进行训练确定所述地址向量化模型,包括:
[0015]针对所述第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数;
[0016]根据各训练子任务的损失函数,确定出融合损失函数;
[0017]根据所述融合损失函数调整所述初始的地址向量化模型,直至所述初始的地址向量化模型收敛或达到预设迭代训练轮次为止,得到所述地址向量化模型。
[0018]上述技术方案中,通过初始的地址向量化模型依次执行多个训练子任务,可以得到各训练子任务的损失函数,并将该多个损失函数进行融合在一起,形成一个融合损失函数来调整初始的地址向量化模型,以此可以得到符合地址数据这种特定的文本领域的地址向量化模型,以便在处理地址数据时能够精确地识别出地址数据中的语义特征信息,从而为后续地址分词模型在处理地址数据时能够更精准地确定出该地址数据中的各子地址分词提供支持。
[0019]可选地,所述针对所述第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数,包括:
[0020]针对地址行政区划子任务,以随机掩饰的方式,将所述第一历史样本集中的第一样本包含的部分行政区划进行掩饰处理,得到掩饰后的第一样本;
[0021]将所述掩饰后的第一样本输入到所述初始的地址向量化模型进行处理,得到所述掩饰后的第一样本的语义特征向量;
[0022]根据所述掩饰后的第一样本的语义特征向量和所述第一样本的标签语义特征向量,确定出第一损失函数。
[0023]上述技术方案中,通过初始的地址向量化模型执行地址行政区划子任务进行训
练,可以使得训练好的地址向量化模型在处理地址数据时能够更好地学习到地址数据中的地址行政区划信息,从而为后续地址分词模型能够更好地基于地址数据中的各行政区划语义信息识别出该地址数据中的各行政区划提供支持。
[0024]可选地,所述针对第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数,包括:
[0025]针对POI分类子任务,将所述第一历史样本集中的第一样本输入到所述初始的地址向量化模型进行处理,得到所述第一样本对应的预测POI类别;
[0026]基于所述第一样本对应的预测POI类别和所述第一样本对应的标签POI 类别,确定出第二损失函数。
[0027]上述技术方案中,通过初始的地址向量化模型执行POI分类子任务进行训练,可以使得训练好的地址向量化模型在处理地址数据时能够更好地学习到地址数据与POI类别的关联关系,从而为后续地址分词模型能够更好地基于地址数据与POI类别的关联关系识别出该地址数据的POI类别提供支持。
[0028]可选地,所述针对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址标准化方法,其特征在于,包括:获取待处理地址数据;通过地址向量化模型对所述待处理地址数据进行处理,确定出所述待处理地址数据的语义特征向量;所述地址向量化模型是基于多个训练子任务对第一历史样本集进行训练确定的;将所述待处理地址数据的语义特征向量输入到地址分词模型进行分词处理,确定出各子地址分词;对所述各子地址分词进行词性标注,得到标准化的地址数据。2.如权利要求1所述的方法,其特征在于,所述多个训练子任务包括地址行政区划子任务、兴趣点POI分类子任务、噪音混淆子任务以及地址区划重排子任务;所述地址行政区划子任务用于训练学习地址数据中的地址行政区划信息;所述兴趣点POI分类子任务用于训练学习地址数据与POI类别的关联关系;所述噪音混淆子任务用于增强训练学习的稳定性;所述地址区划重排子任务用于训练学习地址数据的层级包含关系。3.如权利要求1所述的方法,其特征在于,基于多个训练子任务对第一历史样本集进行训练确定所述地址向量化模型,包括:针对所述第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数;根据各训练子任务的损失函数,确定出融合损失函数;根据所述融合损失函数调整所述初始的地址向量化模型,直至所述初始的地址向量化模型收敛或达到预设迭代训练轮次为止,得到所述地址向量化模型。4.如权利要求3所述的方法,其特征在于,所述针对所述第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数,包括:针对地址行政区划子任务,以随机掩饰的方式,将所述第一历史样本集中的第一样本包含的部分行政区划进行掩饰处理,得到掩饰后的第一样本;将所述掩饰后的第一样本输入到所述初始的地址向量化模型进行处理,得到所述掩饰后的第一样本的语义特征向量;根据所述掩饰后的第一样本的语义特征向量和所述第一样本的标签语义特征向量,确定出第一损失函数。5.如权利要求3所述的方法,其特征在于,所述针对第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数,包括:针对POI分类子任务,将所述第一历史样本集中的第一样本输入到所述初始的地址向量化模型进行处理,得到所述第一样本对应的预测POI类别;基于所述第一样本对应的预测POI类别和所述第一样本对应的标签POI类别,确定出第二损失函数。6.如权利要求3所述的方法,其特征在于,所述针对第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数,包括:针对噪音混淆子任务...

【专利技术属性】
技术研发人员:徐阳陈立力周明伟
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1