地址数据处理模型的训练、地址数据处理方法和电子设备技术

技术编号:37674729 阅读:19 留言:0更新日期:2023-05-26 04:38
本说明书公开了一种地址数据处理模型的训练、地址数据处理方法、装置、电子设备以及存储介质,方法包括:将样本地址数据输入地址数据处理模型,通过所述地址数据处理模型,对所述样本地址数据进行特征提取,得到所述样本地址数据的样本数据特征;通过所述地址数据处理模型,基于所述样本数据特征进行质量分类、结构化以及无关字符识别,得到所述样本地址数据的预测质量类型、预测结构化结果以及预测无关字符,所述预测无关字符是指所述样本地址数据中与地址无关的字符;基于第一差异信息、第二差异信息以及第三差异信息,对所述地址数据处理模型的进行训练。理模型的进行训练。理模型的进行训练。

【技术实现步骤摘要】
地址数据处理模型的训练、地址数据处理方法和电子设备


[0001]本说明书实施例涉及计算机
,特别涉及一种地址数据处理模型的训练、地址数据处理方法、装置、电子设备以及存储介质。

技术介绍

[0002]随着计算机技术的发展,越来越多的场景会用到地址数据,比如在消费金融以及电商场景中,均会利用地址数据来实现相应的服务。由于地址数据具有多种来源和多种形式,导致地址数据的质量参差不齐,无法对地址数据进行有效利用。
[0003]相关技术中,往往是由相关人员对地址数据进行处理,提高地址数据的质量。但是,人工处理地址数据的效率较低,亟须一种更加智能化的地址数据处理方法。

技术实现思路

[0004]本说明书实施例提供了一种地址数据处理模型的训练、地址数据处理方法、装置、电子设备以及存储介质,可以提高地址数据的处理效率,技术方案如下:
[0005]一方面,提供了一种地址数据处理模型的训练方法,所述方法包括:
[0006]将样本地址数据输入地址数据处理模型,通过所述地址数据处理模型,对所述样本地址数据进行特征提取,得到所述样本地址数据的样本数据特征;
[0007]通过所述地址数据处理模型,基于所述样本数据特征进行质量分类、结构化以及无关字符识别,得到所述样本地址数据的预测质量类型、预测结构化结果以及预测无关字符,所述预测无关字符是指所述样本地址数据中与地址无关的字符;
[0008]基于第一差异信息、第二差异信息以及第三差异信息,对所述地址数据处理模型的进行训练,所述第一差异信息为所述预测质量类型与所述样本地址数据的标注质量类型之间的差异信息,所述第二差异信息为所述预测结构化结果与所述样本地址数据的标注结构化结果之间的差异信息,所述第三差异信息为所述预测无关字符与所述样本地址数据的标注无关字符之间的差异信息。
[0009]一方面,提供了一种地址数据的处理方法,所述方法包括:
[0010]获取目标地址数据;
[0011]将所述目标地址数据输入地址数据处理模型,通过所述地址数据处理模型,对所述目标地址数据进行特征提取,得到所述目标地址数据的目标数据特征;
[0012]通过所述地址数据处理模型,基于所述目标数据特征进行质量分类、结构化以及无关字符识别,得到所述样本地址数据的质量类型、结构化结果以及无关字符;
[0013]其中,所述地址数据处理模型是基于第一差异信息、第二差异信息以及第三差异信息训练得到的,所述第一差异信息为预测质量类型与样本地址数据的标注质量类型之间的差异信息,所述第二差异信息为预测结构化结果与所述样本地址数据的标注结构化结果之间的差异信息,所述第三差异信息为预测无关字符与所述样本地址数据的标注无关字符之间的差异信息,所述预测质量类型、所述预测结构化结果以及所述预测无关字符是训练
过程中所述地址数据处理模型基于所述样本地址数据确定的。
[0014]一方面,提供了一种地址数据处理模型的训练装置,所述装置包括:
[0015]第一特征提取模块,用于将样本地址数据输入地址数据处理模型,通过所述地址数据处理模型,对所述样本地址数据进行特征提取,得到所述样本地址数据的样本数据特征;
[0016]第一数据处理模块,用于通过所述地址数据处理模型,基于所述样本数据特征进行质量分类、结构化以及无关字符识别,得到所述样本地址数据的预测质量类型、预测结构化结果以及预测无关字符,所述预测无关字符是指所述样本地址数据中与地址无关的字符;
[0017]训练模块,用于基于第一差异信息、第二差异信息以及第三差异信息,对所述地址数据处理模型的进行训练,所述第一差异信息为所述预测质量类型与所述样本地址数据的标注质量类型之间的差异信息,所述第二差异信息为所述预测结构化结果与所述样本地址数据的标注结构化结果之间的差异信息,所述第三差异信息为所述预测无关字符与所述样本地址数据的标注无关字符之间的差异信息。
[0018]在一种可能的实施方式中,所述第一特征提取模块,用于执行下述任一项:
[0019]对所述样本地址数据进行至少一次卷积,得到所述样本地址数据的样本数据特征;
[0020]对所述样本地址数据进行至少一次全连接,得到所述样本地址数据的样本数据特征;
[0021]基于注意力机制对所述样本地址数据进行编码,得到所述样本地址数据的样本数据特征。
[0022]在一种可能的实施方式中,所述第一数据处理模块,用于通过所述地址数据处理模型的第一子模型,对所述样本数据特征进行映射,得到所述样本地址数据的多个质量分类值,一个所述质量分类值对应于一种质量类型;基于所述多个质量分类值,确定所述预测质量类型;通过所述地址数据处理模型的第二子模型,基于所述样本数据特征对所述样本地址数据进行实体识别,得到所述预测结构化结果;通过所述地址数据处理模型的第三子模型,基于所述样本数据特征对所述样本地址数据中多个字符进行分类,得到所述多个字符中的预测无关字符。
[0023]在一种可能的实施方式中,所述第一数据处理模块,用于通过所述第一子模型,对所述样本数据特征进行全连接和归一化,得到所述样本地址数据的质量分类值集合,所述质量分类值集合包括所述多个质量分类值。
[0024]在一种可能的实施方式中,所述第一数据处理模块,用于执行下述任一项:
[0025]将所述多个质量分类值中的第一目标质量分类值对应的质量类型,确定为所述预测质量类型,所述第一目标质量分类值为所述多个质量分类值中最大的质量分类值;
[0026]将所述多个质量分类值中的第二目标质量分类值对应的质量类型,确定为所述预测质量类型,所述第二目标质量分类值为所述多个质量分类值中大于或等于分类值阈值的质量分类值。
[0027]在一种可能的实施方式中,所述第一数据处理模块,用于通过所述第二子模型,基于所述样本数据特征确定所述样本地址数据中多个字符的实体标签,所述实体标签用于表
示对应字符所属的实体;基于所述多个字符的实体标签将所述多个字符进行组合,得到所述样本地址数据中的多个实体。
[0028]在一种可能的实施方式中,所述第一数据处理模块,用于通过所述第三子模型,基于所述样本数据特征确定所述样本地址数据中多个字符的关联标签,所述关联标签用于表示对应字符是否为无关字符;基于所述多个字符的关联标签,确定所述多个字符中的预测无关字符。
[0029]在一种可能的实施方式中,所述训练模块,用于基于所述第一差异信息、所述第二差异信息以及所述第三差异信息,确定训练所述地址数据处理模型的第一损失、第二损失以及第三损失;基于所述第一损失、所述第二损失以及所述第三损失,对所述地址数据处理模型进行训练。
[0030]在一种可能的实施方式中,所述训练模块,用于将所述第一损失、所述第二损失以及所述第三损失进行加权融合,得到联合损失;基于所述联合损失,采用梯度下降法对所述地址数据处理模型的模型参数进行调整。
[0031]在一种可能的实施方式中,所述第一数据处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址数据处理模型的训练方法,所述方法包括:将样本地址数据输入地址数据处理模型,通过所述地址数据处理模型,对所述样本地址数据进行特征提取,得到所述样本地址数据的样本数据特征;通过所述地址数据处理模型,基于所述样本数据特征进行质量分类、结构化以及无关字符识别,得到所述样本地址数据的预测质量类型、预测结构化结果以及预测无关字符,所述预测无关字符是指所述样本地址数据中与地址无关的字符;基于第一差异信息、第二差异信息以及第三差异信息,对所述地址数据处理模型的进行训练,所述第一差异信息为所述预测质量类型与所述样本地址数据的标注质量类型之间的差异信息,所述第二差异信息为所述预测结构化结果与所述样本地址数据的标注结构化结果之间的差异信息,所述第三差异信息为所述预测无关字符与所述样本地址数据的标注无关字符之间的差异信息。2.根据权利要求1所述的方法,所述对所述样本地址数据进行特征提取,得到所述样本地址数据的样本数据特征包括下述任一项:对所述样本地址数据进行至少一次卷积,得到所述样本地址数据的样本数据特征;对所述样本地址数据进行至少一次全连接,得到所述样本地址数据的样本数据特征;基于注意力机制对所述样本地址数据进行编码,得到所述样本地址数据的样本数据特征。3.根据权利要求1所述的方法,所述通过所述地址数据处理模型,基于所述样本数据特征进行质量分类、结构化以及无关字符识别,得到所述样本地址数据的预测质量类型、预测结构化结果以及预测无关字符包括:通过所述地址数据处理模型的第一子模型,对所述样本数据特征进行映射,得到所述样本地址数据的多个质量分类值,一个所述质量分类值对应于一种质量类型;基于所述多个质量分类值,确定所述预测质量类型;通过所述地址数据处理模型的第二子模型,基于所述样本数据特征对所述样本地址数据进行实体识别,得到所述预测结构化结果;通过所述地址数据处理模型的第三子模型,基于所述样本数据特征对所述样本地址数据中多个字符进行分类,得到所述多个字符中的预测无关字符。4.根据权利要求3所述的方法,所述通过所述地址数据处理模型的第一子模型,对所述样本数据特征进行映射,得到所述样本地址数据的多个质量分类值包括:通过所述第一子模型,对所述样本数据特征进行全连接和归一化,得到所述样本地址数据的质量分类值集合,所述质量分类值集合包括所述多个质量分类值。5.根据权利要求3所述的方法,所述基于所述多个质量分类值,确定所述预测质量类型包括下述任一项:将所述多个质量分类值中的第一目标质量分类值对应的质量类型,确定为所述预测质量类型,所述第一目标质量分类值为所述多个质量分类值中最大的质量分类值;将所述多个质量分类值中的第二目标质量分类值对应的质量类型,确定为所述预测质量类型,所述第二目标质量分类值为所述多个质量分类值中大于或等于分类值阈值的质量分类值。6.根据权利要求3所述的方法,所述通过所述地址数据处理模型的第二子模型,基于所
述样本数据特征对所述样本地址数据进行实体识别,得到所述预测结构化结果包括:通过所述第二子模型,基于所述样本数据特征确定所述样本地址数据中多个字符的实体标签,所述实体标签用于表示对应字符所属的实体;基于所述多个字符的实体标签将所述多个字符进行组合,得到所述样本地址数据中的多个实体。7.根据权利要求3所述的方法,所述通过所述地址数据处理模型的第三子模型,基于所述样本数据特征对所述样本地址数据中多个字符进行分类,得到所述多个字符中的预测无关字符包括:通过所述第三子模型,基于所述样本数据特征确定所述样本地址数据中多个字符的关联标签,所述关联标签用于表示对应字符是否为无关字符;基于所述多个字符的关联标签,确定所述多个字符中的预测无关字符。8.根据权利要求1

7任一项所述的方法,所述基于第一差异信息、第二差异信息以及第三差异信息,对所述地址数据处理模型的进行训练包括:基于所述第一差异信息、所述第二差异信息以及所述第三差异信息,确定训练所述地址数据处理模型的第一损失、第二损失以及第三损失;基于所述第一损失、所述第二损失以及所述第三损失,对所述地址数据处理模型进行训练。9.根据权利要求8所述的方法,所述基于所述第一损失、所述第二损失以及所述第三损失,对所述地址数据处理模型进行训练包括:将所述第一损失、所述第二损失以及所述第三损失进行加权融合,得到联合损失;基于所述联合损失,采用梯度下降法对所述地址数据处理模型的模型参数进行...

【专利技术属性】
技术研发人员:熊永福陶思冶
申请(专利权)人:重庆蚂蚁消费金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1