一种地址归一化及补充方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38158703 阅读:11 留言:0更新日期:2023-07-13 09:29
本申请提供了一种地址归一化及补充方法、装置、电子设备及存储介质。所述方法包括获取待处理数据集,所述待处理数据集包括具有同一对象的地址数据;根据预设的第一处理规则和所述待处理数据集获得多个关联地址;根据预设的第二处理规则和多个关联地址获得目标地址;修改所有具有同一对象的地址数据为目标地址。以此方式,能够将存在一地多名的地址信息统一为一个标准的地址信息。一个标准的地址信息。一个标准的地址信息。

【技术实现步骤摘要】
一种地址归一化及补充方法、装置、电子设备及存储介质


[0001]本申请涉及地址处理的
,尤其是涉及一种地址归一化及补充方法、装置、电子设备及存储介质。

技术介绍

[0002]归一化是一种简化计算的方式,需要处理的数据经过处理后(通过某种算法)限制一定范围内。
[0003]在日常生活中,一些约定俗成的称谓能够准确地标识一个地址,而一个地址也会同时具有多种称谓,如简称、俗称、新旧称谓、前后顺序不一致、以地标物作为地址等。这些情况会使一个地址信息存在多种称谓,从而会在分析一个地址信息时带来较大干扰。

技术实现思路

[0004]根据本申请的实施例,提供了一种地址归一化及补充方案。
[0005]在本申请的第一方面,提供了一种地址归一化及补充方法。该方法包括:
[0006]获取待处理数据集,所述待处理数据集包括具有同一对象的地址数据;
[0007]根据预设的第一处理规则和所述待处理数据集获得多个关联地址;
[0008]根据预设的第二处理规则和多个关联地址获得目标地址;
[0009]修改所述同一关联地址中的另一地址数据为目标地址。
[0010]在一种可能的实现方式中,所述获取待处理数据集的方法包括:
[0011]获取关系型数据集;
[0012]根据预设的NLP命名实体识别模块获取非关系数据集;
[0013]合并所述关系型数据和所述非关系型数据集获得初始数据集;
[0014]获取初始数据集中具有同一对象的地址数据,得到待处理数据集。
[0015]在一种可能的实现方式中,根据预设的第一处理规则和所述待处理数据集获得多个关联地址的方法包括:
[0016]删去所述待处理数据集中相同的地名和数字编码;
[0017]根据组合数公式获得个关联地址,其中m为所述待处理数据集中数据的个数,n为关联地址中地址的个数,所述m大于1,所述n为2。
[0018]在一种可能的实现方式中,所述根据预设的第二处理规则和多个关联地址获得目标地址的方法包括:
[0019]根据预设的词向量模型获取所述多个关联地址的相似度S
AB


[0020]在所述关联地址的相似度大于预设的相似度阈值时,获取所述关联地址的可归一评估值;
[0021]在所述可归一评估值大于预设的归一阈值时,获取可归一评估值最大的关联地址;
[0022]根据选定指令选择评估值最大的关联地址中的其中一个地址作为目标地址。
[0023]在一种可能的实现方式中,所述获取所述关联地址的可归一评估值的方法包括:
[0024]获取所述关联地址的地址关系网络关联度;
[0025]U
AB

为所述关联地址的地址关系网络关联度,C
A

为关联地址中其中一个地址在初始数据集中的关联人数,C
B

为关联地址中另一地址在初始数据集中的关联人数,C
u
为关联地址中具有相同对象的关联人数;
[0026]所述地址关系网络关联度的计算公式为:
[0027][0028]计算所述关联地址的时间相关叠加概率;
[0029]获取两个相邻的关联地址之间的时间间隔G
AB


[0030]标记多个关联地址中最大时间间隔为G
max

[0031]则每两个关联地址之间的时间调节概率为TG
AB


[0032]所述时间相关叠加概率计算公式为:
[0033][0034]计算所述关联地址的可归一评估值;
[0035]SU
AB

为关联地址的可归一评估值,S
AB

为关联地址的相似度;
[0036]所述可归一评估值的计算公式为:
[0037]SU
AB

=S
AB

*U
AB

+TG
AB


[0038]在一种可能的实现方式中,在修改所有具有同一对象的地址数据为目标地址后,所述方法还包括:
[0039]存储所述修改后的具有同一对象的地址数据至归一数据集。
[0040]由以上技术方案可知,通过获得初始数据集,初始数据集包括关系型数据和非关系型数据,将初始数据集处理为待处理数据集,通过待处理数据集、预设的第一处理规则和预设的第二处理规则得到目标地址,将关联地址中的地址统一为目标地址,能够将存在一地多名的地址信息统一为一个标准的地址信息
[0041]在一种可能的实现方式中,包括应用于提取自然语言的自然语言命名实体识别装置,所述方法还包括:
[0042]获取不完整数据;
[0043]根据所述自然语言命名实体识别装置提取所述不完整数据中的待检测对象和待补充地址信息;
[0044]获取归一数据集中所有包括所述待检测对象的地址信息;
[0045]根据所述待补充地址信息和所述归一数据集获得多个关联地址;
[0046]根据所述预设的词向量模型获得所述多个关联地址的相似度;
[0047]获取所有关联地址中大于预设的相似度阈值的关联地址中相似度最高的关联地址;
[0048]补充所述关联地址至不完整数据中。
[0049]由以上技术方案可知,在应用的层面上,对于获得到的不完整的地址信息,通过获取的归一数据集对获取的不完整的地址信息进行补充,能够对不精准的地址信息进行标准
的地址信息补充。
[0050]在本申请的第二方面,提供了一种地址归一化及补充装置。该装置包括:
[0051]数据获取模块,用于获取待处理数据集,所述待处理数据集包括具有同一对象的地址数据;
[0052]数据筛选模块,用于根据预设的第一处理规则和所述待处理数据集获得多个关联地址;
[0053]数据处理模块,用于根据预设的第二处理规则和多个关联地址获得目标地址;
[0054]数据修改模块,用于修改所述同一关联地址中的另一地址数据为目标地址。
[0055]在本申请的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
[0056]在本申请的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本申请的第一方面的方法。
[0057]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。
附图说明
[0058]结合附图并参考以下详细说明,本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址归一化及补充方法,其特征在于,所述方法包括:获取待处理数据集,所述待处理数据集包括具有同一对象的地址数据;根据预设的第一处理规则和所述待处理数据集获得多个关联地址;根据预设的第二处理规则和多个关联地址获得目标地址;修改所述同一关联地址中的另一地址数据为目标地址。2.根据权利要求1所述的一种地址归一化及补充方法,其特征在于,所述获取待处理数据集的方法包括:获取关系型数据集;根据预设的NLP命名实体识别模块获取非关系数据集;合并所述关系型数据和所述非关系型数据集获得初始数据集;获取初始数据集中具有同一对象的地址数据,得到待处理数据集。3.根据权利要求2所述的一种地址归一化及补充方法,其特征在于,根据预设的第一处理规则和所述待处理数据集获得多个关联地址的方法包括:删去所述待处理数据集中相同的地名和数字编码;根据组合数公式获得个关联地址,其中m为所述待处理数据集中数据的个数,n为关联地址中地址的个数,所述m大于1,所述n为2。4.根据权利要求2所述的一种地址归一化及补充方法,其特征在于,所述根据预设的第二处理规则和多个关联地址获得目标地址的方法包括:根据预设的词向量模型获取所述多个关联地址的相似度S
AB

;在所述关联地址的相似度大于预设的相似度阈值时,获取所述关联地址的可归一评估值;在所述可归一评估值大于预设的归一阈值时,获取可归一评估值最大的关联地址;根据选定指令选择评估值最大的关联地址中的其中一个地址作为目标地址。5.根据权利要求4所述的一种地址归一化及补充方法,其特征在于,所述获取所述关联地址的可归一评估值的方法包括:获取所述关联地址的地址关系网络关联度;U
AB

为所述关联地址的地址关系网络关联度,C
A

为关联地址中其中一个地址在初始数据集中的关联人数,C
B

为关联地址中另一地址在初始数据集中的关联人数,C
u
为关联地址中具有相同对象的关联人数;所述地址关系网络关联度的计算公式为:计算所述关联地址的时间相关叠加概率;获取两个相邻的关联地址之间的时间间隔G
AB

【专利技术属性】
技术研发人员:徐涛吴楠蒋修强胡大明卢小军王金涛王方舟
申请(专利权)人:北京码牛科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1