工厂地址验证方法、装置及电子设备制造方法及图纸

技术编号:32631884 阅读:21 留言:0更新日期:2022-03-12 18:06
本申请实施例公开了工厂地址验证方法、装置及电子设备,其中,所述方法包括:确定待进行地址验证的多个工厂,通过第一数据源确定所述多个工厂分别对应的第一地址,并从多个第二数据源为所述多个工厂进行第二地址收集;针对所述多个第二数据源中的部分或全部,从所述多个工厂分别对应的第一地址中,确定与第二数据源所提供的第二地址等效的第一地址;利用所述等效的第一地址,对所述第二数据源提供的第二地址进行扩增;基于各第二数据源对应的地址扩增结果,进行多数据源融合处理,以确定多个数据源分别为各工厂提供或扩增的地址属于真实地址的置信度。通过本申请实施例,有利于为更多工厂获得更准确的地址信息。工厂获得更准确的地址信息。工厂获得更准确的地址信息。

【技术实现步骤摘要】
工厂地址验证方法、装置及电子设备


[0001]本申请涉及信息处理
,特别是涉及工厂地址验证方法、装置及电子设备。

技术介绍

[0002]在B2B(Business

to

Business,企业对企业)模式的电子商务系统中,其卖方用户包括工厂,具体的工厂通过注册成为系统中的高级会员,可以优先查看系统中的买家发布的求购信息以及联系方式等信息,使得卖方有机会优先获得更多订单。
[0003]为了使得更多的工厂注册成为高级会员,系统中的工作人员可以采用到工厂实地拜访的方式(通常可以称为“地推”方式)来进行。这就需要建立工厂地址信息库,以便为工作人员提供工厂的地址信息,工作人员能够根据具体工厂的地址信息完成拜访工作。
[0004]通常,在已知工厂名的情况下,可以通过查询工商管理信息等,获取到工厂的注册地址信息。但是,实际情况是,注册地址与实际经营地址往往不一致,因此,仅通过注册地址往往无法完成对工厂的探访,需要收集更多真实有效的工厂地址信息。
[0005]在实际应用中,可以通过其他多种数据源获取工厂的地址信息,但是,除了注册地址信息之外的其他数据源对工厂的覆盖度往往不够。例如,一些数字地图信息系统中可能会收录一些工厂的POI(Point of Interest,兴趣点)地址信息,使得可以通过在系统中输入工厂名,或者以工厂名为参数调用系统提供的API(Application Programming Interface,应用程序接口)等方式,获得工厂的地址信息。由于具体的POI服务通常是需要付费使用的,因此,该数据源提供的POI地址的准确度往往比较高,但是,同样是由于需要工厂付费的情况下,地图信息系统才会提供具体的POI地址信息,因此,存在对工厂覆盖度不高的问题。例如,假设一共有一千万家工厂,地图信息系统能够提供POI地址的工厂可能只有其中的几十万家,等等。
[0006]除了地图信息系统的POI地址之外,也还可以有其他一些数据源,例如,一些产业园区可能会提供园区内的工厂名称以及地址信息,等等。但是,由于这些数据源提供的信息并不强制要求信息更新,因此,这些数据源提供的地址信息除了存在前述覆盖度不高的缺点,还可能存在更新不及时的情况。也即,如果工厂发生搬迁等情况,而数据源提供的信息没有及时更新,则该数据源提供的地址信息也会存在不准确的情况,等等。
[0007]因此,如何获取关于工厂的真实有效的地址信息,成为需要本领域技术人员解决的技术问题。

技术实现思路

[0008]本申请提供了工厂地址验证方法、装置及电子设备,有利于为更多工厂获得更准确的地址信息。
[0009]本申请提供了如下方案:
[0010]一种工厂地址验证方法,包括:
[0011]确定待进行地址验证的多个工厂,通过第一数据源确定所述多个工厂分别对应的
第一地址,并从多个第二数据源为所述多个工厂进行第二地址收集;
[0012]针对所述多个第二数据源中的部分或全部,从所述多个工厂分别对应的第一地址中,确定与第二数据源所提供的第二地址等效的第一地址;
[0013]利用所述等效的第一地址,对所述第二数据源提供的第二地址进行扩增;
[0014]基于各第二数据源对应的地址扩增结果,进行多数据源融合处理,以确定多个数据源分别为各工厂提供或扩增的地址属于真实地址的置信度。
[0015]其中,所述确定与第二数据源所提供的地址等效的第一地址,包括:
[0016]针对其中一第二数据源,从所述多个工厂中,将所述第二数据源所能提供第二地址的部分工厂的第一地址,确定为该第二数据源的样本数据,并确定同一工厂的第一地址与第二地址之间的距离,如果所述距离小于第一目标阈值,则将对应工厂的第一地址确定为正样本,否则为负样本;
[0017]根据所述多个工厂对应的第一地址两两之间的距离,将第一地址密集分布的区域内的各个第一地址确定为聚簇;
[0018]通过对得到的多个聚簇内的第一地址分别进行分析,筛选出目标聚簇,并将所述目标聚簇中的各个第一地址,确定为与所述第二数据源所提供的第二地址等效的第一地址。
[0019]其中,所述根据所述多个工厂对应的第一地址两两之间的距离,将第一地址密集分布的区域内的各个第一地址确定为聚簇,包括:
[0020]在同一目标区划范围内,将所述多个工厂对应的第一地址两两之间的距离,并将所述同一目标区划范围内,第一地址密集分布的区域内的各个第一地址确定为聚簇。
[0021]其中,所述在同一目标区划范围内,将所述多个工厂对应的第一地址两两之间的距离,包括:
[0022]将所述目标区划范围在球面上的边界映射成平面上的边界,并通过局部欧式坐标近似计算多个工厂对应的第一地址两两之间的距离。
[0023]其中,所述对得到的多个聚簇内的第一地址分别进行分析,包括:
[0024]对于其中一聚簇,根据所述聚簇中包括的第一地址的数量,其中属于样本数据的第一地址的数量,以及其中正样本的数量,对所述聚簇中包含的所述等效的第一地址的数量进行预测,如果所述聚簇中包含的所述等效的第一地址的数量所占的比例超过第二目标阈值,则确定为所述目标聚簇。
[0025]其中,所述对所述聚簇中包含的所述等效的第一地址的数量进行预测,包括:
[0026]基于超几何分布的置信度估计算法,生成以聚簇中包含的第一地址的数量,其中属于样本数据的第一地址的数量,以及其中正样本的数量为已知参数,所述聚簇中包含的所述等效的第一地址的数量为未知参数的函数,并基于置信区间的方法,对所述等效的第一地址的数量进行预测。
[0027]其中,所述第二数据源包括地图信息系统提供的兴趣点POI地址数据源,所述第二地址包括POI地址;
[0028]所述与第二数据源所提供的第二地址等效的第一地址包括:
[0029]与所述POI地址具有同等置信度的第一地址;
[0030]如果所述聚簇中包含的所述等效的第一地址的数量所占的比例超过第二目标阈
值,则确定所述聚簇对应的区域为工业园区,并将所述聚簇确定为所述目标聚簇,将所述目标聚簇中的各个第一地址,确定为与所述POI地址数据源所提供的POI地址等效的第一地址。
[0031]其中,所述基于各第二数据源对应的地址扩增结果,进行多数据源融合处理,包括:
[0032]构造进行多数据源融合的算法模型,以用于根据多个数据源为同一工厂提供的地址和/或扩增的地址,对工厂的真实地址进行预测,并根据数据源为某工厂提供的地址与该工厂对应的真实地址预测结果之间的距离,确定所述数据源为该工厂所提供的地址的置信度。
[0033]其中,所述算法模型中包括用于刻画各数据源所提供地址的可靠性的概率参数;
[0034]所述对工厂的真实地址进行预测,包括:
[0035]对所述算法模型进行多轮迭代,并在每次迭代的过程中对所述概率参数进行更新;
[0036]在所述算法收敛后本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种工厂地址验证方法,其特征在于,包括:确定待进行地址验证的多个工厂,通过第一数据源确定所述多个工厂分别对应的第一地址,并从多个第二数据源为所述多个工厂进行第二地址收集;针对所述多个第二数据源中的部分或全部,从所述多个工厂分别对应的第一地址中,确定与第二数据源所提供的第二地址等效的第一地址;利用所述等效的第一地址,对所述第二数据源提供的第二地址进行扩增;基于各第二数据源对应的地址扩增结果,进行多数据源融合处理,以确定多个数据源分别为各工厂提供或扩增的地址属于真实地址的置信度。2.根据权利要求1所述的方法,其特征在于,所述确定与第二数据源所提供的地址等效的第一地址,包括:针对其中一第二数据源,从所述多个工厂中,将所述第二数据源所能提供第二地址的部分工厂的第一地址,确定为该第二数据源的样本数据,并确定同一工厂的第一地址与第二地址之间的距离,如果所述距离小于第一目标阈值,则将对应工厂的第一地址确定为正样本,否则为负样本;根据所述多个工厂对应的第一地址两两之间的距离,将第一地址密集分布的区域内的各个第一地址确定为聚簇;通过对得到的多个聚簇内的第一地址分别进行分析,筛选出目标聚簇,并将所述目标聚簇中的各个第一地址,确定为与所述第二数据源所提供的第二地址等效的第一地址。3.根据权利要求2所述的方法,其特征在于,所述根据所述多个工厂对应的第一地址两两之间的距离,将第一地址密集分布的区域内的各个第一地址确定为聚簇,包括:在同一目标区划范围内,将所述多个工厂对应的第一地址两两之间的距离,并将所述同一目标区划范围内,第一地址密集分布的区域内的各个第一地址确定为聚簇。4.根据权利要求3所述的方法,其特征在于,所述在同一目标区划范围内,将所述多个工厂对应的第一地址两两之间的距离,包括:将所述目标区划范围在球面上的边界映射成平面上的边界,并通过局部欧式坐标近似计算多个工厂对应的第一地址两两之间的距离。5.根据权利要求2所述的方法,其特征在于,所述对得到的多个聚簇内的第一地址分别进行分析,包括:对于其中一聚簇,根据所述聚簇中包括的第一地址的数量,其中属于样本数据的第一地址的数量,以及其中正样本的数量,对所述聚簇中包含的所述等效的第一地址的数量进行预测,如果所述聚簇中包含的所述等效的第一地址的数量所占的比例超过第二目标阈值,则确定为所述目标聚簇。6.根据权利要求5所述的方法,其特征在于,所述对所述聚簇中包含的所述等效的第一地址的数量进行预测,包括:基于超几何分布的置信度估计算法,生成以聚簇中包含的第一地址的数量,其中属于样本数据的第一地址的数量,以及其中正样本的数量为已...

【专利技术属性】
技术研发人员:黄佳程赵耀宁振徐晓舟陈起进胡伟霍承富任卫军
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1