一种手机号码修复方法、快递配送系统和计算机程序技术方案

技术编号:33080522 阅读:39 留言:0更新日期:2022-04-15 10:32
本发明专利技术提供了一种手机号码修复方法、快递配送系统和计算机程序。本发明专利技术基于待处理的数据源到加密号码临时表;将加密号码临时表与多个预处理结果表进行相似度匹配,分别得到匹配记录表;设置每个预处理结果表的可靠度权重,对于每个匹配记录表的明文号码,基于匹配相似度和可靠度权重计算综合积分,将综合积分最大的明文号码作为加密号码的被修复后的补全号码。本发明专利技术的手机号码修复算法实现高准确度、高匹配率地对加密号码的补全修复。高匹配率地对加密号码的补全修复。高匹配率地对加密号码的补全修复。

【技术实现步骤摘要】
一种手机号码修复方法、快递配送系统和计算机程序


[0001]本专利技术涉及算法领域,具体涉及一种手机号码修复方法、快递配送系统和计 算机程序。

技术介绍

[0002]随着我国电子商务的快速发展以及快递行业的服务质量与配送效率的不断 提升,每年产生的快递数量也在不断攀升。为了保护用户的个人隐私,快递公司 将手机号码的中间4位做了加密处理。由于快递行业的自身特性使得快递数据中 的地址准确性更高、粒度更细、覆盖更全面,对应的手机号码更准确。快速有效 的实现对快递中手机号码的补全,是充分发挥快递数据价值的关键,也是一项挑 战。
[0003]手机号码的补全流程一般包括基础数据源的准备处理和加密号码的补全修 复两个部分,其中基础数据源是补全修复的基础,数据质量和数据时效性直接影 响最终的修复率;补全修复算法设计是补全修复的关键,修复算法的优劣直接影 响修复结果的准确性。目前关于快递数据手机号码补全的研究主要是以全文检索 为核心的匹配模型,该方法首先根据数据源建立一个手机号码和中文地址对应关 系的基础库,然后将加密号码的明文部分和快递地址作为检索条件进行匹配。全 文检索的匹配模型在匹配过程中只考虑关键词匹配因素,匹配速度快,但缺点是 没有考虑到各种数据源本身的可靠度的差别;同时只是根据关键词的匹配情况得 到修复号码,匹配维度单一,结果误差较大。

技术实现思路

[0004]为解决现有技术存在的问题,本专利技术提供了一种手机号码修复方法、快递配 送系统和计算机程序,本专利技术的技术方案如下。
[0005]一种手机号码修复方法,包括:
[0006]基于待处理的数据源到加密号码临时表;其中,所述加密号码临时表包括加 密号码、姓名、地址;
[0007]将加密号码临时表与多个预处理结果表进行相似度匹配,分别得到匹配记录 表;其中,所述预处理结果表包括明文号码、姓名和/或地址;所述匹配记录表 包括明文号码、姓名和/或地址、匹配相似度;所述匹配相似度大于等于0且小 于等于1;
[0008]设置每个预处理结果表的可靠度权重,对于每个匹配记录表的明文号码,基 于匹配相似度和可靠度权重计算综合积分,将综合积分最大的明文号码作为加密 号码的被修复后的补全号码;其中,所可靠度权重大于等于0且小于等于1。
[0009]优选的,所述预处理结果表包括第一预处理结果表、第二预处理结果表和 第三预处理结果表;其中,第一预处理结果表包括号码、姓名和地址,第二预处 理结果表包括号码和姓名,第三预处理结果表包括号码和地址。
[0010]优选的,所述相似度匹配包括将加密号码临时表与多个预处理结果表分别 基于姓名和/或地址进行相似度匹配。
[0011]优选的,基于姓名、地址、姓名和地址进行相似度匹配得到的匹配相似度 不同,并且,基于姓名进行相似度匹配得到的匹配相似度为预设值,基于地址进 行相似度匹配得到的匹配相似度为重叠字符数与地址总字符数的比值。
[0012]优选的,所述预处理结果表包括多个第一预处理结果表,或者,多个第三 预处理结果表;并且在将加密号码临时表与多个预处理结果表进行相似度匹配时, 取匹配相似度最大的明文号码作为匹配记录表的明文号码。
[0013]优选的,在常住地址表查找与补全号码对应的常住地址,并计算与加密号码 临时表的地址的距离,将补全号码、可靠度权重、综合积分、距离存储到到补全 号码关系表中;其中,所述常住地址表包括明文号码与常驻地址之间的映射关系, 所述补全号码关系表包括姓名、地址、加密号码分别与补全号码之间对应关系。 优选的,将待处理的数据源中的收件号码、寄件号码分别与补全号码关系表关 联,得到收件号码、寄件号码的补全号码。
[0014]一种计算机程序,所述计算机程序被计算机执行时,实现上述述的手机号码 修复方法。
[0015]一种快递派送系统,所述快递派送系统包括计算机,所述计算机执行上述的 计算机程序,从而实现快递地址标准化处理。
[0016]相对于现有技术,本专利技术的有益技术效果在于:本专利技术对不同数据源按照可 信度设置积分权重;对不同的匹配维度按照可靠度设置匹配维度权重,并根据面 单地址与常住地址之间的距离对补全结果做验证。本专利技术的手机号码修复算法实 现高准确度、高匹配率地对加密号码的补全修复。
附图说明
[0017]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用 的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此 不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳 动的前提下,还可以根据这些附图获得其他相关的附图。
[0018]图1为手机号码修复方法流程示意图;
[0019]图2为对加密的手机号码进行修复算法流程示意图。
具体实施方式
[0020]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实 施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描 述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
[0021]实施例一
[0022]如图1所示,本实施例提供了一种手机号码修复方法,手机号码修复方 法要分为数据源的预处理和手机号码的补全修复。
[0023]如图1所示,数据源的预处理是对所有数据源进行数据清洗和标准化,得 到规范化、统一化的数据结果。具体包括:
[0024]从各个数据源中抽取出姓名、手机号码、地址、时间等信息,得到待处理的 数据;同时读取预处理结果表的历史记录;
[0025]基于待处理数据得到手机号码、姓名、标准地址、时间等信息;
[0026]对处理之后的结果进行数据清洗,其中所述数据清洗包括剔除异常号码、剔 除异常地址;
[0027]将数据清洗后的结果保存到结果表中。
[0028]如图2所示,手机号码的补全修复算法是对加密的手机号码进行修复。具体 包括:
[0029]读取各个数据源的预处理结果表、常住地址表和实名制结果表的数据;
[0030]其中,预处理结果表是指对数据源进行数据清洗后的结果表;所述常住地址 表是收集号码及其常住地址并经过对数据清洗得到的号码与地址对应关系表;所 述实名制结果表是手机号码、姓名及其身份信息的对应关系表。
[0031]对于每一批待处理的待处理的数据源(快递)数据,抽取其中的寄件人(收 件人)号码、寄件人(收件人)姓名、寄件人(收件人)地址和订单时间,形成加密 号码记录的加密号码临时表;其中,待处理的数据源(快递)中包含加密的号码; 所述加密号码临时表为原始的数据中存在大量的其他字段,并且这些字段对于计 算没有任何作用,但是又不能删除这些字段。为了提高计算效率,提取关键字段 形成临时表去做分析计算。在程序的最后阶段再把其他字段带出来。
[0032]将预处理结果表中包含手机号码、姓名、地址的数据、仅包含手机号码、地 址的数据、仅包含手机号码、姓名的数据、仅包含手机号码与短信时间数据的数 据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种手机号码修复方法,其特征在于,包括:基于待处理的数据源到加密号码临时表;其中,所述加密号码临时表包括加密号码、姓名、地址;将加密号码临时表与多个预处理结果表进行相似度匹配,分别得到匹配记录表;其中,所述预处理结果表包括明文号码、姓名和/或地址;所述匹配记录表包括明文号码、姓名和/或地址、匹配相似度;所述匹配相似度大于等于0且小于等于1;设置每个预处理结果表的可靠度权重,对于每个匹配记录表的明文号码,基于匹配相似度和可靠度权重计算综合积分,将综合积分最大的明文号码作为加密号码的被修复后的补全号码;其中,所可靠度权重大于等于0且小于等于1。2.根据权利要求1所述的手机号码修复方法,其特征在于,所述预处理结果表包括第一预处理结果表、第二预处理结果表和第三预处理结果表;其中,第一预处理结果表包括号码、姓名和地址,第二预处理结果表包括号码和姓名,第三预处理结果表包括号码和地址。3.根据权利要求1所述的手机号码修复方法,其特征在于,所述相似度匹配包括将加密号码临时表与多个预处理结果表分别基于姓名和/或地址进行相似度匹配。4.根据权利要求2所述的手机号码修复方法,其特征在于,基于姓名、地址、姓名和地址进行相似度匹配得到的匹配相似度不同,并且,基于姓名进行相似度匹配得到的...

【专利技术属性】
技术研发人员:郑博洪崔裕文吴刘青王飞丁凤洋李德鹏汪银洲
申请(专利权)人:广州汇智通信技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1