一种判断寄递电话号码真实使用者的方法及装置制造方法及图纸

技术编号:26067817 阅读:25 留言:0更新日期:2020-10-28 16:41
本发明专利技术提供一种判断寄递信息中电话号码真实使用者的方法及装置,所述方法包括:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;对合并数据表中的数据进行分组、合并,得到处理后的数据表;获取概率计算模板,从所述概率计算模板获取概率规则;基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。根据本发明专利技术的方案,对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断。在大规模数据下,当有多个人员使用同一个号码混淆查询视线时,可快速定位该号码的真实使用者。

【技术实现步骤摘要】
一种判断寄递电话号码真实使用者的方法及装置
本专利技术涉及数据处理领域,尤其涉及一种判断寄递电话号码真实使用者的方法及装置。
技术介绍
随着互联网技术的日益成熟及人们生活水平的大幅度提高,越来越多的人选择在网络上购物消费,这也促进了寄递行业的快速发展壮大,为更多的劳动力提供了就业机会。因此,产生的寄递数据越来越多,为了使用、管理数据,必不可少的,需要提高数据的准确性。虽然目前办理电话号码都必须使用身份证实名注册,但实名注册之后并不一定是注册人在使用该电话号码,所以仅根据运营商的开户信息不能确定寄递信息中的寄递电话是该注册人在使用或是其他人在使用。因此,造成注册使用的身份信息和寄递信息中的寄递姓名不能完全匹配。为了对数据进行分析,需要提高数据的准确性,也需要对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断。但现有技术中并不存在对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断的方法。
技术实现思路
为解决上述技术问题,本专利技术提出了一种判断寄递电话号码真实使用者的方法及装置,所述方法及装置,用以解决现有技术中缺少对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断的技术问题。根据本专利技术的第一方面,提供一种判断寄递电话号码真实使用者的方法,所述方法包括以下步骤:步骤S101:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;步骤S102:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;步骤S103:获取概率计算模板,从所述概率计算模板获取概率规则;步骤S104:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。进一步地,所述步骤S101的所述在数据库中合并数据信息,包括:根据获取到的寄递数据,从寄递数据中提取运单号、寄件人信息及收件人信息;再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据,使寄递数据的每一个运单号对应两条数据记录,分别为第一记录和第二记录;所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;得到待计算数据;所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列,该电话号对应的开户人姓名,均对应于姓名列;在数据库中合并数据信息,并对数据信息依据数据内容、来源进行分区存储,还包括:使用greenplum数据库,利用应用场景标志dt、快递类型code为数据信息进行分区;对于应用场景标志dt,dt=1表示该数据为发件数据,dt=2表示该数据为收件数据,dt=3表示数据为运营商开户数据,dt=4表示数据至少为房产数据、车辆、法人数据之一;对于快递类型code,先获取该数据信息对应的应用场景标志dt,若dt=1或dt=2,则该快递类型code为快递公司名称缩写;若dt=3,则该快递类型code标记为kh,若dt=4,则该快递类型code标记为ybss。进一步地,所述步骤S102包括:获取合并数据表,使用sql,根据姓名、电话号,将合并数据表中的数据分组,对于姓名、电话号均相同的记录,将地址去重,对于具有多个地址的,使用符号&连接多个地址,并对应用场景dt进行逻辑计数,生成处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。进一步地,所述概率规则为:当寄递次数至少为2时,即寄快递、收快递累计至少2次时,也即dt=1和dt=2的计数和至少为2时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6;当寄递次数为1时,即仅寄快递1次或收快递1次时,也即dt=1和dt=2的计数和为1时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.3;当运营商开户数据计数大于0,dt=3的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15;当房产信息、车辆数据、法人数据的计数大于0,即dt=4的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25。根据本专利技术第二方面,提供一种判断寄递电话号码真实使用者的装置,所述装置包括:合并数据表生成模块:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;处理后数据表生成模块:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;获取模块:获取概率计算模板,从所述概率计算模板获取概率规则;计算模块:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。进一步地,所述合并数据表生成模块的所述在数据库中合并数据信息,包括:根据获取到的寄递数据,从寄递数据中提取运单号、寄件人信息及收件人信息;再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据,使寄递数据的每一个运单号对应两条数据记录,分别为第一记录和第二记录;所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;得到待计算数据;所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列,该电话号对应的开户人姓名,均对应于姓名列;在数据库中合并数据信息,并对数据信息依据数据内容、来源进行分区存储,还包括:使用greenplum数据库,利用应用场景标志dt、快递类型code为数据信息进行分区;对于应用场景标志dt,dt=1表示该数据为发件数据,dt=2表示该数据为收件数据,dt=3表示数据为运营商开户数据,dt=4表示数据至少为房产数据、车辆、法人数据之一;对于快递类型code,先获取该数据信息对应的应用场景标志dt,若dt=1或dt=2,则该快递类型code为本文档来自技高网...

【技术保护点】
1.一种判断寄递信息中电话号码真实使用者的方法,其特征在于,包括以下步骤:/n步骤S101:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;/n步骤S102:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;/n步骤S103:获取概率计算模板,从所述概率计算模板获取概率规则;/n步骤S104:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。/n

【技术特征摘要】
1.一种判断寄递信息中电话号码真实使用者的方法,其特征在于,包括以下步骤:
步骤S101:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;
步骤S102:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;
步骤S103:获取概率计算模板,从所述概率计算模板获取概率规则;
步骤S104:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。


2.如权利要求1所述的判断寄递信息中电话号码真实使用者的方法,其特征在于,所述步骤S101的所述在数据库中合并数据信息,包括:根据获取到的寄递数据,从寄递数据中提取运单号、寄件人信息及收件人信息;再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据,使寄递数据的每一个运单号对应两条数据记录,分别为第一记录和第二记录;所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;得到待计算数据;
所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列,该电话号对应的开户人姓名,均对应于姓名列;
在数据库中合并数据信息,并对数据信息依据数据内容、来源进行分区存储,还包括:使用greenplum数据库,利用应用场景标志dt、快递类型code为数据信息进行分区;
对于应用场景标志dt,dt=1表示该数据为发件数据,dt=2表示该数据为收件数据,dt=3表示数据为运营商开户数据,dt=4表示数据至少为房产数据、车辆、法人数据之一;
对于快递类型code,先获取该数据信息对应的应用场景标志dt,若dt=1或dt=2,则该快递类型code为快递公司名称缩写;若dt=3,则该快递类型code标记为kh,若dt=4,则该快递类型code标记为ybss。


3.如权利要求1所述的判断寄递信息中电话号码真实使用者的方法,其特征在于,所述步骤S102包括:获取合并数据表,使用sql,根据姓名、电话号,将合并数据表中的数据分组,对于姓名、电话号均相同的记录,将地址去重,对于具有多个地址的,使用符号&连接多个地址,并对应用场景dt进行逻辑计数,生成处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。


4.如权利要求1所述的判断寄递信息中电话号码真实使用者的方法,其特征在于,所述概率规则为:当寄递次数至少为2时,即寄快递、收快递累计至少2次时,也即dt=1和dt=2的计数和至少为2时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6;
当寄递次数为1时,即仅寄快递1次或收快递1次时,也即dt=1和dt=2的计数和为1时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.3;
当运营商开户数据计数大于0,dt=3的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15;
当房产信息、车辆数据、法人数据的计数大于0,即dt=4的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25。


5.一种判断寄递信息中电话号码真实使用者的装置,其特征在于,所述装置包括:
合并数据表生成模块:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来...

【专利技术属性】
技术研发人员:张鹏飞喻波王志海安鹏王志华
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1