一种快递信息补全方法和系统技术方案

技术编号:35814285 阅读:11 留言:0更新日期:2022-12-03 13:37
本发明专利技术涉及知识图谱技术领域,公开了一种快递信息补全方法和系统,包括两个大步骤,一是通过数据检索,从而筛选出可能是目标数据的碰撞结果数据集;二是通过算法分析,在碰撞结果数据集中找到最接近快递信息M本身的那条数据,进而对快递信息进行补全。进而对快递信息进行补全。进而对快递信息进行补全。

【技术实现步骤摘要】
一种快递信息补全方法和系统


[0001]本专利技术涉及知识图谱
,具体涉及一种快递信息补全方法和系统。

技术介绍

[0002]给定模糊信息,对其进行信息匹配并进一步补全需要用到知识图谱实体抽取技术,包含知识库中的实体、归类和链接。实体消歧和实体链接是一个统一的任务,通过将具有歧义的实体指称项链接到给定的知识库中从而实现实体歧义的消除,能够较好解决一词多义问题。
[0003]现存在脱敏的快递数据,公共安全系统无法精准分析使用,需要对现有脱敏快递数据进行反脱敏补齐,方便公共安全系统基于反脱敏数据精准业务分析。

技术实现思路

[0004]为解决上述技术问题,本专利技术提供一种快递信息补全方法和系统。
[0005]为解决上述技术问题,本专利技术采用如下技术方案:
[0006]一种快递信息补全方法,包括以下步骤:
[0007]步骤A:将脱敏的快递信息M以特定格式作为参数在大数据平台中进行数据碰撞,数据碰撞所用的基础库包括手机号码专题库、手机号码置信度库和地址专题库;数据碰撞具体包括:
[0008]步骤A1:基于特定地区H的常住人口库数据进行数据碰撞,如果碰撞失败则进行步骤A2,如果碰撞成功则得到碰撞结果数据集C1,通过步骤B将快递信息M与碰撞结果数据集C1进行匹配;
[0009]步骤A2:基于特定地区H的健康码出入库数据进行数据碰撞,如果碰撞失败则进行步骤A3,如果碰撞成功则得到碰撞结果数据集C2,通过步骤B将快递信息M与碰撞结果数据集C2进行匹配;
>[0010]步骤A3:基于特定地区H的实有人口库数据进行数据碰撞,如果碰撞成功则得到碰撞结果数据集C3,通过步骤B将快递信息M与碰撞结果数据集C3进行匹配;
[0011]步骤B:快递信息M与碰撞结果数据集C1、或与碰撞结果数据集C2、或与碰撞结果数据集C3进行匹配,在碰撞结果数据集C1、C2或C3中找到与快递信息M最接近的数据Z;
[0012]步骤C:通过数据Z对快递信息M进行信息补全,实现快递信息M的反脱敏。
[0013]具体地,步骤B中,在碰撞结果数据集C1、C2或C3中匹配与快递信息M最接近的数据Z时,当满足以下条件之一时,得到数据Z:
[0014]将快递信息M与碰撞结果数据集的常住地址名称进行相似度匹配或者进行文本向量对比,相似度匹配结果或者向量对比结果达到设定条件;
[0015]将快递信息M与碰撞结果数据集中的常住地址经纬度进行覆盖算法分析,分析结果达到设定条件;
[0016]将快递信息M对应的人员的家庭汇总信息与碰撞结果数据集的常住地址名称进行
相似度匹配或者进行文本向量对比,相似度匹配结果或者向量对比结果达到设定条件。
[0017]一种快递信息补全系统,包括:
[0018]数据检索模块,其将脱敏的快递信息M以特定格式作为参数在大数据平台中进行数据碰撞,数据碰撞所用的基础库包括手机号码专题库、手机号码置信度库和地址专题库;数据碰撞具体包括:
[0019]基于特定地区H的常住人口库数据进行数据碰撞,如果碰撞失败则进行步骤A2,如果碰撞成功则得到碰撞结果数据集C1,通过步骤B将快递信息M与碰撞结果数据集C1进行匹配;
[0020]基于特定地区H的健康码出入库数据进行数据碰撞,如果碰撞失败则进行步骤 A3,如果碰撞成功则得到碰撞结果数据集C2,通过步骤B将快递信息M与碰撞结果数据集C2进行匹配;
[0021]基于特定地区H的实有人口库数据进行数据碰撞,如果碰撞成功则得到碰撞结果数据集C3,通过步骤B将快递信息M与碰撞结果数据集C3进行匹配;
[0022]算法分析模块,其将快递信息M与碰撞结果数据集C1、或与碰撞结果数据集C2、或与碰撞结果数据集C3进行匹配,在碰撞结果数据集C1、C2或C3中找到与快递信息M最接近的数据Z;
[0023]信息补全模块,其通过数据Z对快递信息M进行信息补全,实现快递信息M的反脱敏。
[0024]与现有技术相比,本专利技术的有益技术效果是:
[0025]现有技术可以进行知识自动获取,但是快递数据存在敏感性,无法自动获取,并且知识推理与应用目前尚未构建成熟的知识图谱,也就无法基于知识图谱进行知识推理和应用,快递数据会在公共安全数据域内实时更新,有海量的数据供模型训练和分析使用,基于快递数据反脱敏后,便可将数据用于文本分析,从而进行知识推理。
附图说明
[0026]图1为本专利技术快递信息补全方法的流程图;
[0027]图2为本专利技术快递信息补全系统的框架图。
具体实施方式
[0028]下面结合附图对本专利技术的一种优选实施方式作详细的说明。
[0029]原始快递信息保存在快递公司,在数据传输过程中,若传送非脱敏数据,则存在着隐私泄露的危险,故快递信息需要脱敏后才能传输至公共安全内网数据域,然后需要进行反脱敏,才能存放进专题库中。
[0030]本实施例中脱敏快递信息的格式如下:
[0031]【脱敏数据信息,姓名:张*
[0032]电话:182****8222
[0033]地址:xx省xx市xx路xx大楼】
[0034]脱敏快递信息需满足上述格式才能进行后续的数据补齐。
[0035]本专利技术中的快递信息补全方法包括两个大步骤,一是通过数据检索,从而筛选出
可能是目标数据的碰撞结果数据集;二是通过算法分析,在碰撞结果数据集中找到最接近快递信息M本身的那条数据。
[0036]数据碰撞技术,是通过计算机软件对两个或两个以上的数据库/数据集进行碰撞比对的过程。
[0037]在快递信息M处理过程中,有多次检验校正的过程,设置多个数据库进行数据碰撞,碰撞成功则无需进行后续的数据碰撞,如果碰撞失败则通过下一个数据库进行数据碰撞,直到数据库中找不到相关的信息(也就代表着快递信息M对应的人员可能是地区H以外的人员,没有留下底库),但这种几率很小。后续会基于快递地址文本或者经纬度相似方式进一步分析,来完成基于地址的补齐工作。
[0038]执行步骤A时,先在地区H的常住人口库中进行数据碰撞,如果没有匹配到结果,那么在地区H的健康码出入库中进行数据碰撞,如果还是没有碰撞结果,则去地区H的实有人口库中进行数据碰撞,如果依旧没有碰撞结果,程序直接结束。与上述任何一个数据库进行碰撞时存在碰撞结果,对碰撞结果数据集进行算法分析得到补齐数据。
[0039]例如,步骤A1中,基于常住人口库通过SQL语句进行数据碰撞。通过步骤B将快递信息M与碰撞结果数据集C1进行匹配时,根据人员的姓氏和电话号码的前四位加后四位进行筛选匹配,即如果快递信息M与数据集C1中一条信息的姓氏一致、电话号码前四位和后四位一致、常住地址相似,可以认定数据集C1中的该条信息就是快递信息M对应的完整数据。在执行步骤A1后,如果匹配成功就无需执行步骤A2、步骤A3。
[0040]对于本领域技术人员而言,显然本专利技术不限于上述示范性实施例的细本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种快递信息补全方法,包括以下步骤:步骤A:将脱敏的快递信息M以特定格式作为参数在大数据平台中进行数据碰撞,数据碰撞所用的基础库包括手机号码专题库、手机号码置信度库和地址专题库;数据碰撞具体包括:步骤A1:基于特定地区H的常住人口库数据进行数据碰撞,如果碰撞失败则进行步骤A2,如果碰撞成功则得到碰撞结果数据集C1,通过步骤B将快递信息M与碰撞结果数据集C1进行匹配;步骤A2:基于特定地区H的健康码出入库数据进行数据碰撞,如果碰撞失败则进行步骤A3,如果碰撞成功则得到碰撞结果数据集C2,通过步骤B将快递信息M与碰撞结果数据集C2进行匹配;步骤A3:基于特定地区H的实有人口库数据进行数据碰撞,如果碰撞成功则得到碰撞结果数据集C3,通过步骤B将快递信息M与碰撞结果数据集C3进行匹配;步骤B:快递信息M与碰撞结果数据集C1、或与碰撞结果数据集C2、或与碰撞结果数据集C3进行匹配,在碰撞结果数据集C1、C2或C3中找到与快递信息M最接近的数据Z;步骤C:通过数据Z对快递信息M进行信息补全,实现快递信息M的反脱敏。2.根据权利要求1所述的快递信息补全方法,其特征在于,步骤B中,在碰撞结果数据集C1、C2或C3中匹配与快递信息M最接近的数据Z时,当满足以下条件之一时,得到数据Z:将快递信息M与碰撞结果数据集的常住地址名称进行相似度匹配或者进行文本向量对比,相似度匹配结果或者向量...

【专利技术属性】
技术研发人员:郭庆浪刘跃吴曼青廖勇蒋能莹
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1