【技术实现步骤摘要】
地址数据识别方法及装置
本专利技术一般涉及数据处理领域,尤其涉及一种地址数据识别方法及装置。
技术介绍
目前,企业中的大部分业务数据都存储在关系数据库中,例如Oracle、Mysql和SqlServer等。由于历史原因以及企业的安全策略各异,很多企业中的业务数据并没有进行加密存储。随着大数据时代的到来,我们需要频繁地利用这些数据进行分析。由于这些业务数据中包含个人相关的敏感信息,例如姓名、电话号码、身份证号码和地址等,为了防止个人信息泄露,我们需要找出这些敏感信息并进行统一管理。然而,一个企业往往存在几百套系统,涉及几千甚至上万张数据表,每张数据表有几十上百个字段,如果靠人工核查,势必耗费大量人力,并且企业的业务系统也在不断地更新,因此人工核查的结果会很快失效。为了解决这个问题,我们需要寻找一种自动化方法自动识别业务系统中的这些敏感信息,具体来说,就是识别关系数据表中某一列的数据是否为敏感信息。在常见的敏感信息中,姓名、电话号码、身份证号码都是根据有限的几条简单规则生成,因此这些信息使用规则模型就可以轻松识别,然而实际的地址数据使用规则模型很难准确识别,其结构和命 ...
【技术保护点】
1.一种地址数据识别方法,其特征在于,包括以下步骤:构建地址信息识别模型;获取数据表内任一列数据中的多个样本,将所述样本输入所述地址信息识别模型中,所述地址信息识别模型输出被识别为地址数据的样本;将所述被识别为地址数据的样本的数量和所述样本的数量的商与预设阀值比较,若大于预设阈值,则该列数据为地址数据,反之,则该列数据为非地址数据。
【技术特征摘要】
1.一种地址数据识别方法,其特征在于,包括以下步骤:构建地址信息识别模型;获取数据表内任一列数据中的多个样本,将所述样本输入所述地址信息识别模型中,所述地址信息识别模型输出被识别为地址数据的样本;将所述被识别为地址数据的样本的数量和所述样本的数量的商与预设阀值比较,若大于预设阈值,则该列数据为地址数据,反之,则该列数据为非地址数据。2.根据权利要求1所述的地址数据识别方法,其特征在于,所述构建地址信息识别模型,包括以下步骤:采集数据;提取所述数据的N-Gram特征、所述数据对应的字符串长度和所述数据各字符对应的字符分布的信息熵;根据N-Gram模型确定N-Gram特征的特征向量;将所述N-Gram特征的特征向量、所述字符串长度和所述字符分布的信息熵进行数量化编码获得训练数据;使用所述训练数据对分类算法进行训练获得所述地址信息识别模型。3.根据权利要求2所述的地址数据识别方法,其特征在于,采集的数据包括中文地址数据、英文地址数据、非地址类型的中文字符、非地址类型的英文字符、非地址类型的数字。4.根据权利要求2所述的地址数据识别方法,其特征在于,使用所述训练数据对分类算法进行训练,包括,将所述训练数据输入所述分类算法中,并获取分类算法输出值;比较所述输出值的判断结果与所述训练数据是否对应;根据比较结果对所述分类算法的参数进行调整。5.根据权利要求1所述的地址数据识别方法,其特征在于,所述获取数据表内任一列数据中的多个样本,包括,对数据表内任一列数据随机采样获得多个非空样本,将所述多个非空样本去重后获得非重复的所述多个样本。6.一种地址数据识别装置,其特征在于,包括...
【专利技术属性】
技术研发人员:张振海,罗剑江,胡泽柱,
申请(专利权)人:顺丰科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。