地址数据识别方法及装置制造方法及图纸

技术编号:20389640 阅读:22 留言:0更新日期:2019-02-20 02:46
本申请公开了一种地址数据识别方法及装置,方法,包括以下步骤:构建地址信息识别模型;获取数据表内任一列数据中的多个样本,将所述样本输入所述地址信息识别模型中,所述地址信息识别模型输出被识别为地址数据的样本;将所述被识别为地址数据的样本的数量和所述样本的数量的商与预设阀值比较,若大于预设阀值,则该列数据为地址数据,反之,则该列数据为非地址数据,提高了地址数据的识别效率和准确性。

【技术实现步骤摘要】
地址数据识别方法及装置
本专利技术一般涉及数据处理领域,尤其涉及一种地址数据识别方法及装置。
技术介绍
目前,企业中的大部分业务数据都存储在关系数据库中,例如Oracle、Mysql和SqlServer等。由于历史原因以及企业的安全策略各异,很多企业中的业务数据并没有进行加密存储。随着大数据时代的到来,我们需要频繁地利用这些数据进行分析。由于这些业务数据中包含个人相关的敏感信息,例如姓名、电话号码、身份证号码和地址等,为了防止个人信息泄露,我们需要找出这些敏感信息并进行统一管理。然而,一个企业往往存在几百套系统,涉及几千甚至上万张数据表,每张数据表有几十上百个字段,如果靠人工核查,势必耗费大量人力,并且企业的业务系统也在不断地更新,因此人工核查的结果会很快失效。为了解决这个问题,我们需要寻找一种自动化方法自动识别业务系统中的这些敏感信息,具体来说,就是识别关系数据表中某一列的数据是否为敏感信息。在常见的敏感信息中,姓名、电话号码、身份证号码都是根据有限的几条简单规则生成,因此这些信息使用规则模型就可以轻松识别,然而实际的地址数据使用规则模型很难准确识别,其结构和命名并没有比较固定的规律,很难通过有限的几条规则识别,并且常常由于总结的规则不全面导致容易出现误报的问题。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种能够识别关系数据表中某一列是否为地址数据的地址数据识别方法及装置。第一方面,本专利技术的地址数据识别方法,包括以下步骤:构建地址信息识别模型;获取数据表内任一列数据中的多个样本,将样本输入地址信息识别模型中,地址信息识别模型输出被识别为地址数据的样本;将被识别为地址数据的样本的数量和样本的数量的商与预设阀值比较,若大于预设阀值,则该列数据为地址数据,反之,则该列数据为非地址数据。第二方面,本专利技术的地址数据识别装置,包括构建模块:用于构建地址信息识别模型;第一处理模块:用于获取数据表内任一列数据中的多个样本,将样本输入地址信息识别模型中,地址信息识别模型输出被识别为地址数据的样本;识别模块:用于将被识别为地址数据的样本的数量和样本的数量的商与预设阀值比较,若大于预设阀值,则该列数据为地址数据,反之,则该列数据为非地址数据。根据本申请实施例提供的技术方案,通过信息识别模型对任一列数据中的多个样本进行识别,将被识别为地址数据的样本的数量和样本的数量的商与预设阀值比较,若大于预设阀值,则该列数据为地址数据,反之,则该列数据为非地址数据,提高了地址数据的识别效率和准确性,能够解决现有的规则模型在识别地址数据时容易产生误报的问题。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1为本专利技术的实施例的地址数据识别方法的流程示意图;图2为本专利技术的实施例的地址数据识别装置的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。本专利技术的其中一个实施例为,请参考图1,本专利技术的地址数据识别方法,包括以下步骤:构建地址信息识别模型;在本专利技术的实施例中,通过构建地址信息识别模型,来对数据表内的列数据进行地址数据识别,判断列数据内的数据为地址数据或者非地址数据,提高了识别的效率。获取数据表内任一列数据中的多个样本,将样本输入地址信息识别模型中,地址信息识别模型输出被识别为地址数据的样本;在本专利技术的实施例中,获取数据表内任一列数据中的多个样本,排除数据表内的空数据,以提高地址数据识别的效率,地址信息识别模型对数据依次进行识别,并输出判断结果,将判断结果1定义为地址数据,将判断结果0定义为非地址数据,也就是说,如果识别为地址数据的则输出1,如果识别为非地址数据的则输出0,将数据表内的任一列数据进行依次识别,可以减少传统规则模型中对规则进行总结的人力投入,同时解决了由于规则总结不准确导致容易出现误报的问题。将被识别为地址数据的样本的数量和样本的数量的商与预设阀值比较,若大于预设阀值,则该列数据为地址数据,反之,则该列数据为非地址数据。在本专利技术的实施例中,样本数量为M,被识别为地址数据的样本数量为Y,令r=Y/M,如果r大于阀值,则该列数据为地址数据,如果r小于等于阀值,则该列数据为非地址数据,本专利技术的地址数据识别方法并非对单个数据进行识别判定,而是根据多个数据进行整体识别判定,能够提高地址数据识别的准确性,降低地址数据识别方法出错的可能性。阀值一般取0.5,能够提高地址数据识别的准确性以及提高了地址数据识别方法的容错性。进一步的,构建地址信息识别模型,包括以下步骤:采集数据;在本专利技术的实施例中,采集数据,并且采集的数据是已知为地址数据或者非地址数据,通过采集的数据对分类算法进行训练,以获得地址信息识别模型。提取数据的N-Gram特征、数据对应的字符串长度和数据各字符对应的字符分布的信息熵;在本专利技术的实施例中,提取采集的数据的多维度的特征对分类算法进行训练,便于调整分类算法,使得分类算法能够快速找到地址数据和非地址数据的区别以及它们内在的规律,以提高地址信息识别模型的准确性。根据N-Gram模型确定N-Gram特征的特征向量;将N-Gram特征的特征向量、字符串长度和字符分布的信息熵进行数量化编码获得训练数据;在本专利技术的实施例中,将N-Gram特征的特征向量、字符串长度和字符分布的信息熵进行数量化编码获得训练数据,N-Gram是一种多元语法模型。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关。因此,N-Gram模型能够反映字之间的上下文关系。数据的N-Gram特征是指待数据中连续的字的组合,N表示特征中的字数。例如,对于“广东深圳”,其1-Gram特征包括广、东、深、圳,2-Gram特征包括广东、东深、深圳。通常地,从数据中提取字数在预设阈值范围内的N-Gram特征,该阈值范围例如可以为1~2。N-Gram特征的内容为数据中设定长度的字符或字符组合,因此可以反映数据的字面特征。字符分布的信息熵,其计算过程如下:假设训练集的字符集合C={c1,c2,...,cn},这些字符出现的次数分布为O={o1,o2,...,on},其中oi为字符ci出现的次数,则令为字符ci的分布概率,则对于一个字符串S=s1s2...sk,其信息熵为具体的以“广东深圳”为例,数据各字符为“广”、“东”、“深”、“圳”,分别获得各字符的对应的字符分布的信息熵,也就是获得“广”的字符分布的信息熵,“东”的字符分布的信息熵,“深”的字符分布的信息熵,“圳”的字符分布的信息熵。N-Gram特征的特征向量、字符串长度和字符分布的信息熵为多维度特征向量,分类算法能够根据识别的效果,来调整N-Gram特征的特征向量、字符串长度和字符分布的信息熵在分类算法中的权重,以提高地址信息识别模型准确性。使用训练数据对分类算法进行训练获得地址信息识别模型。在本专利技术的实施例中,通过已知为地址数据或者非地址数据的训练数本文档来自技高网...

【技术保护点】
1.一种地址数据识别方法,其特征在于,包括以下步骤:构建地址信息识别模型;获取数据表内任一列数据中的多个样本,将所述样本输入所述地址信息识别模型中,所述地址信息识别模型输出被识别为地址数据的样本;将所述被识别为地址数据的样本的数量和所述样本的数量的商与预设阀值比较,若大于预设阈值,则该列数据为地址数据,反之,则该列数据为非地址数据。

【技术特征摘要】
1.一种地址数据识别方法,其特征在于,包括以下步骤:构建地址信息识别模型;获取数据表内任一列数据中的多个样本,将所述样本输入所述地址信息识别模型中,所述地址信息识别模型输出被识别为地址数据的样本;将所述被识别为地址数据的样本的数量和所述样本的数量的商与预设阀值比较,若大于预设阈值,则该列数据为地址数据,反之,则该列数据为非地址数据。2.根据权利要求1所述的地址数据识别方法,其特征在于,所述构建地址信息识别模型,包括以下步骤:采集数据;提取所述数据的N-Gram特征、所述数据对应的字符串长度和所述数据各字符对应的字符分布的信息熵;根据N-Gram模型确定N-Gram特征的特征向量;将所述N-Gram特征的特征向量、所述字符串长度和所述字符分布的信息熵进行数量化编码获得训练数据;使用所述训练数据对分类算法进行训练获得所述地址信息识别模型。3.根据权利要求2所述的地址数据识别方法,其特征在于,采集的数据包括中文地址数据、英文地址数据、非地址类型的中文字符、非地址类型的英文字符、非地址类型的数字。4.根据权利要求2所述的地址数据识别方法,其特征在于,使用所述训练数据对分类算法进行训练,包括,将所述训练数据输入所述分类算法中,并获取分类算法输出值;比较所述输出值的判断结果与所述训练数据是否对应;根据比较结果对所述分类算法的参数进行调整。5.根据权利要求1所述的地址数据识别方法,其特征在于,所述获取数据表内任一列数据中的多个样本,包括,对数据表内任一列数据随机采样获得多个非空样本,将所述多个非空样本去重后获得非重复的所述多个样本。6.一种地址数据识别装置,其特征在于,包括...

【专利技术属性】
技术研发人员:张振海罗剑江胡泽柱
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1