【技术实现步骤摘要】
用于匹配私有数据的匹配模式自动生成方法、装置及设备
本说明书一个或多个实施例涉及计算机
,尤其涉及一种用于匹配私有数据的匹配模式自动生成方法、装置及设备。
技术介绍
随着大数据时代的发展,越来越多的个人私有数据需要被识别并保护。传统技术中,通常是通过人工编写规则来识别个人私有数据。然而,通过人工的方式来编写规则时,其成本比较高,且效率比较低。此外,由于个人私有数据通常不具有突出的特点,因此,基于人工的方式编写的规则,对个人私有数据进行识别时,识别准确性较低。
技术实现思路
本说明书一个或多个实施例描述了一种用于匹配私有数据的匹配模式自动生成方法、装置及设备,可以大大提升匹配模式的生成效率。第一方面,提供了一种用于匹配私有数据的匹配模式自动生成方法,包括:确定当前样本分组对应的匹配模式模板;所述当前样本分组包括对应于第一数据类型的至少一个样本数据,各个样本数据具有相同的数据位数;所述匹配模式模板包括至少一个占位符,其中,每个占位符与所述样本数据中的一个数据位相对应;将所述匹配模 ...
【技术保护点】
1.一种用于匹配私有数据的匹配模式自动生成方法,包括:/n确定当前样本分组对应的匹配模式模板;所述当前样本分组包括对应于第一数据类型的至少一个样本数据,各个样本数据具有相同的数据位数;所述匹配模式模板包括至少一个占位符,其中,每个占位符与所述样本数据中的一个数据位相对应;/n将所述匹配模式模板中的当前占位符对应的数据位作为当前数据位;基于当前样本分组内的各个样本数据对应于当前数据位的多个字符各自出现的概率,计算当前数据位对应的信息熵;/n基于所述信息熵,判断是否需要对当前样本分组进行分裂;/n当不需要对当前样本分组进行分裂时,基于所述多个字符,生成对应于当前数据位的子匹配模 ...
【技术特征摘要】
1.一种用于匹配私有数据的匹配模式自动生成方法,包括:
确定当前样本分组对应的匹配模式模板;所述当前样本分组包括对应于第一数据类型的至少一个样本数据,各个样本数据具有相同的数据位数;所述匹配模式模板包括至少一个占位符,其中,每个占位符与所述样本数据中的一个数据位相对应;
将所述匹配模式模板中的当前占位符对应的数据位作为当前数据位;基于当前样本分组内的各个样本数据对应于当前数据位的多个字符各自出现的概率,计算当前数据位对应的信息熵;
基于所述信息熵,判断是否需要对当前样本分组进行分裂;
当不需要对当前样本分组进行分裂时,基于所述多个字符,生成对应于当前数据位的子匹配模式;
将所述匹配模式模板中对应于当前数据位的占位符替换为所述子匹配模式,得到更新的匹配模式模板;
若更新的匹配模式模板不包括占位符,则将该更新的匹配模式模板作为所述第一数据类型对应的最终匹配模式;
将所述最终匹配模式添加到所述第一数据类型对应的匹配模式列表中;所述匹配模式列表用于匹配对应于所述第一数据类型的私有数据。
2.根据权利要求1所述的方法,所述基于所述信息熵,判断是否需要对当前样本分组进行分裂,包括:
判断所述信息熵是否为第一数值;
若是,则不需要对当前样本分组进行分裂;
若否,则判断所述信息熵是否大于预定阈值;若是,则不需要对当前样本分组进行分裂;若否,则需要对当前样本分组进行分裂。
3.根据权利要求1或2所述的方法,还包括:
当需要对当前样本分组进行分裂时,基于所述多个字符的分布规律,将所述当前样本分组分裂为若干子分组;
将所述当前样本分组对应的匹配模式模板作为所述若干子分组中各个子分组各自对应的匹配模式模板;
将所述各个子分组依次作为当前样本分组,基于当前样本分组的匹配模式模板和组内各样本数据,确定所述第一数据类型对应的最终匹配模式,并将确定的最终匹配模式添加到所述匹配模式列表中。
4.根据权利要求1所述的方法,所述基于所述多个字符,生成对应于当前数据位的子匹配模式,包括:
若所述信息熵为第一数值,则确定所述多个字符相同,并将该相同的字符作为当前数据位对应的子匹配模式;
若所述信息熵大于预定阈值,则将包含所述多个字符的字符集作为当前数据位对应的子匹配模式。
5.根据权利要求1所述的方法,还包括:
确定对应于所述最终匹配模式中的最后一个子匹配模式的样本数量;
基于所述样本数量,确定所述最终匹配模式的权重值。
6.根据权利要求1所述的方法,所述第一数据类型包括以下任一种:身份证号类型、银行卡号类型、手机号类型、护照号类型、IP地址类型、唯一素材识别码UMID类型、国际移动用户识别码IMSI类型、交易流水号类型以及征信报告编号类型。
7.一种私有数据的匹配方法,包括:
获取对应于同一未知类型的若干私有数据;
将所述若干私有数据与各已知类型各自对应的匹配模式列表中的各匹配模式进行匹配,得到与所述各已知类型中的每种数据类型对应的匹配模式列表中的各匹配模式的匹配成功次数;所述各已知类型各自对应的匹配模式列表通过权利要求1-6中任一项所述的方法获取;
至少基于所述匹配成功次数,从所述各已知类型中确定出所述私有数据的数据类型。
8.根据权利要求7所述的方法,所述每种数据类型对应的匹配模式列表中各匹配模式具有对应的权重值;
所述至少基于所述匹配成功次数,确定所述私有数据的数据类型,包括:
基于所述权重值以及所述匹配成功次数,确定所述私有数据的数据类型。
9.一种用于匹配私有数据的匹配模式自动生成装置,包括:
确定单元,用于确定当前样本分组对应的匹配模式模板;所述当前样本分组包括对应于第一数据类型的至少一个样本数据,各个样本数据具有相同的数据位数;所述匹配模式模板包括至少一个占位符,其中,每个占位符与所述样本数据中的一个数据位相对应;
计算单元,用于将所述确定单元确定的所述匹配模式模板中的当前占位符对应的数据位作为当前数据位;基于当前样本分组内的各个样本数据对应于当前数据位的多个字符各自出现的概率,计算当前数据位对应的信息熵;
判断单元,用于基于所述计算单元计算得到的所述信息熵,判断是否需要对当前样本分组进行分裂;
生成单元,用于当所述判断单元判断不需要对当前样本分组进行分裂时,基于所述多个字符,生成对应于当前数据位的子匹配模式;
替换单元,用于将所述确定单元确定的所述匹配模式模板中对应于当前数据位的占位符替换为所述生成单元生成的所述子匹配模式,得到更新的匹配模式模板;
所述确定单元,还用于若更新的匹配模式模板不包括占位符,则将该更新的匹配模式模板作为所述第一数据类型对应的最终匹配模式;
添加单元,用于将所述确定单元确定的所述...
【专利技术属性】
技术研发人员:林博,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。