The invention relates to a method and a device for processing user identification. The method comprises the following steps: data source table scan characteristics corresponding to the field source data acquisition data; matching rules characteristics and user identification characteristics corresponding to the field data, if the rules of characteristics and user identification characteristics corresponding to the data of field matching is successful the corresponding field data for user identification, if the rules of characteristics and user identification characteristics corresponding to the data of field match fails, the corresponding field data for user identification; the corresponding source data field in the table number according to the user identification data into the third party user account corresponding to the source data table field data for user identification data remains unchanged. The method and the device for processing the user identification can improve the accuracy and efficiency of the identification of the user identification, obtain the user identification of the third party platform, and improve the security of the user identification.
【技术实现步骤摘要】
用户标识处理的方法和装置
本专利技术涉及数据识别领域,特别是涉及一种用户标识处理的方法和装置。
技术介绍
随着计算机和互联网技术的发展,越来越多的用户享受着互联网技术所带来的便利,同时也产生了海量的数据。海量的数据中涉及到很多用户标识信息,该用户标识信息关乎用户的隐私,需要对用户标识信息进行保护。然而,这些用户标识信息涉及大量的表,表结构复杂,且存储达到百TB(太字节),无法做到人工识别覆盖整体数据。传统的用户标识识别方法主要是通过模糊搜索识别字段,或者通过限制用户标识数据值范围,或者基于全量注册数据进行匹配,然而,采用模糊搜索匹配出现错误率较高,通过数据值范围匹配,因数据范围变化较大,无法准确捕捉正确的用户标识,采用全量注册数据进行匹配,效率低,且用户标识安全性低。
技术实现思路
基于此,有必要针对传统的用户标识识别方法识别准确率低且效率低的问题,提供一种用户标识处理的方法,能提高识别的准确率和效率,且能提高用户标识安全性。此外,还有必要提供一种用户标识处理的装置,能提高识别的准确率和效率,且能提高用户标识安全性。一种用户标识处理的方法,包括以下步骤:扫描源数据表,获取所述源数据表的各字段所对应的数据的特征;将各字段所对应的数据的特征与用户标识的特征规则进行匹配,若字段所对应的数据的特征与用户标识的特征规则匹配成功,则所述字段所对应的数据为用户标识,若字段所对应的数据的特征与用户标识的特征规则匹配失败,则所述字段所对应的数据不为用户标识;将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号,将源数据表中字段所对应的数据不为用户标识的数据保持数据不 ...
【技术保护点】
一种用户标识处理的方法,包括以下步骤:扫描源数据表,获取所述源数据表的各字段所对应的数据的特征;将各字段所对应的数据的特征与用户标识的特征规则进行匹配,若字段所对应的数据的特征与用户标识的特征规则匹配成功,则所述字段所对应的数据为用户标识,若字段所对应的数据的特征与用户标识的特征规则匹配失败,则所述字段所对应的数据不为用户标识;将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号,将源数据表中字段所对应的数据不为用户标识的数据保持数据不变。
【技术特征摘要】
1.一种用户标识处理的方法,包括以下步骤:扫描源数据表,获取所述源数据表的各字段所对应的数据的特征;将各字段所对应的数据的特征与用户标识的特征规则进行匹配,若字段所对应的数据的特征与用户标识的特征规则匹配成功,则所述字段所对应的数据为用户标识,若字段所对应的数据的特征与用户标识的特征规则匹配失败,则所述字段所对应的数据不为用户标识;将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号,将源数据表中字段所对应的数据不为用户标识的数据保持数据不变。2.根据权利要求1所述的方法,其特征在于,在扫描源数据表,获取所述源数据表的各字段所对应的数据的特征的步骤之前,所述方法还包括:从测试数据中选取用户标识字段的数据作为正样本数据,选取非用户标识字段的数据作为负样本数据;对所述正样本数据和负样本数据分别进行特征计算;将正样本数据的特征和负样本数据的特征进行比对,得到所述正样本数据的特征规则。3.根据权利要求1所述的方法,其特征在于,在所述将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号,将源数据表中字段所对应的数据不为用户标识的数据保持数据不变的步骤之后,所述方法还包括:获取源数据表中已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据;根据已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据对所述用户标识的特征规则进行修正。4.根据权利要求1所述的方法,其特征在于,在所述将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号,将源数据表中字段所对应的数据不为用户标识的数据保持数据不变的步骤之后,所述方法还包括:获取源数据表中包含用户标识而未被匹配成功的字段所对应的数据;根据所述包含用户标识而未被匹配成功的字段所对应的数据对所述用户标识的特征规则进行修正。5.根据权利要求1所述的方法,其特征在于,所述特征包括平均值和标准差;所述用户标识为即时通信帐号或移动通信标识或电子邮箱或身份证号码或支付帐号。6.一种用户标识处理的装置,其特征在于,包括:扫描模块,用于扫描源数据表...
【专利技术属性】
技术研发人员:姚乾乾,叶幸春,刘鹤,张海川,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。