用户标识处理的方法和装置制造方法及图纸

技术编号:15747151 阅读:226 留言:0更新日期:2017-07-03 04:00
本发明专利技术涉及一种用户标识处理的方法和装置。所述方法包括以下步骤:扫描源数据表,获取所述源数据表的各字段所对应的数据的特征;将各字段所对应的数据的特征与用户标识的特征规则进行匹配,若字段所对应的数据的特征与用户标识的特征规则匹配成功,则所述字段所对应的数据为用户标识,若字段所对应的数据的特征与用户标识的特征规则匹配失败,则所述字段所对应的数据不为用户标识;将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号,将源数据表中字段所对应的数据不为用户标识的数据保持数据不变。上述用户标识处理的方法和装置,提高了用户标识被识别的准确率和效率,让第三方平台获取用户标识,提高了用户标识的安全性。

Method and device for processing user identification

The invention relates to a method and a device for processing user identification. The method comprises the following steps: data source table scan characteristics corresponding to the field source data acquisition data; matching rules characteristics and user identification characteristics corresponding to the field data, if the rules of characteristics and user identification characteristics corresponding to the data of field matching is successful the corresponding field data for user identification, if the rules of characteristics and user identification characteristics corresponding to the data of field match fails, the corresponding field data for user identification; the corresponding source data field in the table number according to the user identification data into the third party user account corresponding to the source data table field data for user identification data remains unchanged. The method and the device for processing the user identification can improve the accuracy and efficiency of the identification of the user identification, obtain the user identification of the third party platform, and improve the security of the user identification.

【技术实现步骤摘要】
用户标识处理的方法和装置
本专利技术涉及数据识别领域,特别是涉及一种用户标识处理的方法和装置。
技术介绍
随着计算机和互联网技术的发展,越来越多的用户享受着互联网技术所带来的便利,同时也产生了海量的数据。海量的数据中涉及到很多用户标识信息,该用户标识信息关乎用户的隐私,需要对用户标识信息进行保护。然而,这些用户标识信息涉及大量的表,表结构复杂,且存储达到百TB(太字节),无法做到人工识别覆盖整体数据。传统的用户标识识别方法主要是通过模糊搜索识别字段,或者通过限制用户标识数据值范围,或者基于全量注册数据进行匹配,然而,采用模糊搜索匹配出现错误率较高,通过数据值范围匹配,因数据范围变化较大,无法准确捕捉正确的用户标识,采用全量注册数据进行匹配,效率低,且用户标识安全性低。
技术实现思路
基于此,有必要针对传统的用户标识识别方法识别准确率低且效率低的问题,提供一种用户标识处理的方法,能提高识别的准确率和效率,且能提高用户标识安全性。此外,还有必要提供一种用户标识处理的装置,能提高识别的准确率和效率,且能提高用户标识安全性。一种用户标识处理的方法,包括以下步骤:扫描源数据表,获取所述源数据表的各字段所对应的数据的特征;将各字段所对应的数据的特征与用户标识的特征规则进行匹配,若字段所对应的数据的特征与用户标识的特征规则匹配成功,则所述字段所对应的数据为用户标识,若字段所对应的数据的特征与用户标识的特征规则匹配失败,则所述字段所对应的数据不为用户标识;将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号,将源数据表中字段所对应的数据不为用户标识的数据保持数据不变。一种用户标识处理的装置,包括:扫描模块,用于扫描源数据表,获取所述源数据表的各字段所对应的数据的特征;匹配模块,用于将各字段所对应的数据的特征与用户标识的特征规则进行匹配,若字段所对应的数据的特征与用户标识的特征规则匹配成功,则所述字段所对应的数据为用户标识,若字段所对应的数据的特征与用户标识的特征规则匹配失败,则所述字段所对应的数据不为用户标识;处理模块,用于将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号,将源数据表中字段所对应的数据不为用户标识的数据保持数据不变。上述用户标识处理的方法和装置,通过获取源数据表中各字段所对应的数据的特征,将各字段所对应的数据的特征与用户标识的特征规则进行匹配,若匹配成功,则将该字段所对应的数据转化为第三方用户帐号,若匹配失败,则保持该字段所对应的数据不变,通过用户标识的特征规则进行匹配,提高了用户标识被识别的准确率和效率,且将用户标识转化为第三方用户帐号,不让第三方平台获取用户标识,提高了用户标识的安全性。附图说明图1A为一个实施例中终端的内部结构示意图;图1B为一个实施例中服务器的内部结构示意图;图2为一个实施例中用户标识处理的方法的流程图;图3为一个实施例中源数据表的结构形式示意图;图4为另一个实施例中用户标识处理的方法的流程图;图5为一个实施例中用户标识处理的装置的结构框图;图6为另一个实施例中用户标识处理的装置的结构框图;图7为另一个实施例中用户标识处理的装置的结构框图;图8为另一个实施例中用户标识处理的装置的结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。可以理解,本专利技术所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本专利技术的范围的情况下,可以将第一客户端称为第二客户端,且类似地,可将第二客户端称为第一客户端。图1A为一个实施例中终端的内部结构示意图。如图1A所示,该终端包括通过系统总线连接的处理器、存储介质、内存、网络接口、显示屏和输入装置。其中,终端的存储介质存储有操作系统,还包括一种用户标识处理的装置,该用户标识处理的装置用于实现一种用户标识处理的方法。该处理器用于提供计算和控制能力,支撑整个终端的运行。终端中的内存为存储介质中的用户标识处理的装置的运行提供环境,网络接口用于与服务器进行网络通信,如发送数据请求至服务器,接收服务器返回的数据等。终端的显示屏可以是液晶显示屏或者电子墨水显示屏等,输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。该终端可以是手机、平板电脑或者个人数字助理。本领域技术人员可以理解,图1A中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。图1B为一个实施例中服务器的内部结构示意图。如图1B所示,该服务器包括通过系统总线连接的处理器、非易失性存储介质、内存、网络接口、显示屏和输入装置。其中,该服务器的非易失性存储介质存储有操作系统、数据库和用户标识处理的装置,数据库中存储有各种数据和用户标识与第三方用户帐号数据及对应关系,该用户标识处理的装置用于实现适用于服务器的一种用户标识处理的方法。该服务器的处理器用于提供计算和控制能力,支撑整个服务器的运行。该服务器的内存为非易失性存储介质中的用户标识处理的装置的运行提供环境。该服务器的显示屏可以是液晶显示屏或者电子墨水显示屏等,输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。该服务器的网络接口用于据以与外部的终端通过网络连接通信,比如接收终端发送的用户标识请求以及向终端返回第三方用户帐号等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本领域技术人员可以理解,图1B中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。图2为一个实施例中用户标识处理的方法的流程图。如图2所示,一种用户标识处理的方法,可运行于图1中的服务器或终端上,包括以下步骤:步骤202,扫描源数据表,获取该源数据表的各字段所对应的数据的特征。具体地,源数据表是指从网络中获取的数据,其一般以表格形式存储。在源数据表中存在一个或多个字段,每个字段表示一种数据,例如序号字段、姓名字段、用户标识字段、性别字段、年龄字段、地址字段等。图3为一个实施例中源数据表的结构形式示意图。如图3所示,在源数据表首行中包括序号字段、姓名字段、性别字段、用户标识字段、年龄字段、地址字段等。每个字段对应一列。序号字段所对应的数据可为以1开始,自增1的自然数。姓名字段所对应的数据可为各种名称,如王小明、李小白、赵小红等。性别字段所对应的数据可为“男”、“女”和“未知”等。用户标识字段所对应的数据可为符合用户标识规则的数据,如即时通信帐号12345至9999999999等。年龄字段所对应的数据可为0至150等。地址字段所对应的数据可为各个地址。本实施例中的源数据表可为各网站的用户行为所产生的数本文档来自技高网...
用户标识处理的方法和装置

【技术保护点】
一种用户标识处理的方法,包括以下步骤:扫描源数据表,获取所述源数据表的各字段所对应的数据的特征;将各字段所对应的数据的特征与用户标识的特征规则进行匹配,若字段所对应的数据的特征与用户标识的特征规则匹配成功,则所述字段所对应的数据为用户标识,若字段所对应的数据的特征与用户标识的特征规则匹配失败,则所述字段所对应的数据不为用户标识;将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号,将源数据表中字段所对应的数据不为用户标识的数据保持数据不变。

【技术特征摘要】
1.一种用户标识处理的方法,包括以下步骤:扫描源数据表,获取所述源数据表的各字段所对应的数据的特征;将各字段所对应的数据的特征与用户标识的特征规则进行匹配,若字段所对应的数据的特征与用户标识的特征规则匹配成功,则所述字段所对应的数据为用户标识,若字段所对应的数据的特征与用户标识的特征规则匹配失败,则所述字段所对应的数据不为用户标识;将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号,将源数据表中字段所对应的数据不为用户标识的数据保持数据不变。2.根据权利要求1所述的方法,其特征在于,在扫描源数据表,获取所述源数据表的各字段所对应的数据的特征的步骤之前,所述方法还包括:从测试数据中选取用户标识字段的数据作为正样本数据,选取非用户标识字段的数据作为负样本数据;对所述正样本数据和负样本数据分别进行特征计算;将正样本数据的特征和负样本数据的特征进行比对,得到所述正样本数据的特征规则。3.根据权利要求1所述的方法,其特征在于,在所述将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号,将源数据表中字段所对应的数据不为用户标识的数据保持数据不变的步骤之后,所述方法还包括:获取源数据表中已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据;根据已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据对所述用户标识的特征规则进行修正。4.根据权利要求1所述的方法,其特征在于,在所述将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号,将源数据表中字段所对应的数据不为用户标识的数据保持数据不变的步骤之后,所述方法还包括:获取源数据表中包含用户标识而未被匹配成功的字段所对应的数据;根据所述包含用户标识而未被匹配成功的字段所对应的数据对所述用户标识的特征规则进行修正。5.根据权利要求1所述的方法,其特征在于,所述特征包括平均值和标准差;所述用户标识为即时通信帐号或移动通信标识或电子邮箱或身份证号码或支付帐号。6.一种用户标识处理的装置,其特征在于,包括:扫描模块,用于扫描源数据表...

【专利技术属性】
技术研发人员:姚乾乾叶幸春刘鹤张海川
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1