数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:22330522 阅读:37 留言:0更新日期:2019-10-19 12:21
本申请涉及一种数据处理方法、系统、计算机设备和存储介质。方法包括:获取原始数据,原始数据包括终端标识、用户标识、登录结果及登录地址;对原始数据进行重构得到重构数据,重构数据包括用户地址及地址距离,地址距离为登录地址与用户地址的距离;根据原始数据及重构数据构造各终端标识对应的第一特征向量,第一特征向量包括用户标识数量因素、地址距离的平均值因素及登录成功率因素;将第一特征向量输入监督分类模型,确定终端标识是否为恶意标识,监督分类模型为对训练样本进行训练得到的分类模型,训练样本包括第二特征向量,第二特征向量与第一特征向量的数据结构相同。采用本方法能够提高检测的准确率。

【技术实现步骤摘要】
数据处理方法、装置、计算机设备和存储介质
本申请涉及数据处理
,特别是涉及一种数据处理方法、装置、计算机设备和存储介质。
技术介绍
随着计算机信息技术的发展,出现了黑客及黑客产业链。黑客的上游产业链,通常通过撞库、木马、钓鱼、或病毒等渠道获取用户在网站或应用程序中所使用的账号密码,再打包成账号密码集合,出售给黑客的下游产业链。黑客的下游产业链通过自动机对账号密码集合中的账号密码进行一一登录验证,并挑选出针对某一网站或应用程序的正确的账号密码,进而进行盗取。账号密码被盗取,不仅威胁到用户的虚拟财产(如Q币)和线下财产(如通过微信向亲友借钱),影响个人名誉(如转发内容不当的微博),甚至还可能影响到虚拟社交的生态规则(如操纵大量被盗账号作为水军进行产品宣传),为用户个人或企业带来困扰,因此对盗号进行检测具有十分重要的意义。传统的盗号检测,包括:基于前端病毒、木马的检测;基于客户端登录版本恶意跳变的识别方法等。其主要在集中在上游产业链,对客户端进行上游产业链各种渠道的检测覆盖率低,因此,检测的准确率较低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高检测准确率的数据处理方法、装置、计算机设备和存储介质。一种数据处理方法,所述方法包括:获取原始数据,所述原始数据包括终端标识、用户标识、登录结果及登录地址;对所述原始数据进行重构得到重构数据,所述重构数据包括用户地址及地址距离,所述地址距离为所述登录地址与所述用户地址的距离;根据所述原始数据及所述重构数据构造各所述终端标识对应的第一特征向量,所述第一特征向量包括用户标识数量因素、所述地址距离的平均值因素及登录成功率因素;将所述第一特征向量输入监督分类模型,确定所述终端标识是否为恶意标识,所述监督分类模型为对训练样本进行训练得到的分类模型,所述训练样本包括第二特征向量,所述第二特征向量与所述第一特征向量的数据结构相同。一种数据处理装置,所述装置包括:原始数据获取模块,用于获取原始数据所述原始数据包括终端标识、用户标识、登录结果及登录地址;数据重构模块,用于对所述原始数据进行重构得到重构数据,所述重构数据包括用户地址及地址距离,所述地址距离为所述登录地址与所述用户地址的距离;特征向量构造模块,用于根据所述原始数据及所述重构数据构造各所述终端标识对应的第一特征向量,所述第一特征向量包括用户标识数量因素、所述地址距离的平均值因素及登录成功率因素;恶意标识确定模块,用于将所述第一特征向量输入监督分类模型,确定所述终端标识是否为恶意标识,所述监督分类模型为对训练样本进行训练得到的分类模型,所述训练样本包括第二特征向量,所述第二特征向量与所述第一特征向量的数据结构相同。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取原始数据,所述原始数据包括终端标识、用户标识、登录结果及登录地址;对所述原始数据进行重构得到重构数据,所述重构数据包括用户地址及地址距离,所述地址距离为所述登录地址与所述用户地址的距离;根据所述原始数据及所述重构数据构造各所述终端标识对应的第一特征向量,所述第一特征向量包括用户标识数量因素、所述地址距离的平均值因素及登录成功率因素;将所述第一特征向量输入监督分类模型,确定所述终端标识是否为恶意标识,所述监督分类模型为对训练样本进行训练得到的分类模型,所述训练样本包括第二特征向量,所述第二特征向量与所述第一特征向量的数据结构相同。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取原始数据,所述原始数据包括终端标识、用户标识、登录结果及登录地址;对所述原始数据进行重构得到重构数据,所述重构数据包括用户地址及地址距离,所述地址距离为所述登录地址与所述用户地址的距离;根据所述原始数据及所述重构数据构造各所述终端标识对应的第一特征向量,所述第一特征向量包括用户标识数量因素、所述地址距离的平均值因素及登录成功率因素;将所述第一特征向量输入监督分类模型,确定所述终端标识是否为恶意标识,所述监督分类模型为对训练样本进行训练得到的分类模型,所述训练样本包括第二特征向量,所述第二特征向量与所述第一特征向量的数据结构相同。上述数据处理方法、装置、计算机设备和存储介质,通过在黑客下游产业链的行为汇集环节进行检测,即通过获取黑客对自动机对账号密码集合中的账号密码进行一一登录验证时的原始数据,并对原始数据进行重构得到重构数据;根据原始数据及重构数据构造各终端标识对应的第一特征向量;最后,将第一特征向量输入监督分类模型,确定终端标识是否为恶意标识。如此,无需在客户端处进行黑客上游产业链各种渠道的检测,能够有效规避登录协议在客户端处被破解,提高了检测的准确率。附图说明图1为一个实施例中数据处理方法的应用环境图;图2为一个实施例中数据处理方法的流程示意图;图3为一个实施例中的数据处理方法的一个步骤的具体流程示意图;图4为一个实施例中的数据处理方法的另一个步骤的具体流程示意图;图5为一个实施例中数据处理方法的监督分类模型的构建流程示意图;图6为一个实施例中的数据处理方法的另一个步骤的具体流程示意图;图7为第一个实施例中数据处理装置的结构框图;图8为第二个实施例中数据处理装置的结构框图;图9为第三个实施例中数据处理装置的结构框图;图10为第四个实施例中数据处理装置的结构框图;图11为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。本申请的数据处理方法可以运行在服务器104上。终端102发送用户登录请求至服务器104,服务器104对接收到的用户登录请求进行存储形成原始数据库。本申请的实施例的数据处理方法在服务器104上执行时,可以从数据库中获取原始数据。可以理解地,本申请的数据处理方法也可以运行在不同于服务器104的另一服务器上,在获取原始数据时,从服务器104读取原始数据。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种数据处理方法,包括以下步骤:S201,获取原始数据。原始数据包括终端标识、用户标识、登录结果及登录地址。终端标识是用于标识发出用户登录请求的终端的唯一标识,如可以为网络协议地址或物理地址等。用户标识是用于标识发出用户登录请求的用户的唯一标识,如可以为账号、用户编号或用户名等。登录结果用于表示一用户登录请求的请求结果是否成功。登录地址为发出用户登录请求的终端的所在地,如可以为城市或者具体到街道、社区,甚至具体到哪一户的具体地址。S203,对原始数据进行重构得到重构数据。重构数据包括用户地址及地址距离,地址距离为登录地址与用户地址的距离。用户地址可以为用户注册时登记的地点或用户最常登录的地点;与登录地址对应,该地点可以为城市或者具本文档来自技高网...

【技术保护点】
1.一种数据处理方法,所述方法包括:获取原始数据,所述原始数据包括终端标识、用户标识、登录结果及登录地址;对所述原始数据进行重构得到重构数据,所述重构数据包括用户地址及地址距离,所述地址距离为所述登录地址与所述用户地址的距离;根据所述原始数据及所述重构数据构造各所述终端标识对应的第一特征向量,所述第一特征向量包括用户标识数量因素、所述地址距离的平均值因素及登录成功率因素;将所述第一特征向量输入监督分类模型,确定所述终端标识是否为恶意标识,所述监督分类模型为对训练样本进行训练得到的分类模型,所述训练样本包括第二特征向量,所述第二特征向量与所述第一特征向量的数据结构相同。

【技术特征摘要】
1.一种数据处理方法,所述方法包括:获取原始数据,所述原始数据包括终端标识、用户标识、登录结果及登录地址;对所述原始数据进行重构得到重构数据,所述重构数据包括用户地址及地址距离,所述地址距离为所述登录地址与所述用户地址的距离;根据所述原始数据及所述重构数据构造各所述终端标识对应的第一特征向量,所述第一特征向量包括用户标识数量因素、所述地址距离的平均值因素及登录成功率因素;将所述第一特征向量输入监督分类模型,确定所述终端标识是否为恶意标识,所述监督分类模型为对训练样本进行训练得到的分类模型,所述训练样本包括第二特征向量,所述第二特征向量与所述第一特征向量的数据结构相同。2.根据权利要求1所述的方法,其特征在于,所述监督分类模型的构建过程,包括:获取所述训练样本;将所述训练样本输入至监督分类算法进行训练得到所述监督分类模型。3.根据权利要求2所述的方法,其特征在于,所述将所述训练样本输入至监督分类算法进行训练得到所述监督分类模型的步骤,包括:将所述训练样本输入至多层神经网络进行训练,得到所述监督分类模型。4.根据权利要求3所述的方法,其特征在于,所述将所述训练样本输入至多层神经网络进行训练,得到所述监督分类模型的步骤,包括:将所述训练样本输入至所述多层神经网络进行训练,使得所述多层神经网络的损失函数最小;将所述损失函数最小时所述多层神经网络对应的权值矩阵及偏置向量,作为所述监督分类模型的权值矩阵及偏置向量。5.根据权利要求1所述的方法,其特征在于,所述对所述原始数据进行重构得到重构数据的步骤,包括:确定各所述用户标识对应的用户地址;根据所述用户地址及所述登录地址确定地址距离。6.根据权利要求5所述的方法,其特征在于,所述终端标识包括网络协议地址;所述根据所述原始数据及所述重构数据构造各终端标识对应的第一特征向量的步骤,包括:获取所述网络协议地址;查询在预设时间段内所述网络协议地址所对应的各所述用户标识及所述登录结果,并根据各所述用户标识及所述登录结果,统计在所述预设时间段内所述网络协议地址对应的登录成功率及用户标识数量;根据各所述地址距离的平均值、所述登录成功率及所述用户标识数量确定所述第一特征向量。7.根据权利要求6所述的方法,其特征在于,所述第一特征向量还包括登录次数因素或/和登录成功次数因素;所述根据所述原始数据及所述重构数据构造各所述终端标识对应的第一特征向量的步骤,还包括:根据所述登录结果,统计在预设时间段内所述网络协议地址对应的登录次数或/和登录成功次数;所述根据各所述地址距离的平均值、所述登录成功率及所述用户标识数量确定所述第一特征向量的步骤,包括:根据各所述地址距离的平均值、所述登录成功率、所述用户标识数量以及所述登录次数或/和登录成功次数确定所述第一特征向量。8.根据权利要求1至7任意一项所述的方法,其特征在于,所述将所述第一特征向量输入所述监督分类模型,确定所述终端标识是否为恶意标识的步骤之后,还包括:确定所述终端标识为所述恶意标识时,将在所述恶意标识对应的终端上登录的用户标识判定为被盗用户标识;或/及,确定所述终端标识为所述恶意标识时,禁止所...

【专利技术属性】
技术研发人员:申瑞珉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1