数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：22330522 阅读：37 留言：0更新日期：2019-10-19 12:21

本申请涉及一种数据处理方法、系统、计算机设备和存储介质。方法包括：获取原始数据，原始数据包括终端标识、用户标识、登录结果及登录地址；对原始数据进行重构得到重构数据，重构数据包括用户地址及地址距离，地址距离为登录地址与用户地址的距离；根据原始数据及重构数据构造各终端标识对应的第一特征向量，第一特征向量包括用户标识数量因素、地址距离的平均值因素及登录成功率因素；将第一特征向量输入监督分类模型，确定终端标识是否为恶意标识，监督分类模型为对训练样本进行训练得到的分类模型，训练样本包括第二特征向量，第二特征向量与第一特征向量的数据结构相同。采用本方法能够提高检测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、计算机设备和存储介质
本申请涉及数据处理
，特别是涉及一种数据处理方法、装置、计算机设备和存储介质。
技术介绍
随着计算机信息技术的发展，出现了黑客及黑客产业链。黑客的上游产业链，通常通过撞库、木马、钓鱼、或病毒等渠道获取用户在网站或应用程序中所使用的账号密码，再打包成账号密码集合，出售给黑客的下游产业链。黑客的下游产业链通过自动机对账号密码集合中的账号密码进行一一登录验证，并挑选出针对某一网站或应用程序的正确的账号密码，进而进行盗取。账号密码被盗取，不仅威胁到用户的虚拟财产(如Q币)和线下财产(如通过微信向亲友借钱)，影响个人名誉(如转发内容不当的微博)，甚至还可能影响到虚拟社交的生态规则(如操纵大量被盗账号作为水军进行产品宣传)，为用户个人或企业带来困扰，因此对盗号进行检测具有十分重要的意义。传统的盗号检测，包括：基于前端病毒、木马的检测；基于客户端登录版本恶意跳变的识别方法等。其主要在集中在上游产业链，对客户端进行上游产业链各种渠道的检测覆盖率低，因此，检测的准确率较低。
技术实现思路
基于此，有必要针对上述技术问题，提供一种能够提高检测准确率的数据处理方法、装置、计算机设备和存储介质。一种数据处理方法，所述方法包括：获取原始数据，所述原始数据包括终端标识、用户标识、登录结果及登录地址；对所述原始数据进行重构得到重构数据，所述重构数据包括用户地址及地址距离，所述地址距离为所述登录地址与所述用户地址的距离；根据所述原始数据及所述重构数据构造各所述终端标识对应的第一特征向量，所述第一特征向量包括用户标识数量因素、所述地址距离的平均值...

【技术保护点】
1.一种数据处理方法，所述方法包括：获取原始数据，所述原始数据包括终端标识、用户标识、登录结果及登录地址；对所述原始数据进行重构得到重构数据，所述重构数据包括用户地址及地址距离，所述地址距离为所述登录地址与所述用户地址的距离；根据所述原始数据及所述重构数据构造各所述终端标识对应的第一特征向量，所述第一特征向量包括用户标识数量因素、所述地址距离的平均值因素及登录成功率因素；将所述第一特征向量输入监督分类模型，确定所述终端标识是否为恶意标识，所述监督分类模型为对训练样本进行训练得到的分类模型，所述训练样本包括第二特征向量，所述第二特征向量与所述第一特征向量的数据结构相同。

【技术特征摘要】
1.一种数据处理方法，所述方法包括：获取原始数据，所述原始数据包括终端标识、用户标识、登录结果及登录地址；对所述原始数据进行重构得到重构数据，所述重构数据包括用户地址及地址距离，所述地址距离为所述登录地址与所述用户地址的距离；根据所述原始数据及所述重构数据构造各所述终端标识对应的第一特征向量，所述第一特征向量包括用户标识数量因素、所述地址距离的平均值因素及登录成功率因素；将所述第一特征向量输入监督分类模型，确定所述终端标识是否为恶意标识，所述监督分类模型为对训练样本进行训练得到的分类模型，所述训练样本包括第二特征向量，所述第二特征向量与所述第一特征向量的数据结构相同。2.根据权利要求1所述的方法，其特征在于，所述监督分类模型的构建过程，包括：获取所述训练样本；将所述训练样本输入至监督分类算法进行训练得到所述监督分类模型。3.根据权利要求2所述的方法，其特征在于，所述将所述训练样本输入至监督分类算法进行训练得到所述监督分类模型的步骤，包括：将所述训练样本输入至多层神经网络进行训练，得到所述监督分类模型。4.根据权利要求3所述的方法，其特征在于，所述将所述训练样本输入至多层神经网络进行训练，得到所述监督分类模型的步骤，包括：将所述训练样本输入至所述多层神经网络进行训练，使得所述多层神经网络的损失函数最小；将所述损失函数最小时所述多层神经网络对应的权值矩阵及偏置向量，作为所述监督分类模型的权值矩阵及偏置向量。5.根据权利要求1所述的方法，其特征在于，所述对所述原始数据进行重构得到重构数据的步骤，包括：确定各所述用户标识对应的用户地址；根据所述用户地址及所述登录地址确定地址距离。6.根据权利要求5所述的方法，其特征在于，所述终端标识包括网络协议地址；所述根据所述原始数据及所述重构数据构造各终端标识对应的第一特征向量的步骤，包括：获取所述网络协议地址；查询在预设时间段内所述网络协议地址所对应的各所述用户标识及所述登录结果，并根据各所述用户标识及所述登录结果，统计在所述预设时间段内所述网络协议地址对应的登录成功率及用户标识数量；根据各所述地址距离的平均值、所述登录成功率及所述用户标识数量确定所述第一特征向量。7.根据权利要求6所述的方法，其特征在于，所述第一特征向量还包括登录次数因素或/和登录成功次数因素；所述根据所述原始数据及所述重构数据构造各所述终端标识对应的第一特征向量的步骤，还包括：根据所述登录结果，统计在预设时间段内所述网络协议地址对应的登录次数或/和登录成功次数；所述根据各所述地址距离的平均值、所述登录成功率及所述用户标识数量确定所述第一特征向量的步骤，包括：根据各所述地址距离的平均值、所述登录成功率、所述用户标识数量以及所述登录次数或/和登录成功次数确定所述第一特征向量。8.根据权利要求1至7任意一项所述的方法，其特征在于，所述将所述第一特征向量输入所述监督分类模型，确定所述终端标识是否为恶意标识的步骤之后，还包括：确定所述终端标识为所述恶意标识时，将在所述恶意标识对应的终端上登录的用户标识判定为被盗用户标识；或/及，确定所述终端标识为所述恶意标识时，禁止所...

【专利技术属性】
技术研发人员：申瑞珉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人