用户数据清洗方法技术

技术编号:39835719 阅读:5 留言:0更新日期:2023-12-29 16:19
本发明专利技术涉及数据处理技术领域,提供涉及一种用户数据清洗方法

【技术实现步骤摘要】
用户数据清洗方法、装置、智能设备和存储介质


[0001]本专利技术涉及数据处理
,具体而言,涉及一种用户数据清洗方法

装置

智能设备和存储介质


技术介绍

[0002]在当前数字化时代,云计算技术得到广泛应用,越来越多的企业和个人将数据存储在云平台上

这些数据包含了大量有价值的信息,可用于用户画像分析

市场趋势研究

个性化推荐等领域,因此对云平台的用户数据进行提取和清洗变得至关重要

[0003]目前通常采用爬虫访问的方式来对云平台管理的用户数据进行提取

但是这种方式只能通过模拟请求去爬取云平台的用户数据,爬取的速度慢

效率低,并且只能爬取前端所存在的数据,也不能在数据挖掘的过程中进行数据清洗


技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种用户数据清洗方法

装置

智能设备和存储介质

[0005]为了实现上述目的,本专利技术采用的技术方案如下:
[0006]第一方面,本专利技术提供一种用户数据清洗方法,应用于智能设备,所述智能设备与云平台通信连接,所述云平台的数据库中存储有用户数据,所述用户数据清洗方法包括:
[0007]通过加密访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据;
[0008]对所述原始用户数据进行提取获得待清洗用户数据并存储到中间数据库;
[0009]利用预训练的机器学习模型对所述中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据;
[0010]将所述干净用户数据进行存储,以便基于所述干净用户数据进行数据分析

[0011]在可选的实施方式中,所述通过加密访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据的步骤,包括:
[0012]向所述云平台发送携带有私用密钥的数据库访问请求,以使所述云平台将所述数据库访问请求中的私用密钥与自身的公用密钥进行匹配,并在匹配成功的情况下向所述智能设备发放数据库访问权限;
[0013]基于所述数据库访问权限访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据

[0014]在可选的实施方式中,所述原始用户数据包括多个用户的业务数据,所述业务数据包括多个业务字段对应的字段值;
[0015]所述对所述原始用户数据进行提取获得待清洗用户数据并存储到中间数据库的步骤,包括:
[0016]对于每个业务数据,从所述业务数据中提取预设的多个目标业务字段对应的字段
值获得第一业务数据,得到每个第一业务数据;
[0017]对每个第一业务数据的数据类型进行调整,获得与所述中间数据库的数据格式匹配的每个中间业务数据得到所述待清洗用户数据,并将所述待清洗用户数据存储到所述中间数据库

[0018]在可选的实施方式中,所述待清洗用户数据包括多个中间业务数据;所述机器学习模型包括词嵌入层

卷积层

池化层和全连接层,所述卷积层包括多个不同大小的卷积核;
[0019]所述利用预训练的机器学习模型对所述中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据的步骤,包括:
[0020]将任意一个中间业务数据作为待处理业务数据;
[0021]利用所述词嵌入层对所述待处理业务数据进行编码获得初始向量;
[0022]利用所述卷积层中的每个卷积核对所述初始向量进行卷积操作,获得每个所述卷积核对应的特征向量;
[0023]利用所述池化层对每个特征向量进行池化操作,并将池化后的特征向量进行拼接获得关键特征向量;
[0024]利用所述全连接层对所述关键特征向量进行识别,获得所述待处理业务数据的类别;
[0025]遍历每个中间业务数据,得到每个中间业务数据的类别,所述类别为无效或者有效;
[0026]从所述待清洗用户数据中选取所述类别为有效的每个中间业务数据,获得每个有效业务数据得到所述干净用户数据

[0027]在可选的实施方式中,所述智能设备还与服务器通信连接,所述干净用户数据包括多个有效业务数据;
[0028]所述将所述干净用户数据进行存储,以便基于所述干净用户数据进行数据分析的步骤,包括:
[0029]对每个有效业务数据的数据类型进行调整,获得与所述服务器的数据库的数据格式匹配的每个第二业务数据得到目标用户数据;
[0030]通过加密传输协议将所述目标用户数据发送给所述服务器,以使所述服务器将所述目标用户数据存储到自身的数据库并进行数据分析

[0031]在可选的实施方式中,所述机器学习模型是按照以下方式得到的:
[0032]获取多个业务数据样本,所述业务数据包含多个目标业务字段对应的字段值样本;
[0033]利用基础机器学习模型对每个业务数据样本进行识别,获得每个业务数据样本的类别;
[0034]基于每个业务数据样本的类别对所述基础机器学习模型进行训练,获得所述机器学习模型

[0035]第二方面,本专利技术提供一种用户数据清洗装置,应用于智能设备,所述智能设备与云平台通信连接,所述云平台的数据库中存储有用户数据,所述用户数据清洗装置,包括:
[0036]获取模块,用于通过加密访问所述云平台的数据库,并获取所述云平台的数据库
中的用户数据得到原始用户数据;
[0037]清洗模块,用于对所述原始用户数据进行提取获得待清洗用户数据并存储到中间数据库;
[0038]利用预训练的机器学习模型对所述中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据;
[0039]存储模块,用于将所述干净用户数据进行存储,以便基于所述干净用户数据进行数据分析

[0040]在可选的实施方式中,所述获取模块还用于:
[0041]向所述云平台发送携带有私用密钥的数据库访问请求,以使所述云平台将所述数据库访问请求中的私用密钥与自身的公用密钥进行匹配,并在匹配成功的情况下向所述智能设备发放数据库访问权限;
[0042]基于所述数据库访问权限访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据

[0043]第三方面,本专利技术提供一种智能设备,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现前述实施方式中任一项所述的用户数据清洗方法

[0044]第四方面,本专利技术提供一种存储介质,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现前述实施方式中任一项所述的用户数据清洗方法

[0045]本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种用户数据清洗方法,其特征在于,应用于智能设备,所述智能设备与云平台通信连接,所述云平台的数据库中存储有用户数据,所述用户数据清洗方法包括:通过加密访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据;对所述原始用户数据进行提取获得待清洗用户数据并存储到中间数据库;利用预训练的机器学习模型对所述中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据;将所述干净用户数据进行存储,以便基于所述干净用户数据进行数据分析
。2.
根据权利要求1所述的用户数据清洗方法,其特征在于,所述通过加密访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据的步骤,包括:向所述云平台发送携带有私用密钥的数据库访问请求,以使所述云平台将所述数据库访问请求中的私用密钥与自身的公用密钥进行匹配,并在匹配成功的情况下向所述智能设备发放数据库访问权限;基于所述数据库访问权限访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据
。3.
根据权利要求1所述的用户数据清洗方法,其特征在于,所述原始用户数据包括多个用户的业务数据,所述业务数据包括多个业务字段对应的字段值;所述对所述原始用户数据进行提取获得待清洗用户数据并存储到中间数据库的步骤,包括:对于每个业务数据,从所述业务数据中提取预设的多个目标业务字段对应的字段值获得第一业务数据,得到每个第一业务数据;对每个第一业务数据的数据类型进行调整,获得与所述中间数据库的数据格式匹配的每个中间业务数据得到所述待清洗用户数据,并将所述待清洗用户数据存储到所述中间数据库
。4.
根据权利要求1所述的用户数据清洗方法,其特征在于,所述待清洗用户数据包括多个中间业务数据;所述机器学习模型包括词嵌入层

卷积层

池化层和全连接层,所述卷积层包括多个不同大小的卷积核;所述利用预训练的机器学习模型对所述中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据的步骤,包括:将任意一个中间业务数据作为待处理业务数据;利用所述词嵌入层对所述待处理业务数据进行编码获得初始向量;利用所述卷积层中的每个卷积核对所述初始向量进行卷积操作,获得每个所述卷积核对应的特征向量;利用所述池化层对每个特征向量进行池化操作,并将池化后的特征向量进行拼接获得关键特征向量;利用所述全连接层对所述关键特征向量进行识别,获得所述待处理业务数据的类别;遍历每个中间业务数据,得到每个中间业务数据的类别,所述类别为...

【专利技术属性】
技术研发人员:肖宇轩
申请(专利权)人:北京知道创宇信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1