【技术实现步骤摘要】
用户数据清洗方法、装置、智能设备和存储介质
[0001]本专利技术涉及数据处理
,具体而言,涉及一种用户数据清洗方法
、
装置
、
智能设备和存储介质
。
技术介绍
[0002]在当前数字化时代,云计算技术得到广泛应用,越来越多的企业和个人将数据存储在云平台上
。
这些数据包含了大量有价值的信息,可用于用户画像分析
、
市场趋势研究
、
个性化推荐等领域,因此对云平台的用户数据进行提取和清洗变得至关重要
。
[0003]目前通常采用爬虫访问的方式来对云平台管理的用户数据进行提取
。
但是这种方式只能通过模拟请求去爬取云平台的用户数据,爬取的速度慢
、
效率低,并且只能爬取前端所存在的数据,也不能在数据挖掘的过程中进行数据清洗
。
技术实现思路
[0004]有鉴于此,本专利技术的目的在于提供一种用户数据清洗方法
、
装置
、
智能设备和存储介质
。
[0005]为了实现上述目的,本专利技术采用的技术方案如下:
[0006]第一方面,本专利技术提供一种用户数据清洗方法,应用于智能设备,所述智能设备与云平台通信连接,所述云平台的数据库中存储有用户数据,所述用户数据清洗方法包括:
[0007]通过加密访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据;
[0008] ...
【技术保护点】
【技术特征摘要】
1.
一种用户数据清洗方法,其特征在于,应用于智能设备,所述智能设备与云平台通信连接,所述云平台的数据库中存储有用户数据,所述用户数据清洗方法包括:通过加密访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据;对所述原始用户数据进行提取获得待清洗用户数据并存储到中间数据库;利用预训练的机器学习模型对所述中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据;将所述干净用户数据进行存储,以便基于所述干净用户数据进行数据分析
。2.
根据权利要求1所述的用户数据清洗方法,其特征在于,所述通过加密访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据的步骤,包括:向所述云平台发送携带有私用密钥的数据库访问请求,以使所述云平台将所述数据库访问请求中的私用密钥与自身的公用密钥进行匹配,并在匹配成功的情况下向所述智能设备发放数据库访问权限;基于所述数据库访问权限访问所述云平台的数据库,并获取所述云平台的数据库中的用户数据得到原始用户数据
。3.
根据权利要求1所述的用户数据清洗方法,其特征在于,所述原始用户数据包括多个用户的业务数据,所述业务数据包括多个业务字段对应的字段值;所述对所述原始用户数据进行提取获得待清洗用户数据并存储到中间数据库的步骤,包括:对于每个业务数据,从所述业务数据中提取预设的多个目标业务字段对应的字段值获得第一业务数据,得到每个第一业务数据;对每个第一业务数据的数据类型进行调整,获得与所述中间数据库的数据格式匹配的每个中间业务数据得到所述待清洗用户数据,并将所述待清洗用户数据存储到所述中间数据库
。4.
根据权利要求1所述的用户数据清洗方法,其特征在于,所述待清洗用户数据包括多个中间业务数据;所述机器学习模型包括词嵌入层
、
卷积层
、
池化层和全连接层,所述卷积层包括多个不同大小的卷积核;所述利用预训练的机器学习模型对所述中间数据库中的待清洗用户数据进行识别和清洗获得干净用户数据的步骤,包括:将任意一个中间业务数据作为待处理业务数据;利用所述词嵌入层对所述待处理业务数据进行编码获得初始向量;利用所述卷积层中的每个卷积核对所述初始向量进行卷积操作,获得每个所述卷积核对应的特征向量;利用所述池化层对每个特征向量进行池化操作,并将池化后的特征向量进行拼接获得关键特征向量;利用所述全连接层对所述关键特征向量进行识别,获得所述待处理业务数据的类别;遍历每个中间业务数据,得到每个中间业务数据的类别,所述类别为...
【专利技术属性】
技术研发人员:肖宇轩,
申请(专利权)人:北京知道创宇信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。