数据处理方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:33352442 阅读:22 留言:0更新日期:2022-05-08 10:01
本公开提供了一种数据处理方法、装置、电子设备以及存储介质,本公开涉及计算机技术领域,尤其涉及人工智能、数据挖掘及机器学习领域。实现方案为:获取用于建模的样本数据集;将第一数量的特征维度划分为多个类别;分别从多个类别的每个类别中选择多个特征维度,以获取第二数量的特征维度;以及对样本数据集的每个样本数据进行降维处理,包括:删除第二数量的特征维度之外的特征维度;以及对于第二数量的特征维度中的特征值为正值的每一个特征维度,使用与该特征维度相对应的语义向量替换该特征维度的特征值。征维度的特征值。征维度的特征值。

【技术实现步骤摘要】
数据处理方法、装置、电子设备以及存储介质


[0001]本公开涉及计算机
,尤其涉及人工智能、数据挖掘及机器学习领域,具体涉及一种数据处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能,主要分为有监督学习、无监督学习及强化学习等。其中,在进行有监督学习时,存在一些基于结构化高维稀疏的样本数据集进行建模的场景。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]本公开提供了一种数据处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的一方面,提供了一种数据处理方法,包括:获取用于建模的样本数据集,其中,样本数据集中的每一个样本数据是高本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:获取用于建模的样本数据集,其中,所述样本数据集中的每一个样本数据是高维稀疏数据并且包括第一数量的特征维度;将所述第一数量的特征维度划分为多个类别;分别从所述多个类别的每个类别中选择多个特征维度,以获取第二数量的特征维度;以及对所述样本数据集的每个样本数据进行降维处理,所述降维处理包括:删除所述第二数量的特征维度之外的特征维度;以及对于所述第二数量的特征维度中的特征值为正值的每一个特征维度,使用与该特征维度相对应的语义向量替换该特征维度的特征值。2.如权利要求1所述的方法,其中,所述获取第二数量的特征维度包括:对于所述多个类别的每个类别,将该类别所包括的全部特征维度划分为多个子类;以及分别从所述多个子类的每个子类中选择多个特征维度,用于构成所述第二数量的特征维度。3.如权利要求2所述的方法,其中,所述分别从所述多个子类的每个子类中选择多个特征维度,包括:确定该子类所包括的各特征维度在所述样本数据集中的特征覆盖率;以及从该子类中选择特征覆盖率最高的第三数量的特征维度,作为从该子类中选择多个特征维度。4.如权利要求1至3中任一项所述的方法,还包括:对所述第二数量的特征维度按照类别进行排序。5.如权利要求1至4中任一项所述的方法,其中,所述第二数量与所述第一数量的比值不超过0.1%。6.一种模型训练方法,包括:获取样本数据集,其中,所述样本数据集中的每个样本数据基于如权利要求1至5中任一项所述的方法获得并且包括相应的样本标签;初始化所述模型的多个参数,以及对于每个样本数据,执行下述操作:将所述样本数据输入所述模型,以获取模型计算结果;以及基于所述模型计算结果和该样本数据相应的样本标签,调整所述模型的多个参数。7.一种数据处理装置,包括:第一获取单元,被配置为获取用于建模的样本数据集,其中,所述样本数据集中的每一个样本数据是高维稀疏数据并且包括第一数量的特征维度;划分单元,被配置为将所述第一数量的特征维度划分为多个类别;第二获取单元,被配置为分别从所述多个类别的每个类别中选择多个特征维度,以获取第二数量的特征维度;以及降维处理单元,被配置为对所述样本数据集的每个样本数据进行降维处理,所述降维处理单元包括:
删除子单元,被配置为删除所述第二数量的特征维度之外的特征...

【专利技术属性】
技术研发人员:许韩晨玺严巍杨德将岳洪达许海洋
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1