数据处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:20843926 阅读:51 留言:0更新日期:2019-04-13 08:53
本公开实施例提供数据处理方法、装置、设备及计算机可读存储介质。数据处理方法包括:根据待处理数据的数据属性对所述待处理数据进行预处理以获得多个特征;将所述特征输入预设模型以生成树,其中,所述树上的节点为所述特征;根据所述树中的节点所形成的至少一个节点集群,分析所述至少一个节点集群所代表的特征集群的特征集群特性,其中,所述特征集群包括多个特征,可以自动对数据的特征进行集群处理,进而对特征集群特性进行分析,使用户可以以较低的成本更好地理解数据,理解数据特征集群的意义。根据本公开实施例的方案对于数据驱动下的实际应用非常有意义,也帮助数据模型有更鲁棒的产出及更优化的策略。

【技术实现步骤摘要】
数据处理方法、装置、设备及计算机可读存储介质
本公开实施例涉及计算机领域,尤其涉及数据处理方法、装置、设备及计算机可读存储介质。
技术介绍
当前,各种各样的互联网业务产生了大量的数据。即使对于同一业务,在不同情况下产生的数据,其特征也会体现出显著差别。就数据本身而言,解决在算法模型中的最优化节点选择,也是基础数据结构算法中很重要的部分。而在数据处理的过程中,特征工程是很重要的一个环节,如何理解选取特征的关联程度和群体性也成为了很重要的一环。基于数据驱动的数据特征分析方法也非常重要。在特征分析的驱动下,如何选取重要的特征以保障数据模型的良好运行便显得尤为重要。因此,亟需一种能够有助于对数据特征分析的数据处理方案。
技术实现思路
有鉴于此,本公开第一方面提供了一种数据处理方法,包括:根据待处理数据的数据属性对所述待处理数据进行预处理以获得多个特征;将所述特征输入预设模型以生成树,其中,所述树上的节点为所述特征;根据所述树中的节点所形成的至少一个节点集群,分析所述至少一个节点集群所代表的特征集群的特征集群特性,其中,所述特征集群包括多个特征。本公开第二方面提供了一种数据处理装置,包括:预处理模本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:根据待处理数据的数据属性对所述待处理数据进行预处理以获得多个特征;将所述特征输入预设模型以生成树,其中,所述树上的节点为所述特征;根据所述树中的节点所形成的至少一个节点集群,分析所述至少一个节点集群所代表的特征集群的特征集群特性,其中,所述特征集群包括多个特征。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:根据待处理数据的数据属性对所述待处理数据进行预处理以获得多个特征;将所述特征输入预设模型以生成树,其中,所述树上的节点为所述特征;根据所述树中的节点所形成的至少一个节点集群,分析所述至少一个节点集群所代表的特征集群的特征集群特性,其中,所述特征集群包括多个特征。2.根据权利要求1所述的方法,其特征在于,所述预设模型为基于树形数据结构的最近邻算法模型。3.根据权利要求2所述的方法,其特征在于,所述树形结构为覆盖树数据结构和K维数据结构之一。4.根据权利要求3所述的方法,其特征在于,所述根据所述树中的节点所形成的至少一个节点集群,分析所述至少一个节点集群所代表的特征集群的特征集群特性,其中,所述特征集群包括多个特征,包括:当所述树形结构为覆盖树数据结构时,对所述覆盖树的树冠层的节点进行聚类,获得至少一个聚类的节点集群,其中,所述覆盖树中每层节点是该层节点的上层父亲节点的子集,所述覆盖树的根节点为最上层节点;根据所述至少一个聚类的节点集群,分析所述至少一个节点集群所代表的特征集群的特征集群特性。5.根据权利要求3所述的方法,其特征在于,所述覆盖树具有多个层,各层的编号沿着从根节点到树冠节点的方向递减,位于第i-1层的节点与其上第i层父亲节点之间的距离不超过β^i,并且任何2个位于第i层的不同节点之间的距离大于β^i,其中,β为距离度量基数,并且β>1,i>1。6.根据权利要求5所述的方法,其特征在于,所述节点之间的距离的度量形式为欧氏距离度量或相似性度量。7.一种数据处理装置,其特征在于,包括:预处理模块,被配置为根据待处理数据的数据属性对所述待处理数据进行预处理以获得多个特征;树生成模块,被配置为将...

【专利技术属性】
技术研发人员:翟毅腾
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1