数据分析方法、装置、服务器及可读存储介质制造方法及图纸

技术编号:22185968 阅读:14 留言:0更新日期:2019-09-25 03:35
本说明书实施例提供了一种数据分析方法,通过在预置的数据分析工具集中,匹配出与模型算法对应的数据分析工具,由数据分析工具实现对特征工程的自动化过程,无需手动或人工对数据进行处理和分析,提高了数据分析的效率。

Data analysis methods, devices, servers and readable storage media

【技术实现步骤摘要】
数据分析方法、装置、服务器及可读存储介质
本说明书实施例涉及数据处理
,尤其涉及一种数据分析方法、装置、服务器及可读存储介质。
技术介绍
数据分析,是指对已有的原始数据在数据的结构和规律等方面进行探索的过程。随着机器学习的发展,在建立模型前对海量的原始数据进行有效的数据分析,从而为建立模型提供数据及特征选择的依据,是十分有必要的。
技术实现思路
本说明书实施例提供及一种数据分析方法、装置、服务器及可读存储介质。第一方面,本说明书实施例提供一种数据分析方法,包括:得到初始数据;针对建立数据模型所采用的算法类型,从预置的数据分析工具集中匹配出与所述算法类型对应的数据分析工具,利用所述数据分析工具对所述初始数据进行特征工程,确定出符合目标特性的目标数据;输出所述目标数据,作为数据模型的依据。第二方面,本说明书实施例提供一种数据分析装置,包括:初始数据获取单元,用于得到初始数据;数据分析单元,用于针对建立数据模型所采用的算法类型,从预置的数据分析工具集中匹配出与所述算法类型对应的数据分析工具,利用所述数据分析工具对所述初始数据进行特征工程,确定出符合目标特性的目标数据;输出单元,用于输出所述目标数据,作为数据模型的依据。第三方面,本说明书实施例提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行上述任一项所述方法的步骤。第四方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。本说明书实施例有益效果如下:可见,本说明书实施例中,通过在预置的数据分析工具集中,匹配出与模型算法对应的数据分析工具,由数据分析工具实现对特征工程的自动化过程,无需手动或人工对数据进行处理和分析,提高了数据分析的效率。附图说明图1为本说明书实施例提供的数据分析方法应用场景示意图;图2为本说明书实施例第一方面提供的数据分析方法流程图;图3为本说明书实施例第一方面提供的数据分析方法实例流程图;图4为本说明书实施例第二方面提供的数据分析装置结构示意图;图5为本说明书实施例第三方面提供的服务器结构示意图。具体实施方式为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。请参见图1,为本说明书实施例探索性数据分析方法应用场景示意图。图1场景中,示出了云端10、数据分析系统20和业务方30。其中,云端10向数据分析系统20提供海量的原始数据,例如各种业务场景下的网络交易数据等;数据分析系统20对海量原始数据进行清洗等初步处理后实现数据分析过程,并将数据分析的数据分析结果提供给业务方30参考;业务方30是业务需求方(例如网站,可以理解为用户),业务方30根据数据分析结果进行后续的数据处理,例如完成数据建模以及模型优化等过程。需要说明的是,上述数据分析系统20和业务方30是从实现功能角度进行区分的,实际中,数据分析系统20和业务方30的功能可在同一个物理设备(例如同一台服务器)上实现,或者在业务方30上集成数据分析系统20的功能,本说明书实施例对此不做限定。本说明书实施例中,在数据分析系统上实现自动化的数据分析过程,通过预先设置数据分析工具集,数据分析工具集中包括符合各种业务需求的数据分析工具,通过调用满足业务需求对应的数据分析工具,实现对数据的分析,从而避免用户去逐个/批查看数据进行分析,借助预置的数据分析工具,可实现数据分析的自动化。第一方面,本说明书实施例提供一种数据分析方法,该方法用于对海量原始数据进行处理和分析,分析结果作为建立数据模型的依据。请参考图2,该数据分析方法包括步骤S201-S203。S201:得到初始数据。如前所述,数据分析系统可从云端得到海量的原始数据(或者从多个客户终端得到),这些原始数据往往为“脏数据”,是未经过处理的数据。在真实数据中,包含了大量的缺失值,也可能包含大量的噪音,还可能因为人工录入错误导致有异常点存在,对挖据出有效信息造成了一定的困扰,所以可通过数据清洗的方法,尽量提高数据的质量。数据清洗可包括缺失值处理、异常值处理、去重处理、噪音数据处理等方面。在对原始数据进行数据清洗处理之后,可得到用于进行数据分析的初始数据。S202:针对建立数据模型所采用的算法类型,从预置的数据分析工具集中匹配出与算法类型对应的数据分析工具,利用数据分析工具对初始数据进行特征工程,确定出符合目标特性的目标数据。机器学习来源于人工智能领域,传统的算法包括决策树、聚类、贝叶斯分类、支持向量机、最大期望算法等。深度学习是利用深度神经网络来解决特征表达的一种学习过程。可以理解,深度学习是一种特殊的机器学习。本说明书实施例中,在进行数据分析之前,可判断建模采用的算法是深度学习算法还是非深度学习(其余机器学习算法)。对于深度学习,其针对的数据往往是图像数据或视频数据,因此,需要选取适应的数据分析工具,例如,基于局部保真模块实现的数据分析工具;对于非深度学习,其针对的数据类型或格式可能多种,例如可能是连续数据或者离散数据,可能是正态分布的数据、时间序列的数据等,因此,在选择数据分析工具时,可结合数据的类型或格式,确定出相适应的数据分析工具。在选取出与算法类型相适应的数据分析工具之后,即可利用数据分析工具内置的模块(局部保真模块或目标扰动模块)或函数(编程语言封装体)自动进行特征工程的过程。特征工程,是将原始数据转化为特征的过程,这些特征可以更好地向预测模型描述潜在问题,从而提高模型对未见数据的准确性。在下文中,将对数据分析工具内置的模块或函数进行特征工程的过程进行描述。S203:输出目标数据,作为数据模型的依据。在对初始数据利用数据分析工具进行特征工程之后,即可确定出符合某一个特性的数据集合,即该目标数据的特征表现出符合某一特性,该数据集合内的数据可称为目标数据。将目标数据输出给业务方,业务方可参考该目标数据本身以及数据的特征进行建模。请参见图3,为本说明书实施例第一方面提供的数据分析方法实例流程图。相比于图2的方法,该实例中详细描述了数据分析工具内置模块或函数的原理及过程,另外,描述了通过模型反馈信息,对数据分析工具进行性能优化的过程。图3提供的数据分析方法包括步骤S301-S306。S301:得到初始数据。S302:判断模型的算法类型是深度学习还是非深度学习,从而选择算法类型对应的数据分析工具进行特征工程,具体的,如果是深度学习,执行S303,如果是非深度学习,执行S304。本说明书实施例的数据分析工具,可依据EDA原理进行,其中通过内置了模块或函数的数据分析工具,实现自动化的数据分析过程,并且可以以可视化的形式提供出分析结果。EDA(探索性数据分析,ExploratoryDataAnalysis)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特征工程可以理解是对数据集进行特性归类的过程,即找到这些数据的共用特征,从而可通过这些特本文档来自技高网...

【技术保护点】
1.一种数据分析方法,包括:得到初始数据;针对建立数据模型所采用的算法类型,从预置的数据分析工具集中匹配出与所述算法类型对应的数据分析工具,利用所述数据分析工具对所述初始数据进行特征工程,确定出符合目标特性的目标数据;输出所述目标数据,作为数据模型的依据。

【技术特征摘要】
1.一种数据分析方法,包括:得到初始数据;针对建立数据模型所采用的算法类型,从预置的数据分析工具集中匹配出与所述算法类型对应的数据分析工具,利用所述数据分析工具对所述初始数据进行特征工程,确定出符合目标特性的目标数据;输出所述目标数据,作为数据模型的依据。2.根据权利要求1所述的方法,还包括:接收数据模型性能反馈信息,其中,所述数据模型是依据所述目标数据作为样本数据建立的;根据所述反馈信息,修正所述数据分析工具。3.根据权利要求2所述的方法,还包括:将所述反馈信息记录在反馈数据库中;所述根据所述反馈信息,修正所述数据分析工具,包括:查询所述反馈数据库,调取出针对所述数据分析工具的所有反馈信息;根据所述所有反馈信息,评估所述特定数据分析工具的特征工程可信度;根据所述特征工程可信度,调整所述数据分析工具的指标参数。4.根据权利要求1所述的方法,所述针对建立数据模型所采用的算法类型,从预置的数据分析工具集中匹配出与所述算法类型对应的数据分析工具,包括:判断建立数据模型所采用的算法类型是深度学习算法还是非深度学习算法:对于深度学习算法,采用预先设定有局部保真模块的数据分析工具;对于非深度学习算法,采用预先设定有编程语言封装体或目标扰动模块的数据分析工具。5.根据权利要求4所述的方法,对于深度学习算法,所述利用所述数据分析工具对所述初始数据进行特征工程,包括:利用所述数据分析工具中的局部保真模块,确定所述初始数据的至少一个维度的特征以及各个维度特征的特征值;对各维度特征以特征值进行维度累积,确定满足特征值阈值的目标数据;以可视化的HTML格式展示界面的形式显示所述目标数据。6.根据权利要求5所述的方法,所述利用所述数据分析工具中的局部保真模块,确定所述初始数据的至少一个维度的特征以及各个维度特征的特征值,包括:针对数据模型的所有特征,掩盖掉部分特征,保留局部特征;分析局部特征对标签的相关性,根据相关性高低确定特征值的高低。7.根据权利要求4所述的方法,对于非深度学习算法,所述利用所述数据分析工具对所述初始数据进行特征工程,包括:利用所述数据分析工具中的编程语言封装体或目标扰动模块,确定所述初始数据的至少一个维度的特征以及各个维度特征的特征值;对各维度特征以特征值进行维度累积,确定满足特征值阈值的目标数据;以可视化的图形或表格形式显示所述目标数据。8.根据权利要求7所述的方法,利用所述数据分析工具中的编程语言封装体,确定所述初始数据的至少一个维度的特征以及各个维度特征的特征值,包括:向用户提供具有封装了特定编程语言的编程语言封装体的点选系统,接收用户针对数据特征选择的点选操作,或者向用户提供编程语言封装体的程序编写界面,接收用户针对数据特征的编程代码;根据所述点选操作或编程代码,确定所述初始数据的至少一个维度的特征,并通过各维度特征与标签的相关性,确定出各维度特征的特征值。9.根据权利要求7所述的方法,利用所述数据分析工具中的目标扰动模块,确定所述初始数据的至少一个维度的特征以及各个维度特征的特征值,包括:确定所有标签及标签值,并统计满足至少一个标签的各个维度的特征以及特征值;去掉一部分标签或者将一部分标签值进行降低,从而进行目标扰动;统计目标扰动后各维度特征的特征值的变化,保留特征值变化量超过特征值变化阈值的特征及其特征值。10.根据权利要求1所述的方法,在匹配数据分析工具的过程中,还包括:确定所述初始数据的数据类型或格式;在选择数据分析工具时,结合所述初始数据的数据类型或格式,确定出相适应的数据分析工具。11.一种数据分析装置,包括:初始数据获取单元,用于得到初始数据;数据分析单元,用于针对建立数据模...

【专利技术属性】
技术研发人员:袁锦程王维强许辽萨赵闻飙席云鲍晟霖易灿
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1