【技术实现步骤摘要】
数据分析方法、装置、服务器及可读存储介质
本说明书实施例涉及数据处理
,尤其涉及一种数据分析方法、装置、服务器及可读存储介质。
技术介绍
数据分析,是指对已有的原始数据在数据的结构和规律等方面进行探索的过程。随着机器学习的发展,在建立模型前对海量的原始数据进行有效的数据分析,从而为建立模型提供数据及特征选择的依据,是十分有必要的。
技术实现思路
本说明书实施例提供及一种数据分析方法、装置、服务器及可读存储介质。第一方面,本说明书实施例提供一种数据分析方法,包括:得到初始数据;针对建立数据模型所采用的算法类型,从预置的数据分析工具集中匹配出与所述算法类型对应的数据分析工具,利用所述数据分析工具对所述初始数据进行特征工程,确定出符合目标特性的目标数据;输出所述目标数据,作为数据模型的依据。第二方面,本说明书实施例提供一种数据分析装置,包括:初始数据获取单元,用于得到初始数据;数据分析单元,用于针对建立数据模型所采用的算法类型,从预置的数据分析工具集中匹配出与所述算法类型对应的数据分析工具,利用所述数据分析工具对所述初始数据进行特征工程,确定出符合目标特性的目标数据;输出单元,用于输出所述目标数据,作为数据模型的依据。第三方面,本说明书实施例提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行上述任一项所述方法的步骤。第四方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。本说明书实施例有益效果如下:可见,本说明书实施例中,通过在预置的数据分析工具集 ...
【技术保护点】
1.一种数据分析方法,包括:得到初始数据;针对建立数据模型所采用的算法类型,从预置的数据分析工具集中匹配出与所述算法类型对应的数据分析工具,利用所述数据分析工具对所述初始数据进行特征工程,确定出符合目标特性的目标数据;输出所述目标数据,作为数据模型的依据。
【技术特征摘要】
1.一种数据分析方法,包括:得到初始数据;针对建立数据模型所采用的算法类型,从预置的数据分析工具集中匹配出与所述算法类型对应的数据分析工具,利用所述数据分析工具对所述初始数据进行特征工程,确定出符合目标特性的目标数据;输出所述目标数据,作为数据模型的依据。2.根据权利要求1所述的方法,还包括:接收数据模型性能反馈信息,其中,所述数据模型是依据所述目标数据作为样本数据建立的;根据所述反馈信息,修正所述数据分析工具。3.根据权利要求2所述的方法,还包括:将所述反馈信息记录在反馈数据库中;所述根据所述反馈信息,修正所述数据分析工具,包括:查询所述反馈数据库,调取出针对所述数据分析工具的所有反馈信息;根据所述所有反馈信息,评估所述特定数据分析工具的特征工程可信度;根据所述特征工程可信度,调整所述数据分析工具的指标参数。4.根据权利要求1所述的方法,所述针对建立数据模型所采用的算法类型,从预置的数据分析工具集中匹配出与所述算法类型对应的数据分析工具,包括:判断建立数据模型所采用的算法类型是深度学习算法还是非深度学习算法:对于深度学习算法,采用预先设定有局部保真模块的数据分析工具;对于非深度学习算法,采用预先设定有编程语言封装体或目标扰动模块的数据分析工具。5.根据权利要求4所述的方法,对于深度学习算法,所述利用所述数据分析工具对所述初始数据进行特征工程,包括:利用所述数据分析工具中的局部保真模块,确定所述初始数据的至少一个维度的特征以及各个维度特征的特征值;对各维度特征以特征值进行维度累积,确定满足特征值阈值的目标数据;以可视化的HTML格式展示界面的形式显示所述目标数据。6.根据权利要求5所述的方法,所述利用所述数据分析工具中的局部保真模块,确定所述初始数据的至少一个维度的特征以及各个维度特征的特征值,包括:针对数据模型的所有特征,掩盖掉部分特征,保留局部特征;分析局部特征对标签的相关性,根据相关性高低确定特征值的高低。7.根据权利要求4所述的方法,对于非深度学习算法,所述利用所述数据分析工具对所述初始数据进行特征工程,包括:利用所述数据分析工具中的编程语言封装体或目标扰动模块,确定所述初始数据的至少一个维度的特征以及各个维度特征的特征值;对各维度特征以特征值进行维度累积,确定满足特征值阈值的目标数据;以可视化的图形或表格形式显示所述目标数据。8.根据权利要求7所述的方法,利用所述数据分析工具中的编程语言封装体,确定所述初始数据的至少一个维度的特征以及各个维度特征的特征值,包括:向用户提供具有封装了特定编程语言的编程语言封装体的点选系统,接收用户针对数据特征选择的点选操作,或者向用户提供编程语言封装体的程序编写界面,接收用户针对数据特征的编程代码;根据所述点选操作或编程代码,确定所述初始数据的至少一个维度的特征,并通过各维度特征与标签的相关性,确定出各维度特征的特征值。9.根据权利要求7所述的方法,利用所述数据分析工具中的目标扰动模块,确定所述初始数据的至少一个维度的特征以及各个维度特征的特征值,包括:确定所有标签及标签值,并统计满足至少一个标签的各个维度的特征以及特征值;去掉一部分标签或者将一部分标签值进行降低,从而进行目标扰动;统计目标扰动后各维度特征的特征值的变化,保留特征值变化量超过特征值变化阈值的特征及其特征值。10.根据权利要求1所述的方法,在匹配数据分析工具的过程中,还包括:确定所述初始数据的数据类型或格式;在选择数据分析工具时,结合所述初始数据的数据类型或格式,确定出相适应的数据分析工具。11.一种数据分析装置,包括:初始数据获取单元,用于得到初始数据;数据分析单元,用于针对建立数据模...
【专利技术属性】
技术研发人员:袁锦程,王维强,许辽萨,赵闻飙,席云,鲍晟霖,易灿,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。