数据探索方法和系统技术方案

技术编号:22363714 阅读:28 留言:0更新日期:2019-10-23 04:34
本申请涉及一种数据探索方法和系统,所述方法包括:根据输入信息从指标库中选择指定的研究指标;获取数据集、研究变量,以及所述研究变量对应的研究参数;从流程库中匹配出包含有所述研究指标和所述研究参数的可用流程;根据输入指令从所述可用流程中选择探索流程,从数据集中选择探索数据集;生成所述探索流程的输出程序代码和输出程序说明;执行所述探索流程的输出程序代码,对所述探索数据集进行探索并将探索结果输出。本申请的方案只需要提交待处理的数据集,并给出探索过程的研究指标、研究参数等,就能自动输出程序代码并调用输出程序代码对数据进行探索处理;极大免去研究人员编写代码的劳动,提高数据探索的效率。

【技术实现步骤摘要】
数据探索方法和系统
本申请涉及数据处理
,具体涉及一种数据探索方法和系统。
技术介绍
随着现代科学技术的进步,信息技术的快速发展和应用,使得全行业信息化的程度全面提升,整个社会的数据正在以前所未有的速度快速增长,呈现出数量大、种类多、更新快的特点,逐渐成为各行各业的重要生产要素之一。云计算、物联网、移动终端及可穿戴设备高度发达与融合,使得这种发展趋势变得越来越快。与之对应的是,数据分析的难度和复杂度在不断增加。丰富的数据量蕴含着大量的宝贵信息,但这样的数据需要复杂的统计分析,才能从中提取到有意义的结果。它们不仅促进了统计学,尤其是多元统计分析的应用,如聚类和判别分析、主成分分析、因子分析等方法得到了广泛的应用。同时,它们也带来了机器学习、深度学习等人工智能(AI)技术的快速发展和应用,如各类深度学习网络框架:无监督预训练网络、卷积神经网络、循环神经网络、递归神经网络等。大量的多元统计方法、拥有大量参数和层的神经网络等方法的使用,使得统计方法变得越来越复杂和多样化,各类统计方法联合使用、相互比较的需求在不断增加。各类带有编程功能的相关程序,如Python、JAVA、R、Matlab、SAS、SQL、C、Perl等,逐渐成为科研与日常统计分析的工具,更精确的计算方法也得以大规模的应用。新的带有编程功能的相关程序,如面向科学计算的高性能动态语言Julia等,陆续出现。这些工具大量运用于科研和生产,让科研和生产线上的工作人员摆脱了手工计算,而且还可以快速发现过程异常,促进了科研和产品质量的提升。但是,这也导致工作人员需要花费大量的时间和精力来学习和提升,导致学习和应用成本大大的提高。
技术实现思路
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种数据探索方法和系统。根据本申请实施例的第一方面,提供一种数据探索方法,包括:根据输入信息从指标库中选择指定的研究指标;获取数据集、研究变量,以及所述研究变量对应的研究参数;从流程库中匹配出包含有所述研究指标和所述研究参数的可用流程;根据输入指令从所述可用流程中选择探索流程,从数据集中选择探索数据集;调用所述探索流程对应的程序代码,生成所述探索流程的输出程序代码和输出程序说明;执行所述探索流程的输出程序代码,对所述探索数据集进行探索并将探索结果输出。进一步地,所述生成所述探索流程的输出程序代码和输出程序说明,包括:所述探索流程对应的程序代码调用所述探索流程中的方法或图像,调用所述方法对应的程序代码、所述图像对应的程序代码,生成输出程序代码和输出程序说明。进一步地,所述方法还包括:根据输入信息从设计库中选择指定的研究设计;从包含有所述研究指标和所述研究参数的可用流程中,进一步匹配出包含有对应研究设计的可用流程。进一步地,所述方法还包括:根据输入指令从已选择的探索流程和数据集中选择一个或多个作为对比流程和对比数据集;调用所述对比流程对应的程序代码,生成所述对比流程的输出程序代码和输出程序说明;分别合并所述探索流程的输出程序代码和所述对比流程的输出程序代码、所述探索流程的输出程序说明和所述对比流程的输出程序说明,生成全部的输出程序代码和输出程序说明;执行合并后的输出程序代码,对所述数据集进行探索;将所述探索流程的探索结果与所述对比流程的探索结果进行比较并将比较结果输出。进一步地,所述将所述探索流程的探索结果与所述对比流程的探索结果进行比较并将比较结果输出,包括:获取探索流程的各个研究指标的探索结果;获取对比流程的各个研究指标的探索结果;将各个研究指标的探索流程的探索结果与对比流程的探索结果进行比较;将不同的探索结果按照不同的格式进行显示输出。进一步地,所述获取数据集、研究变量,以及所述研究变量对应的研究参数,包括:获取用户输入的数据集和研究变量;获取用户指定的研究变量所对应的变量库中的变量;获取用户指定的研究变量或用户指定的研究变量所对应的变量库中的变量所对应的参数信息;根据参数信息从参数库中确定对应的研究参数。进一步地,所述研究变量还包括:获取用户指定的研究变量所对应的变量库中的变量,使变量具有唯一的名称、实现变量快速重命名,以用于后续调用和整合多个数据集、生成输出程序代码和对比结果。根据本申请实施例的第二方面,提供一种数据探索系统,包括:数据库,用于存储预设的指标库、参数库和流程库;所述指标库存储有多种不同的研究指标;所述参数库存储有多种不同的研究参数;所述流程库存储有多种不同的研究流程,以及每一种所述研究流程所对应的程序代码;指标选择模块,用于根据输入信息从指标库中选择指定的研究指标;数据获取模块,用于获取数据集、研究变量,以及所述研究变量对应的研究参数;流程匹配模块,用于从流程库中匹配出包含有所述研究指标和所述研究参数的可用流程;流程选择模块,用于根据输入指令从所述可用流程中选择探索流程,从数据集中选择探索数据集;程序输出模块,用于调用所述探索流程对应的程序代码,生成所述探索流程的输出程序代码和输出程序说明;探索输出模块,用于执行所述探索流程的输出程序代码,对所述探索数据集进行探索并将探索结果输出。进一步地,数据库还可用于存储预设的方法库、图像库。所述方法库存储有多种不同的统计方法;所述图像库存储有多种不同的图像;所述方法库和图像库分别存储有每一种所述统计方法和图像所对应的程序代码。进一步地,所述数据库还用于存储预设的变量库,所述变量库存储有多种不同的研究变量;相应地,数据获取模块还用于:获取所述研究变量对应的变量库中的变量;所述数据库还用于存储预设的设计库,所述设计库存储有多种不同的研究设计;相应地,所述系统还包括:设计选择模块,用于根据输入信息从设计库中选择指定的研究设计;所述流程匹配模块还用于:从包含有所述研究指标和所述研究参数的可用流程中,进一步匹配出包含有对应研究设计的可用流程。进一步地,所述流程选择模块还用于:根据输入指令从已选择的探索流程和数据集中选择一个或多个作为对比流程和对比数据集;所述程序输出模块还用于:调用所述对比流程对应的程序代码,生成所述对比流程的输出程序代码和输出程序说明;分别合并所述探索流程的输出程序代码和所述对比流程的输出程序代码、所述探索流程的输出程序说明和所述对比流程的输出程序说明,生成全部的输出程序代码和输出程序说明;所述探索输出模块还用于:执行合并后的输出程序代码,对所述数据集进行探索;将所述探索流程的探索结果与所述对比流程的探索结果进行比较并将比较结果输出。根据本申请实施例的第三方面,提供一种计算设备,所述计算设备包括:处理器和存储器;所述存储器用于存储计算机程序指令;所述计算设备运行时,所述处理器执行所述存储器中的计算机程序指令,以执行如上所述的任意一种方法的操作步骤。本申请的实施例提供的技术方案可以包括以下有益效果:本申请的方案只需要提交待处理的数据集和研究变量,并给出探索过程的研究指标、研究参数等,就能自动从预先构建的流程库中匹配出所需的探索流程,并调用预先存储的程序代码对数据进行探索程序代码生成和处理;本方案能够极大免去研究人员编写代码的劳动,提高数据探索的效率;并且探索过程完全标准化、可重复,还能方便地选取多种数据集和探索方法进行组合和对比结果。应当理解的是,以上的一般描述和后文的细节描述仅本文档来自技高网
...

【技术保护点】
1.一种数据探索方法,其特征在于,包括:根据输入信息从指标库中选择指定的研究指标;获取数据集、研究变量,以及所述研究变量对应的研究参数;从流程库中匹配出包含有所述研究指标和所述研究参数的可用流程;根据输入指令从所述可用流程中选择探索流程,从数据集中选择探索数据集;调用所述探索流程对应的程序代码,生成所述探索流程的输出程序代码和输出程序说明;执行所述探索流程的输出程序代码,对所述探索数据集进行探索并将探索结果输出。

【技术特征摘要】
1.一种数据探索方法,其特征在于,包括:根据输入信息从指标库中选择指定的研究指标;获取数据集、研究变量,以及所述研究变量对应的研究参数;从流程库中匹配出包含有所述研究指标和所述研究参数的可用流程;根据输入指令从所述可用流程中选择探索流程,从数据集中选择探索数据集;调用所述探索流程对应的程序代码,生成所述探索流程的输出程序代码和输出程序说明;执行所述探索流程的输出程序代码,对所述探索数据集进行探索并将探索结果输出。2.根据权利要求1所述的方法,其特征在于,所述生成所述探索流程的输出程序代码和输出程序说明,包括:所述探索流程对应的程序代码调用所述探索流程中的方法或图像,调用所述方法对应的程序代码、所述图像对应的程序代码,生成输出程序代码和输出程序说明。3.根据权利要求1所述的方法,其特征在于,还包括:根据输入信息从设计库中选择指定的研究设计;从包含有所述研究指标和所述研究参数的可用流程中,进一步匹配出包含有对应研究设计的可用流程。4.根据权利要求1所述的方法,其特征在于,还包括:根据输入指令从已选择的探索流程和数据集中选择一个或多个作为对比流程和对比数据集;调用所述对比流程对应的程序代码,生成所述对比流程的输出程序代码和输出程序说明;分别合并所述探索流程的输出程序代码和所述对比流程的输出程序代码、所述探索流程的输出程序说明和所述对比流程的输出程序说明,生成全部的输出程序代码和输出程序说明;执行合并后的输出程序代码,对所述数据集进行探索;将所述探索流程的探索结果与所述对比流程的探索结果进行比较并将比较结果输出。5.根据权利要求4所述的方法,其特征在于,所述将所述探索流程的探索结果与所述对比流程的探索结果进行比较并将比较结果输出,包括:获取探索流程的各个研究指标的探索结果;获取对比流程的各个研究指标的探索结果;将各个研究指标的探索流程的探索结果与对比流程的探索结果进行比较;将不同的探索结果按照不同的格式进行显示输出。6.根据权利要求1-5任一项所述的方法,其特征在于,所述获取数据集、研究变量,以及所述研究变量对应的研究参数,包括:获取用户输入的数据集和研究变量;获取用户指定的研究变量所对应的变量库中的变量;获取用户指定的研究变量或所述用户指定的研究变量所对应的变量库中的变量所对应的参数信息;根据参数信息从参数库中确定对...

【专利技术属性】
技术研发人员:林宇
申请(专利权)人:深圳市宇数科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1