The invention provides a model construction method and system based on visual graph, which first obtains the source data set of the model to be constructed, determines the data type of each source data and the dependent variable source data as the dependent variable, then generates the corresponding visual graph according to the data type of each source data, uses the visual graph to determine the optional independent variable source data, and according to it The corresponding data type uses the preset model library to obtain the type and model expression of the applicable target model, and then calculates the parameters of the model and determines the final expression of the target model according to the source data value. The technical scheme adopted by the invention overcomes the defect that the source data based on unknown variable role can not effectively build the model in the prior art, and can build reliable and applicable common model and multi-dimensional model without the user having a high professional knowledge reserve, which greatly improves the practicability of the modeling scheme and effectively optimizes the reliability of the modeling result.
【技术实现步骤摘要】
一种基于可视化图形的模型构建方法及系统
本专利技术涉及数据处理
,尤其涉及一种基于可视化图形的模型构建方法及系统。
技术介绍
当今社会计算机技术快速发展,各种数据资源涵盖领域广泛,涉及的数据种类繁杂,针对仅根据源数据难以对领域技术的状态进行全面、系统的评估或数据预测的情况,需要利用数据挖掘技术构建相应的模型以加强对数据资源的分析,通过化繁为简,形成比较完善的数据分析方法。例如医学研究领域,历史的数据资源丰富,但是面对原始的医疗数据却无法获取可靠的借鉴依据,不利于对各类病患的优化治疗,这种情况下就需要基于原始的历史医疗数据进行数据挖掘,构建科学合理的模型。然而,在实际的数据挖掘技术中,要想对批量数据进行高效运算或者实现数据的预测就需要根据批量数据构建模型,现有的数据挖掘建模方式或工具多为基于已知的自变量、因变量和模型类型进行学习和训练,实现对应模型的构建,尤其是具有多个自变量的模型,现有的技术手段无法直接根据未知变量角色的源数据实现模型的构建,且现有技术若要确保构建的模型有效,须执行者对建模数据和模型特征等知识具有相当程度的了解,实用性有很大的局限。
技术实现思路
为解决上述问题,本专利技术提供了一种基于可视化图形的模型构建方法及系统,在一个实施例中,所述方法包括以下步骤:步骤S1、获取需构建模型的源数据集,确定各源数据的数据类型并选取作为因变量的因变量源数据。步骤S2、根据各源数据的数据类型生成与源数据集对应的可视化图形。步骤S3、通过所述可视化图形确定至少一个作为可选自变量的可选自变量源数据,并根据所述可选自变量源数据对应的数据类型利用预设的模型库获取 ...
【技术保护点】
1.一种基于可视化图形的模型构建方法,其特征在于,所述方法包括:步骤S1、获取需构建模型的源数据集,确定各源数据的数据类型并选取作为因变量的因变量源数据;步骤S2、根据各源数据的数据类型生成与源数据集对应的可视化图形;步骤S3、通过所述可视化图形确定至少一个作为可选自变量的可选自变量源数据,并根据所述可选自变量源数据对应的数据类型利用预设的模型库获取目标模型的模型类型和模型表达式;步骤S4、利用所述因变量源数据和可选自变量源数据对应的数据值计算模型的参数并确定目标模型的最终表达式。
【技术特征摘要】
1.一种基于可视化图形的模型构建方法,其特征在于,所述方法包括:步骤S1、获取需构建模型的源数据集,确定各源数据的数据类型并选取作为因变量的因变量源数据;步骤S2、根据各源数据的数据类型生成与源数据集对应的可视化图形;步骤S3、通过所述可视化图形确定至少一个作为可选自变量的可选自变量源数据,并根据所述可选自变量源数据对应的数据类型利用预设的模型库获取目标模型的模型类型和模型表达式;步骤S4、利用所述因变量源数据和可选自变量源数据对应的数据值计算模型的参数并确定目标模型的最终表达式。2.如权利要求1所述的方法,其特征在于,在所述步骤S2中,按照以下规则根据各源数据数据类型生成对应的可视化图形:将各个源数据表征为所述可视化图形的散点;其中,将数值型的因变量源数据表征为所述可视化图形中各散点的纵轴坐标;将数值型或分类型的可选自变量源数据表征为可视化图形中散点的横轴坐标、散点的颜色类别、散点的尺寸等级、散点的随附文字或者散点的形状种类。3.如权利要求1或2所述的方法,其特征在于,在所述步骤S3中,利用源数据对应的所述可视化视图中各散点的分布情况确定与因变量源数据数值变化相关的可选自变量源数据作为可选自变量;将所述可选自变量的数据类型输入所述预设的模型库中获取至少一个目标模型的模型类型和模型表达式。4.如权利要求1~3中任一项所述的方法,其特征在于,在所述步骤S4中,按照如下步骤计算各目标模型的参数:根据目标模型的模型类型建立源数据集对应的自变量数据回归设计矩阵;利用所述自变量数据回归设计矩阵和目标模型的类型计算模型参数向量的估计值;根据模型参数向量的估计值返回获得目标模型的估计参数值,将所述估计参数值代入目标模型的表达式中确定目标模型的最终表达式。5.如权利要求4所述的方法,其特征在于,在根据目标模型的模型类型建立源数据集对应的自变量数据回归设计矩阵的步骤中:若目标模型的类型为多项式回归,则建立源数据集对应的自变量数据回归设计矩阵Xi如下:Xi=[1x1x2x3...xn]否则,建立源数据集对应的自变量源数据回归设计矩阵Xj如下;其中,xab代表第a条记录的第b个自变量的数据值,n为自变量源数据集中记录的条数,p为各条记录具有的自变量的数量。6.如权利要求5所述的方法,其特征在于,在利用所述自变量数据回归设计矩阵和目标模型的类型计算模型参数向量的估计值的步骤中:若目标模型的模型类型为多项式回...
【专利技术属性】
技术研发人员:汪尚,闫秀媛,
申请(专利权)人:北京易莱信科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。