一种基于可视化图形的模型构建方法及系统技术方案

技术编号:22531852 阅读:20 留言:0更新日期:2019-11-13 09:09
本发明专利技术提供了一种基于可视化图形的模型构建方法及系统,该方案先获取即将构建模型的源数据集,并确定各源数据的数据类型和作为因变量的因变量源数据,然后根据各源数据的数据类型生成对应的可视化图形,利用可视化图形确定可选自变量源数据,并根据其对应的数据类型利用预设的模型库获取适用目标模型的类型和模型表达式;进而依据源数据值计算模型的参数并确定目标模型的最终表达式。本发明专利技术采用的技术方案克服了现有技术中基于变量角色不明的源数据无法有效构建模型的缺陷,不需要使用者具备很高的专业知识储备,就可以构建可靠、适用的普通模型和多维模型,很大程度上提升了建模方案的实用性,同时有效优化了建模结果的可靠性。

A model building method and system based on visual graphics

The invention provides a model construction method and system based on visual graph, which first obtains the source data set of the model to be constructed, determines the data type of each source data and the dependent variable source data as the dependent variable, then generates the corresponding visual graph according to the data type of each source data, uses the visual graph to determine the optional independent variable source data, and according to it The corresponding data type uses the preset model library to obtain the type and model expression of the applicable target model, and then calculates the parameters of the model and determines the final expression of the target model according to the source data value. The technical scheme adopted by the invention overcomes the defect that the source data based on unknown variable role can not effectively build the model in the prior art, and can build reliable and applicable common model and multi-dimensional model without the user having a high professional knowledge reserve, which greatly improves the practicability of the modeling scheme and effectively optimizes the reliability of the modeling result.

【技术实现步骤摘要】
一种基于可视化图形的模型构建方法及系统
本专利技术涉及数据处理
,尤其涉及一种基于可视化图形的模型构建方法及系统。
技术介绍
当今社会计算机技术快速发展,各种数据资源涵盖领域广泛,涉及的数据种类繁杂,针对仅根据源数据难以对领域技术的状态进行全面、系统的评估或数据预测的情况,需要利用数据挖掘技术构建相应的模型以加强对数据资源的分析,通过化繁为简,形成比较完善的数据分析方法。例如医学研究领域,历史的数据资源丰富,但是面对原始的医疗数据却无法获取可靠的借鉴依据,不利于对各类病患的优化治疗,这种情况下就需要基于原始的历史医疗数据进行数据挖掘,构建科学合理的模型。然而,在实际的数据挖掘技术中,要想对批量数据进行高效运算或者实现数据的预测就需要根据批量数据构建模型,现有的数据挖掘建模方式或工具多为基于已知的自变量、因变量和模型类型进行学习和训练,实现对应模型的构建,尤其是具有多个自变量的模型,现有的技术手段无法直接根据未知变量角色的源数据实现模型的构建,且现有技术若要确保构建的模型有效,须执行者对建模数据和模型特征等知识具有相当程度的了解,实用性有很大的局限。
技术实现思路
为解决上述问题,本专利技术提供了一种基于可视化图形的模型构建方法及系统,在一个实施例中,所述方法包括以下步骤:步骤S1、获取需构建模型的源数据集,确定各源数据的数据类型并选取作为因变量的因变量源数据。步骤S2、根据各源数据的数据类型生成与源数据集对应的可视化图形。步骤S3、通过所述可视化图形确定至少一个作为可选自变量的可选自变量源数据,并根据所述可选自变量源数据对应的数据类型利用预设的模型库获取目标模型的模型类型和模型表达式。步骤S4、利用所述因变量源数据和可选自变量源数据对应的数据值计算模型的参数并确定目标模型的最终表达式。优选地,在所述步骤S2中,按照以下规则根据各源数据数据类型生成对应的可视化图形:将各个源数据表征为所述可视化图形的散点。其中,将数值型的因变量源数据表征为所述可视化图形中各散点的纵轴坐标。将数值型或分类型的可选自变量源数据表征为可视化图形中散点的横轴坐标、散点的颜色类别、散点的尺寸等级、散点的随附文字或者散点的形状种类。其中,在所述步骤S3中,利用源数据对应的所述可视化视图中各散点的分布情况确定与因变量源数据数值变化相关的可选自变量源数据作为可选自变量;将所述可选自变量的数据类型输入所述预设的模型库中获取至少一个目标模型的模型类型和模型表达式。在所述步骤S4中,按照如下步骤计算各目标模型的参数:根据目标模型的模型类型建立源数据集对应的自变量数据回归设计矩阵。利用所述自变量数据回归设计矩阵和目标模型的类型计算模型参数向量的估计值。根据模型参数向量的估计值返回获得目标模型的估计参数值,将所述估计参数值代入目标模型的表达式中确定目标模型的最终表达式。进一步地,在根据目标模型的模型类型建立源数据集对应的自变量数据回归设计矩阵的步骤中:若目标模型的类型为多项式回归,则建立源数据集对应的自变量数据回归设计矩阵Xi如下:Xi=[1x1x2x3...xn]否则,建立源数据集对应的自变量源数据回归设计矩阵Xj如下;其中,xab代表第a条记录的第b个自变量的数据值,n为自变量源数据集中记录的条数,p为各条记录具有的自变量的数量。具体地,在利用所述自变量数据回归设计矩阵和目标模型的类型计算模型参数向量的估计值的步骤中:若目标模型的模型类型为多项式回归,则按下式计算模型参数向量的估计值若目标模型的模型类型为指数回归,则按下式计算模型参数向量的估计值若目标模型的模型类型为对数回归,则按下式计算模型参数向量的估计值其中,若目标模型的模型类型为对数回归,则要求回归设计矩阵Xj中的各元素均大于0,即xab>0;若目标模型的模型类型为线性回归,则按下式计算模型参数向量的估计值式中,X'为回归设计矩阵X的转置矩阵,X-1为回归设计矩阵X的逆矩阵,向量y=(y1,y2,...,yn)',表示所有记录的因变量源数据。另一个实施例中,在所述步骤S4之后还包括:选取部分源数据作为样本数据,将样本数据中的自变量数据代入各目标模型的最终表达式中计算各目标模型对应的因变量估计值。根据计算得到的因变量估计值和样本因变量实际值计算各个目标模型的拟合优度和均方误差。利用计算得到的所述拟合优度和均方误差对所述目标模型进行评估。其中,在利用所述拟合优度和均方误差评估最适用的目标模型的步骤中,具体包括:将各目标模型根据其对应的所述拟合优度按照从大到小的顺序排列;若存在拟合优度相等或拟合优度差值小于预设模糊额度的目标模型,将均方误差值较小的目标模型列于前排;选取排序位于第一或前N的目标模型作为最终优选的目标模型。在一个实施例中,本专利技术还提供一种基于可视化图形的模型构建系统,该系统中各结构独立运行或结合运行执行如上述各实施例中所述的步骤。与最接近的现有技术相比,本专利技术具有如下有益效果:本专利技术提供的基于可视化图形的模型构建方法采用将明确数据类型的源数据表征为可视化视图,结合可视化视图的信息确定即将进入模型的可选自变量数据,解决了现有技术中对用户专业知识要求高的缺陷;本专利技术根据自变量数据的数据类型利用预设的模型库向用户推荐对应的适用模型,从很大程度上保证了模型构建结果的可靠性,同时降低了用户的操作复杂度,大大降低了因模型不适用导致建模操作失效的概率,进而根据设计的计算方法确定已知参数的目标模型表达式,适用于构建多种类型和维度的模型,有效提升了建模方案的实用性。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例共同用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是本专利技术实施例一的基于可视化图形的模型构建方法的流程示意图;图2是本专利技术实施例一的基于可视化图形的模型构建方法中的可视化视图;图3是本专利技术实施例二的基于可视化图形的模型构建方法的流程示意图;图4是本专利技术实施例三的基于可视化图形的模型构建系统的结构示意图。具体实施方式以下将结合附图及实施例来详细说明本专利技术的实施方式,借此本专利技术的实施人员可以充分理解本专利技术如何应用技术手段来解决技术问题,并达成技术效果的实现过程并依据上述实现过程具体实施本专利技术。需要说明的是,只要不构成冲突,本专利技术中的各个实施例以及各实施例的各个特征可以相互结合,所形成的技术方案均在本专利技术的保护范围之内。现有的数据挖掘建模方式多为基于已知的自变量、因变量和模型类型进行学习和训练,实现对应模型的构建,尤其是具有多个自变量的模型,现有的技术手段无法直接根据源数据实现模型的构建,而实际工作中,往往需要多个输入变量,例如同时利用孩子父亲和母亲的身高来预测其未来的身高可靠性更高,这种情况下现有工具(如Excel)的图形建模功能并不能发挥作用,且现有技术若要确保构建的模型有效须执行者对建模数据和模型特征等知识具有相当程度的了解,实用性不足。为解决上述问题,本专利技术提供一种基于可视化图形的模型构建方法,下面参考附图对本专利技术各个实施例进行说明。实施例一图1示出了本专利技术实施例一的基于可视化图形的模型构建方法的流程示意图,参照图1可知,该方法包括:步骤S110、获取需构建模型的源数据集,确定各源数据的数据类型并选取作为因变量的因变量源数据。在该步骤中本文档来自技高网...

【技术保护点】
1.一种基于可视化图形的模型构建方法,其特征在于,所述方法包括:步骤S1、获取需构建模型的源数据集,确定各源数据的数据类型并选取作为因变量的因变量源数据;步骤S2、根据各源数据的数据类型生成与源数据集对应的可视化图形;步骤S3、通过所述可视化图形确定至少一个作为可选自变量的可选自变量源数据,并根据所述可选自变量源数据对应的数据类型利用预设的模型库获取目标模型的模型类型和模型表达式;步骤S4、利用所述因变量源数据和可选自变量源数据对应的数据值计算模型的参数并确定目标模型的最终表达式。

【技术特征摘要】
1.一种基于可视化图形的模型构建方法,其特征在于,所述方法包括:步骤S1、获取需构建模型的源数据集,确定各源数据的数据类型并选取作为因变量的因变量源数据;步骤S2、根据各源数据的数据类型生成与源数据集对应的可视化图形;步骤S3、通过所述可视化图形确定至少一个作为可选自变量的可选自变量源数据,并根据所述可选自变量源数据对应的数据类型利用预设的模型库获取目标模型的模型类型和模型表达式;步骤S4、利用所述因变量源数据和可选自变量源数据对应的数据值计算模型的参数并确定目标模型的最终表达式。2.如权利要求1所述的方法,其特征在于,在所述步骤S2中,按照以下规则根据各源数据数据类型生成对应的可视化图形:将各个源数据表征为所述可视化图形的散点;其中,将数值型的因变量源数据表征为所述可视化图形中各散点的纵轴坐标;将数值型或分类型的可选自变量源数据表征为可视化图形中散点的横轴坐标、散点的颜色类别、散点的尺寸等级、散点的随附文字或者散点的形状种类。3.如权利要求1或2所述的方法,其特征在于,在所述步骤S3中,利用源数据对应的所述可视化视图中各散点的分布情况确定与因变量源数据数值变化相关的可选自变量源数据作为可选自变量;将所述可选自变量的数据类型输入所述预设的模型库中获取至少一个目标模型的模型类型和模型表达式。4.如权利要求1~3中任一项所述的方法,其特征在于,在所述步骤S4中,按照如下步骤计算各目标模型的参数:根据目标模型的模型类型建立源数据集对应的自变量数据回归设计矩阵;利用所述自变量数据回归设计矩阵和目标模型的类型计算模型参数向量的估计值;根据模型参数向量的估计值返回获得目标模型的估计参数值,将所述估计参数值代入目标模型的表达式中确定目标模型的最终表达式。5.如权利要求4所述的方法,其特征在于,在根据目标模型的模型类型建立源数据集对应的自变量数据回归设计矩阵的步骤中:若目标模型的类型为多项式回归,则建立源数据集对应的自变量数据回归设计矩阵Xi如下:Xi=[1x1x2x3...xn]否则,建立源数据集对应的自变量源数据回归设计矩阵Xj如下;其中,xab代表第a条记录的第b个自变量的数据值,n为自变量源数据集中记录的条数,p为各条记录具有的自变量的数量。6.如权利要求5所述的方法,其特征在于,在利用所述自变量数据回归设计矩阵和目标模型的类型计算模型参数向量的估计值的步骤中:若目标模型的模型类型为多项式回...

【专利技术属性】
技术研发人员:汪尚闫秀媛
申请(专利权)人:北京易莱信科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1