一种基于数据挖掘的建模方法及系统技术方案

技术编号:22564859 阅读:68 留言:0更新日期:2019-11-16 11:54
本发明专利技术提供了一种基于数据挖掘的建模方法及系统,该技术方案中对有建模需求的源数据进行分析,确定源数据集中所有源数据的数据类型和数据角色,然后基于源数据的数据类型和数据角色利用预设的模型库推荐目标模型的模型类型和模型表达式,进而利用各角色源数据对应的数据值计算确定目标模型的最终表达式。采用本发明专利技术的技术方案,能够克服现有的建模方案对使用人员技术要求过高,实用性不足的缺陷,本发明专利技术的建模方法面向所有需要对数据构建模型的用户,建模时用户可以自行选择模型的因变量和自变量,灵活性更高,在降低用户操作复杂度的基础上保证了模型构建结果的精确性。

A modeling method and system based on Data Mining

The invention provides a modeling method and system based on data mining. In the technical scheme, the source data with modeling requirements is analyzed to determine the data types and data roles of all source data in the source data set. Then, based on the data types and data roles of the source data, the preset model database is used to recommend the model types and model expressions of the target model, and then each corner is used The data value corresponding to the color source data is calculated to determine the final expression of the target model. Adopting the technical scheme of the invention can overcome the defects of the existing modeling scheme that the technical requirements of the users are too high and the practicability is not enough. The modeling method of the invention is for all users who need to build the data model. During the modeling, the user can choose the dependent variables and independent variables of the model by himself, which is more flexible and ensures the model construction on the basis of reducing the complexity of the user's operation The accuracy of the results.

【技术实现步骤摘要】
一种基于数据挖掘的建模方法及系统
本专利技术涉及数据处理
,尤其涉及一种基于数据挖掘的建模方法及系统。
技术介绍
随着各领域获取数据的技术愈加先进,各个领域都包含了海量的技术数据,但是仅根据源数据难以对领域技术的状态进行全面、系统的评估,也无法实现数据预测,这就需要采取某些手段以源数据为基础构建相应的模型,通过化繁为简以加强对数据资源的分析深度,形成比较完善的数据分析手段。例如医学研究领域,历史的数据资源丰富,但是面对原始的医疗数据却无法获取可靠的借鉴依据,并不能对各类病患的优化治疗提供支持,这种情况下就需要基于原始的历史医疗数据进行数据挖掘,构建科学合理的模型。然而,在实际的数据挖掘技术中,要想对批量数据进行高效运算或者实现数据的预测就需要根据批量数据构建模型,现有的数据挖掘建模方式或工具多为基于已知的自变量、因变量和模型类型进行学习和训练,实现对应模型的选择和构建,尤其是具有多个自变量的模型,现有的技术手段无法直接根据在未知模型类型的情况下实现模型的构建,且现有技术若要确保构建的模型有效,须执行者对建模数据和模型特征等知识具有相当程度的了解,实用性有很大的局限。
技术实现思路
为解决上述问题,本专利技术提供了一种基于数据挖掘的建模方法,在一个实施例中,所述方法包括:步骤S1、获取有建模需求的源数据集;步骤S2、对源数据集进行分析,确定源数据集中所有源数据的数据类型和数据角色;步骤S3、利用预设的模型库根据源数据的数据类型和数据角色提供目标模型的模型类型和模型表达式;步骤S4、利用各角色源数据对应的数据值计算获取各目标模型的最终表达式。优选地,所述数据角色包括:因变量、自变量和次要数据。优选地,在所述步骤S2中,具体包括:对源数据集进行分析,确定源数据集中所有源数据的数据类型;根据各源数据和对应的数据类型确定源数据集中是否包含角色为因变量的源数据;若包含,则分别选取角色为因变量的源数据和角色为自变量的源数据;若不包含,则选取角色为自变量的源数据。优选地,在所述步骤S4中,按照如下步骤计算获取各目标模型的最终表达式:步骤A1、若目标模型的算法类型为监督式,模型类型为指数平滑模型,则由用户输入设定的平滑常数β,并通过下式获取目标模型的最终表达式:ya=βxa+(1-β)ya-1其中,a∈[1,n],y0=x1;步骤A2、若目标模型的算法类型为监督式,模型类型为逻辑回归模型,则通过以下操作获取目标模型的最终表达式:根据目标模型的模型类型建立源数据集对应的自变量数据矩阵;通过令如下等式成立确定针对类别t的模型参数向量βt的估计值并根据模型参数向量的估计值确定目标模型的表达式;其中,式中,xa为自变量数据中第a条记录对应的自变量向量,xaρ为第a条记录对应的自变量数据矩阵的转置矩阵,为针对类别t的模型参数向量估计值向量矩阵转置矩阵,ya为第a条记录对应的因变量数据,yta*为第a条记录对应的因变量数据针对类别t的所属结果;t∈(1,T);步骤A3、若目标模型的算法类型为监督式,模型类型不为指数平滑模型或逻辑回归模型,则通过以下操作获取目标模型的最终表达式:根据目标模型的模型类型建立源数据集对应的自变量数据矩阵;利用所述自变量数据矩阵和目标模型的类型计算模型参数向量的估计值;根据模型参数向量的估计值返回获得目标模型的估计参数值,将所述估计参数值代入目标模型的表达式中确定目标模型的最终表达式;步骤A4、若目标模型的算法类型为非监督式,则由用户指定需求的聚类数量K,根据所述聚类数量确定K个聚类中心,并通过下式确定最终的模型聚类结果:其中,μl是类别Cl的聚类中心,第a条记录中的自变量数据xa属于类别Cl,l∈[1,K],d(xa,μl)表示第a条记录的自变量数据在D个维度上分别与类别Cl类中心的距离的平方和,xam代表xa在第m个维度上的数值,m和D取正整数,m∈[1,D]。进一步地,在所述步骤A2中,通过下式根据模型参数向量的估计值确定目标模型的表达式:其中,式中,表示逻辑回归模型的最终因变量类别结果,T为因变量数据对应的总类别数量,为因变量y的第a个元素属于第t个类别的概率,为y的第a个元素属于第T个类别的概率。进一步地,在所述步骤A3中,根据目标模型的模型类型建立源数据集对应的自变量数据矩阵,包括:若目标模型的类型为多项式回归,由于只有一个自变量,则建立目标模型源数据集对应的自变量数据回归设计矩阵Xi如下:Xi=[1x1x2…xn]其中,xa表示第a条记录中自变量x的值,n为自变量源数据集中记录的条数;否则,建立目标模型源数据集对应的自变量源数据矩阵Xj如下;其中,xab代表第a条记录的第b个自变量的数据值,n为自变量源数据集中记录的条数,p为各条记录具有的自变量的数量,a∈[1,n],b∈[1,p]。进一步地,在所述步骤A3中,利用所述自变量数据矩阵和目标模型的类型计算模型参数向量的估计值,包括:若目标模型的模型类型为多项式回归,则按下式计算模型参数向量的估计值若目标模型的模型类型为指数回归,则按下式计算模型参数向量的估计值若目标模型的模型类型为对数回归,则按下式计算模型参数向量的估计值若目标模型的模型类型为线性回归,则按下式计算模型参数向量的估计值其中,当目标模型的模型类型为指数回归时,则因变量向量y中的所有元素均大于0,当目标模型的模型类型为对数回归时,要求自变量数据矩阵Xj中的各元素均大于0,即xab>0;Xi'为自变量数据矩阵Xi的转置矩阵,Xj'为自变量数据矩阵Xj的转置矩阵,X-1表示矩阵X的逆矩阵,向量y=(y1,y2,...,yn)',表示所有记录的因变量源数据。在另一个实施例中,在所述步骤S4之后还包括:步骤B1、对于算法类型为监督式的目标模型,选取部分源数据作为样本数据,将样本数据中的自变量数据代入各目标模型的最终表达式中计算各目标模型对应的因变量估计值;对于算法类型为非监督式的目标模型,分别计算各目标模型对应分组结果组间数据和组内数据间的欧氏距离;步骤B2、对于算法类型为监督式的目标模型,若目标模型的因变量为数值型数据,则根据计算得到的因变量估计值和样本因变量实际值计算各个目标模型的拟合优度和均方误差;若目标模型的因变量为分类型数据,则根据所述因变量估计值与样本因变量实际值确定估计结果的准确率;对于算法类型为非监督式的目标模型,以组间数据距离越大,组内数据距离越大为标准对所述目标模型进行评估;步骤B3、对于算法类型为监督式的目标模型,若目标模型的因变量为数值型数据,则根据拟合优度和均方误差对各目标模型进行评估;若目标模型的因变量本文档来自技高网...

【技术保护点】
1.一种基于数据挖掘的建模方法,其特征在于,所述方法包括:/n步骤S1、获取有建模需求的源数据集;/n步骤S2、对源数据集进行分析,确定源数据集中所有源数据的数据类型和数据角色;/n步骤S3、利用预设的模型库根据源数据的数据类型和数据角色提供目标模型的模型类型和模型表达式;/n步骤S4、利用各角色源数据对应的数据值计算获取各目标模型的最终表达式。/n

【技术特征摘要】
1.一种基于数据挖掘的建模方法,其特征在于,所述方法包括:
步骤S1、获取有建模需求的源数据集;
步骤S2、对源数据集进行分析,确定源数据集中所有源数据的数据类型和数据角色;
步骤S3、利用预设的模型库根据源数据的数据类型和数据角色提供目标模型的模型类型和模型表达式;
步骤S4、利用各角色源数据对应的数据值计算获取各目标模型的最终表达式。


2.如权利要求1所述的方法,其特征在于,所述数据角色包括:因变量、自变量和次要数据。


3.如权利要求1或2所述的方法,其特征在于,在所述步骤S2中,具体包括:
对源数据集进行分析,确定源数据集中所有源数据的数据类型;
根据各源数据和对应的数据类型确定源数据集中是否包含角色为因变量的源数据;
若包含,则分别选取角色为因变量的源数据和角色为自变量的源数据;若不包含,则选取角色为自变量的源数据。


4.如权利要求1~3所述的方法,其特征在于,在所述步骤S4中,按照如下步骤计算获取各目标模型的最终表达式:
步骤A1、若目标模型的算法类型为监督式,模型类型为指数平滑模型,则由用户输入设定的平滑常数β,并通过下式获取目标模型的最终表达式:
ya=βxa+(1-β)ya-1
其中,a∈[1,n],y0=x1;
步骤A2、若目标模型的算法类型为监督式,模型类型为逻辑回归模型,则通过以下操作获取目标模型的最终表达式:
根据目标模型的模型类型建立源数据集对应的自变量数据矩阵;
通过令如下等式成立确定针对类别t的模型参数向量βt的估计值并根据模型参数向量的估计值确定目标模型的表达式;



其中,



式中,xa为自变量数据中第a条记录对应的自变量向量,xa′为第a条记录对应的自变量数据矩阵的转置矩阵,为针对类别t的模型参数向量估计值向量矩阵转置矩阵,ya为第a条记录对应的因变量数据,yta*为第a条记录对应的因变量数据针对类别t的所属结果;t∈(1,T);
步骤A3、若目标模型的算法类型为监督式,模型类型不为指数平滑模型或逻辑回归模型,则通过以下操作获取目标模型的最终表达式:
根据目标模型的模型类型建立源数据集对应的自变量数据矩阵;
利用所述自变量数据矩阵和目标模型的类型计算模型参数向量的估计值;
根据模型参数向量的估计值返回获得目标模型的估计参数值,将所述估计参数值代入目标模型的表达式中确定目标模型的最终表达式;
步骤A4、若目标模型的算法类型为非监督式,则由用户指定需求的聚类数量K,根据所述聚类数量确定K个聚类中心,并通过下式确定最终的模型聚类结果:



其中,μl是类别Cl的聚类中心,第a条记录中的自变量数据xa属于类别Cl,l∈[1,K],d(xa,μl)表示第a条记录的自变量数据在D个维度上分别与类别Cl类中心的距离的平方和,xan代表xa在第m个维度上的数值,m和D取正整数,m∈[1,D]。


5.如权利要求4所述的方法,其特征在于,在所述步骤A2中,通过下式根据模型参数向量的估计值确定目标模型的表达式:






其中,






式中,表示逻辑回归模型的最终因变量类别结果,T为因变量数据对应的总类别数量,为因变量y的第a个元素属于第t个类别的概率,为y的...

【专利技术属性】
技术研发人员:汪尚闫秀媛
申请(专利权)人:北京易莱信科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1