一种数据分析模型的建模方法技术

技术编号:27363359 阅读:18 留言:0更新日期:2021-02-19 13:46
本发明专利技术公开了一种数据分析模型的建模方法,所属数据分析技术领域,包括以下步骤:步骤一、确定模型目标与数据分析范围;步骤二、根据步骤一中提供的数据分析范围,进行数据关联性分析,遴选数据维度与度量;步骤三、根据步骤二中的执行结果,按照模型目标要求构建初始模型,确定初始模型的基本维度;步骤四、按照步骤三的初始模型,导入测试数据,对模型进行数据拟合运算;步骤五、对步骤四的拟合运算结果进行校验,如果校验结果的正确率超过90%,则可视为模型成立,建模结束,如果不达标,则回到步骤二;步骤六、将模型数据存储于模型库中。本发明专利技术利用多种类型数据的自动收集与智能清洗,可以解决数据格式复杂、不统一和收集困难等问题。题。题。

【技术实现步骤摘要】
一种数据分析模型的建模方法


[0001]本专利技术涉及数据分析
,尤其涉及一种数据分析模型的建模方法。

技术介绍

[0002]数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
[0003]数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
[0004]随着科技的发展,现在高校为了方便对学校内部各个业务数据进行监控和管理,通过引入一些校内系统,并将校内员工信息和学生信息录入到系统中,且每个用户都有一个实名认证的单独账号,员工和学生可以随时随地登录到校内系统查看学校发布的公告已经校内资讯。
[0005]但是校内系统在建设的过程中,需要用到数据分析模型,但是现有的数据分析模型只支持单种类型的数据收集和清洗,且智能化程度低,兼容性比较差,在使用时效率十分低,也不方便对多种类型的数据进行处理。
[0006]为此,我们提出一种数据分析模型的建模方法来解决上述问题。

技术实现思路

[0007]本专利技术的目的是为了解决现有技术中存在的缺陷,而提出的一种数据分析模型的建模方法,简述下达到的技术效果。
[0008]为了实现上述目的,本专利技术采用了如下技术方案:
[0009]一种数据分析模型的建模方法,包括以下步骤:
[0010]步骤一、确定模型目标与数据分析范围;
[0011]步骤二、根据步骤一中提供的数据分析范围,进行数据关联性分析,遴选数据维度与度量;
[0012]步骤三、根据步骤二中的执行结果,按照模型目标要求构建初始模型,确定初始模型的基本维度;
[0013]步骤四、按照步骤三的初始模型,导入测试数据,对模型进行数据拟合运算;
[0014]步骤五、对步骤四的拟合运算结果进行校验,如果校验结果的正确率超过90%,则可视为模型成立,建模结束,如果不达标,则回到步骤二;
[0015]步骤六、将模型数据存储于模型库中。
[0016]进一步地,所述测试数据的样本数量不少于1000套。
[0017]进一步地,所述数据导入的格式可以为结构化数据输入格式、非结构化数据输入格式和结构化数据。
[0018]进一步地,所述结构化数据输入格式为json文件格式;
[0019]所述非结构化数据输入格式为文本文件格式;
[0020]所述结构化数据为excel文件。
[0021]进一步地,所述数据关联性分析是基于中文NLP技术进行的数据关联性分析。
[0022]相比于现有技术,本专利技术的有益效果在于:
[0023]1、与现有技术相比,本专利技术利用中文NLP技术,对采集到的院校信息、新闻和论文等进行分析,按照预置的5个维度进行关键字、特征字进行提取,形成职业教育数据的特征库;
[0024]2、与现有技术相比,本专利技术利用多种类型数据的自动收集与智能清洗,结合数据之间的关联性,可以解决数据格式复杂、不统一和收集困难等问题,同时还可以对多种类型的数据进行自动收集和清洗,兼容性由于现有的建模方法,且正确率高,对数据处理的效率高。
附图说明
[0025]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。
[0026]图1为本专利技术提出的一种数据分析模型的建模方法的流程示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0028]在本专利技术的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0029]参照图1,一种数据分析模型的建模方法,包括以下步骤:
[0030]步骤一、确定模型目标与数据分析范围;
[0031]步骤二、根据步骤一中提供的数据分析范围,进行数据关联性分析,遴选数据维度与度量;
[0032]步骤三、根据步骤二中的执行结果,按照模型目标要求构建初始模型,确定初始模型的基本维度;
[0033]步骤四、按照步骤三的初始模型,导入测试数据,对模型进行数据拟合运算;
[0034]步骤五、对步骤四的拟合运算结果进行校验,如果校验结果的正确率超过90%,则可视为模型成立,建模结束,如果不达标,则回到步骤二;
[0035]步骤六、将模型数据存储于模型库中。
[0036]模型目标可以为校内员工信息数据、学生信息数据、校内资讯信息数据、校内费用花费信息数据、校内资讯信息数据、校内公告信息数据以及师生论文信息数据。
[0037]更具体地,测试数据的样本数量不少于1000套。
[0038]通过多套测试数据对构建的初始模型进行测试,提高初始模型的时正确率,以便于把初始模型训练的更加成熟。
[0039]更具体地,数据导入的格式可以为结构化数据输入格式、非结构化数据输入格式和结构化数据。
[0040]更具体地,结构化数据输入格式为json文件格式;
[0041]非结构化数据输入格式为文本文件格式;
[0042]结构化数据为excel文件。
[0043]该构建的模型可以适用于多种不同类型的数据格式,提高了数据分析模型的兼容性,且该数据分析模型还可以实现数据的自动收据和智能清洗,对数据的处理效率优于现有的数据分析模型。
[0044]更具体地,数据关联性分析是基于中文NLP技术进行的数据关联性分析。对采集到的院校信息、新闻和论文等进行分析,按照预置的5个维度进行关键字、特征字进行提取,形成职业教育数据的特征库。
[0045]本专利技术的工作原理及使用流程:
[0046]本专利技术利用多种类型数据的自动收集与智能清洗,结合数据之间的关联性,可以解决数据格式复杂、不统一和收集困难等问题,同时还可以对多种类型的数据进行自动收集和清洗,兼容性由于现有的建模方法,且正确率高,对数据处理的效率高。
[0047]以上所述,仅为本专利技术较佳的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,根据本专利技术的技术方案及其专利技术构思加以等同替换或改变,都应涵盖在本专利技术的保护范围之内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分析模型的建模方法,其特征在于,包括以下步骤:步骤一、确定模型目标与数据分析范围;步骤二、根据步骤一中提供的数据分析范围,进行数据关联性分析,遴选数据维度与度量;步骤三、根据步骤二中的执行结果,按照模型目标要求构建初始模型,确定初始模型的基本维度;步骤四、按照步骤三的初始模型,导入测试数据,对模型进行数据拟合运算;步骤五、对步骤四的拟合运算结果进行校验,如果校验结果的正确率超过90%,则可视为模型成立,建模结束,如果不达标,则回到步骤二;步骤六、将模型数据存储于模型库中。2.根据权利要求1所述的一种数据分析...

【专利技术属性】
技术研发人员:李晓红陈燕群彭海宇
申请(专利权)人:上海新朋程数据科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1