一种基于决策树的公积金用户数据细化分析系统及方法技术方案

技术编号:23212741 阅读:25 留言:0更新日期:2020-01-31 21:51
本发明专利技术公开了一种基于决策树的公积金用户数据细化分析系统及方法,包括:数据采集模块,用于采集多源公积金用户数据,识别出实体、实体属性以及实体之间的关系,并消除多源数据中存在的冲突;数据存储模块,用于将转换的关系型数据保存到关系数据库中;数据预处理模块,用于将原始的关系型数据转换为用户细化分析中决策树所使用的特征数据;数据分析模块,使用决策树对用户特征数据进行细化分析,最后将分析结果以图表形式展示给用户。本发明专利技术通过对原始关系模型数据进行预处理,从中提取出用于决策树细化分析的特征数据,并在其基础上设计出基于新的决策树的公积金用户数据细化分析方法,从而能及时准确地为公积金管理部门提供有力的决策支持。

A detailed analysis system and method of provident fund user data based on decision tree

【技术实现步骤摘要】
一种基于决策树的公积金用户数据细化分析系统及方法
本专利技术涉及一种基于决策树的公积金用户数据细化分析系统及方法,属于公积金数据分析管理

技术介绍
目前,公积金业务的信息化已成为一种必然的趋势,而合理、有效地管理公积金用户的数据信息对公积金管理部门至关重要。通过对公积金用户进行细化分析,可以针对不同细分的用户业务,用不同的对策来管理,以增强服务功能和管理水平。为此,如何利用公积金用户数据对用户进行细化分析已成为当前各地公积金管理部门比较重视的问题。为了能让公积金管理部门掌握决策数据,业务数据的分析方法经常采用决策树或聚类的方法来实现,但分析结果仍不够精细,且分析过程一般是直接在关系数据库上进行搜索和分析,这其中涉及了大量的数据和数据表,使得查询、处理和存取的效率都比较低,导致业务需求实现周期较长。现阶段,公积金各业务单位不但要求查询分析的时间范围大、处理逻辑复杂,而且往往有较严格的时间要求,传统基于公积金数据的用户分析方法已无法满足公积金业务部门的时效性需求。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种基于决策树的公积金用户数据细化分析系统及方法,通过对原始关系模型数据进行预处理,从中提取出用于决策树细化分析的特征数据,并在其基础上设计出基于新的决策树的公积金用户细化分析方法,从而能及时准确地为公积金管理部门提供有力的决策支持。技术方案:为实现上述目的,本专利技术采用的技术方案为:一种基于决策树的公积金用户数据细化分析系统,包括以下组成:数据采集模块,用于从各终端设备(移动端、电脑端、视频监控端等)处采集与公积金用户相关的数据信息,识别出实体、实体属性以及实体之间的关系,并消除多源公积金用户数据中存在的冲突;数据存储模块,用于将冲突消除后得到的实体及实体之间关系转换为关系模型数据,并保存到电脑存储设备中的关系数据库中,形成原始的关系型数据;数据预处理模块,用于将原始的关系型数据转换为数据分析模块中决策树所使用的特征数据,并以关系型数据库视图的形式存在;数据分析模块,通过决策树对关系型数据库视图中的用户特征数据进行细化分析,训练生成决策树细化分析模型,而后将公积金用户的测试数据传递给决策树并到达多个叶子节点,最终根据所有叶子节点的估计值给出细化分类的结果;数据展示模块,用于将细化分类的结果在终端设备(手机端、电脑端等)上以图表的方式展示给用户。进一步的,所述数据分析模块中在生成决策树时,从根节点开始,在样本数据的特征集中选择一个特征进行测试,并根据测试结果将样本数据分配给其子节点,如此递归地对样本数据进行测试并分配,直到到达叶节点,最后将样本数据分配到叶节点。进一步的,所述数据分析模块中将样本数据分配到子节点的过程具体包括:1)如果所选特征的特征值是离散、有限的,就采用硬分配的方式,即将一个样本数据根据测试的结果只能被分配到其中一个子节点中去。2)如果所选特征的特征值是有序、连续的,就采用软分配的方式,即将一个样本数据根据测试的结果被分配到一个或多个子节点中去,该测试采用分段线性模糊函数:x为某个样本数据,γ和δ可以取某特征对应下的数据值的均值和方差(这两个参数可以通过相关机器学习算法经过学习获得);当该函数t的值为1时,样本数据则被分配到左子节点中去;而当函数t的值为0时,样本则被分配到右子节点中去;其他情况,则样本被同时分配到左、右两个子节点中去。3)决策树中所用到的每个样本数据在决策树的相应节点中都会赋予一个隶属度值,表明该样本数据属于该节点下的样本数据集的程度;根节点下所有样本数据的隶属度都默认赋予1,而对于给定节点N,它的子节点NC的隶属度被递归地定义为:μNC(x)=μN(x)tN(x,γ,δ)式中,x为样本数据,μNC为节点NC的隶属度,μN为节点N的隶属度,tN为对应节点N的测试函数。进一步的,所述数据分析模块根据训练所得的决策树对公积金用户测试数据的细化分类结果由下式所得:式中,x'为测试数据,表示第i个叶节点第c个类别的概率估计,表示第i个叶节点的隶属度,yc表示类别c的概率输出,y表示最大类别的概率输出,C表示类别的数量,leaves表示叶节点集合。一种基于决策树的公积金用户数据细化分析方法,包括以下步骤:步骤A:通过数据采集模块从各终端设备处采集与公积金用户相关的数据信息,识别出实体、实体属性以及实体之间的关系,并消除多源公积金用户数据中存在的冲突;步骤B:通过数据存储模块将冲突消除后得到的实体及实体之间关系转换为关系模型数据,并保存到关系数据库中,形成原始的关系型数据;步骤C:通过数据预处理模块将原始的关系型数据转换为数据分析模块中决策树所使用的特征数据,并以关系型数据库视图的形式存在;步骤D:通过数据分析模块对关系型数据库视图中的用户特征数据进行细化分析,训练生成决策树细化分析模型,而后将公积金用户的测试数据传递给决策树并到达多个叶子节点,最终根据所有叶子节点的估计值给出细化分类的结果;步骤E:通过数据展示模块将细化分类的结果在终端设备上以图表的方式展示给用户。进一步的,所述步骤A中所采集到的数据包括结构化数据、半结构化数据和非结构化数据,可采用实体链接技术从不同的数据源中识别实体及实体之间的关系。进一步的,对于来自不同数据源的实体、实体属性以及实体之间关系通过人工判断识别的方式进行冲突的消除,主要消除属性冲突、名称冲突和结构冲突。进一步的,所述步骤C具体包括:根据不同的应用需求(比如风险控制、客户服务等),确定公积金用户细化分析中决策树所用到的特征属性,建立特征数据与原始关系型数据之间的变换关系(例如,决策树中用到的特征属性是每个客户的年平均收入,而关系型数据库中记录着每个客户每月的收入情况,因此就需要对数据库中的客户数据按年统计每个客户的平均收入,从而建立其特征数据客户年平均收入与关系数据库中客户收入情况的变换关系),并将抽取出的特征数据存入关系数据库视图中。其中特征数据与原始关系型数据的变换过程,一般是对关系数据库中单表或多表连接的数据进行查找、处理和整合,所变换的结果就是其所要抽取的特征数据。对于这种变换,可以编写成一个独立的程序模块来实现,并可将变换规则作为参数传递给该模块,以供给不同的用户使用。为了确保数据库视图中的特征数据是最新的,可以设置一个定时器,不断进行原始关系型数据到特征数据的变换,更新周期可以由用户根据自身需要确定。进一步的,所述步骤D中决策树细化分析模型的训练生成过程具体包括:在生成决策树时,从根节点开始,在样本数据的特征集中选择一个特征进行测试,并根据测试结果将样本数据分配给其子节点,如此递归地对样本数据进行测试并分配,直到到达叶节点,最后将样本数据分配到叶节点。为了从特征集中选择合适的特征,可以使用不同的量化评估标准,比如信息增益、信息增益率、Gini指数等。传统本文档来自技高网...

【技术保护点】
1.一种基于决策树的公积金用户数据细化分析系统,其特征在于,包括:/n数据采集模块,用于从各终端设备处采集与公积金用户相关的数据信息,识别出实体、实体属性以及实体之间的关系,并消除多源公积金用户数据中存在的冲突;/n数据存储模块,用于将冲突消除后得到的实体及实体之间关系转换为关系模型数据,并保存到关系数据库中,形成原始的关系型数据;/n数据预处理模块,用于将原始的关系型数据转换为数据分析模块中决策树所使用的特征数据,并以关系型数据库视图的形式存在;/n数据分析模块,通过决策树对关系型数据库视图中的用户特征数据进行细化分析,训练生成决策树细化分析模型,而后将公积金用户的测试数据传递给决策树并到达多个叶子节点,最终根据所有叶子节点的估计值给出细化分类的结果;/n数据展示模块,用于将细化分类的结果在终端设备上以图表的方式展示给用户。/n

【技术特征摘要】
1.一种基于决策树的公积金用户数据细化分析系统,其特征在于,包括:
数据采集模块,用于从各终端设备处采集与公积金用户相关的数据信息,识别出实体、实体属性以及实体之间的关系,并消除多源公积金用户数据中存在的冲突;
数据存储模块,用于将冲突消除后得到的实体及实体之间关系转换为关系模型数据,并保存到关系数据库中,形成原始的关系型数据;
数据预处理模块,用于将原始的关系型数据转换为数据分析模块中决策树所使用的特征数据,并以关系型数据库视图的形式存在;
数据分析模块,通过决策树对关系型数据库视图中的用户特征数据进行细化分析,训练生成决策树细化分析模型,而后将公积金用户的测试数据传递给决策树并到达多个叶子节点,最终根据所有叶子节点的估计值给出细化分类的结果;
数据展示模块,用于将细化分类的结果在终端设备上以图表的方式展示给用户。


2.根据权利要求1所述的一种基于决策树的公积金用户数据细化分析系统,其特征在于,所述数据分析模块中在生成决策树时,从根节点开始,在样本数据的特征集中选择一个特征进行测试,并根据测试结果将样本数据分配给其子节点,如此递归地对样本数据进行测试并分配,直到到达叶节点,最后将样本数据分配到叶节点。


3.根据权利要求2所述的一种基于决策树的公积金用户数据细化分析系统,其特征在于,所述数据分析模块中将样本数据分配到子节点的过程具体包括:
1)如果所选特征的特征值是离散、有限的,就采用硬分配的方式,即将一个样本数据根据测试的结果只能被分配到其中一个子节点中去;
2)如果所选特征的特征值是有序、连续的,就采用软分配的方式,即将一个样本数据根据测试的结果被分配到一个或多个子节点中去,该测试采用分段线性模糊函数:



式中,x为样本数据,γ和δ取所选特征对应下的数据值的均值和方差;当该函数t的值为1时,样本数据则被分配到左子节点中去;当函数t的值为0时,样本则被分配到右子节点中去;其他情况,则样本被同时分配到左、右两个子节点中去;
3)决策树中所用到的每个样本数据在决策树的相应节点中都会赋予一个隶属度值,表明该样本数据属于该节点下的样本数据集的程度;根节点下所有样本数据的隶属度都默认赋予1,而对于给定节点N,它的子节点NC的隶属度被递归地定义为:
μNC(x)=μN(x)tN(x,γ,δ)
式中,x为样本数据,μNC为节点NC的隶属度,μN为节点N的隶属度,tN为对应节点N的测试函数。


4.根据权利要求3所述的一种基于决策树的公积金用户数据细化分析系统,其特征在于,所述数据分析模块中根据训练所得的决策树对公积金用户测试数据x'的细化分类结果由下式所得:






式中,x'为测试数据,表示第i个叶节点第c个类别的概率估计,表示第i个叶节点的隶属度,yc表示类别c的概率输出,y表示最大类别的概率输出,C表示类别的数量,leaves表示叶节点集合。


5.一种基于决策树的公积金用户数据细化分析方法,其特征在于,包括以下步骤:
步骤A:通过数据采集模块从各终端设备处采集与公积金用户相关的数据信息,识别出实体、实体属性以及实体之间的关系,并消除多源公积金用户数据中存在的冲突;
步骤B:通过数据存储模块将冲突消除后得到的实体...

【专利技术属性】
技术研发人员:李子龙鲍蓉潘晓博
申请(专利权)人:徐州工程学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1