一种改进CART决策树生成的方法、系统和设备技术方案

技术编号:29764388 阅读:25 留言:0更新日期:2021-08-20 21:18
本申请涉及一种改进CART决策树生成的方法、系统和设备,其中,该方法包括:通过对预设阈值进行转换计算得到停止条件,根据每一个样本特征对预设样本数据集进行读取和统计,并将若干统计结果进行保存;根据统计结果进行简化计算,得到样本特征的基尼指数增益,根据基尼指数增益和停止条件,判断是否满足划分条件,若不满足,则停止预设样本数据集的计算;若满足,则将预设样本数据集划分成两个子数据集,并将其设为预设样本数据集,继续计算,直至生成CART决策树,通过本申请,解决了基于TCP/IP协议的网络数据传输存在着高延迟、丢包的问题,实现了简化基尼指数增益的计算复杂度,保证了数据实时传输的质量和效率。

【技术实现步骤摘要】
一种改进CART决策树生成的方法、系统和设备
本申请涉及通信网络传输领域,特别是涉及一种改进CART决策树生成的方法、系统和设备。
技术介绍
在万物互联的时代,大数据处理需求对传输质量和安全性提出更高要求。目前,一般的TCP/IP协议的互联网数据传输,TCP在发送一个数据包后,即启动一个重传定时器,同时将该包的放入一个重传队列中。如果收到该包的确认信息,即取消该定时器。否则,如果在定时器到时后仍未收到确认信息,则认为该包已经丢失,于是从重传队列中取出该包,再启动一次发送(同样要启动定时器),然而基于重传定时器的互联网数据传输过程中存在的高延时、丢包、拥塞会造成数据的传输质量和传输效率下降,经常性的因为各种网络问题造成数据的丢包,已然成为影响音视频直播、游戏等众多应用客户体验的主要因素。目前针对相关技术中基于TCP/IP协议的网络数据传输存在着高延迟、丢包的问题,尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种改进CART决策树生成的方法、系统和设备,以至少解决相关技术中基于TCP/IP协议的网络数据传输存在着高延迟、丢包的问题。第一方面,本申请实施例提供了一种改进CART决策树生成的方法,所述方法包括:获取用于训练决策树的预设样本数据集,其中,所述预设样本数据集包含若干样本特征;重复执行预设步骤,所述预设步骤包括:根据所述预设样本数据集,对预设阈值进行转换计算得到停止条件;根据所述预设样本数据集中的每一个样本特征,并行地对所述预设样本数据集进行读取和统计,并将若干统计结果进行保存;根据所述统计结果,通过所述预设样本数据集的基尼指数Gini(D)和所述样本特征的基尼指数Gini(D,A)进行简化计算,得到所述样本特征的基尼指数增益;从若干所述样本特征的基尼指数增益中选取出划分基尼指数增益;根据所述划分基尼指数增益和所述停止条件,判断是否满足划分条件;若不满足,则停止所述预设样本数据集的计算,并直到所有预设样本数据集的计算停止后,生成CART决策树;若满足,则根据最优特征和最优切分点,将预设样本数据集划分成第一子样本数据集和第二子样本数据集,并分别将所述第一子样本数据集和第二子样本数据设为预设样本数据集。在其中一些实施例中,通过所述预设样本数据集的基尼指数Gini(D)和所述样本特征的基尼指数Gini(D,A)进行简化计算,得到基尼指数增益包括:通过所述预设基尼指数Gini(D)和所述样本特征的基尼指数Gini(D,A)进行计算,得到所述样本特征的基尼指数增益Gain=Gini(D)-Gini(D,A),即,根据公式化简得到,根据在每次进行分类前N和S都为常数,对所述化简得到的公式进行进一步简化,得到基尼指数增益为,其中,N是所述预设样本数据集中的样本数据个数,S是N中正标签的样本数据个数,Nl是N中切分点左边的样本数据个数,Nr是N中切分点右边的样本数据个数,Sl是Nl中正标签的样本数据个数,Sr是Nr中正标签的样本数据个数。在其中一些实施例中,所述预设样本数据集的基尼指数Gini(D)包括:所述预设样本数据集的预设基尼指数Gini(D),根据所述预设样本数据集中正标签的样本数据个数,通过公式得到,其中,N是所述预设样本数据集中的样本数据个数,S是N中正标签的样本数据个数。在其中一些实施例中,所述样本特征的基尼指数Gini(D,A)包括:所述样本特征的基尼指数Gini(D,A),分别选取所述预设样本数据集中的样本特征和切分点,通过公式得到,其中,N是所述预设样本数据集中的样本数据个数,Nl是N中切分点左边的样本数据个数,Nr是N中切分点右边的样本数据个数,Sl是Nl中正标签的样本数据个数,Sr是Nr中正标签的样本数据个数。在其中一些实施例中,根据所述划分基尼指数增益和所述停止条件,判断是否满足划分条件包括:判断所述划分基尼指数增益是否大于所述停止条件,若是,则满足划分条件,若否,则不满足划分条件。在其中一些实施例中,在生成CART决策树后,所述方法还包括:根据若干所述CART决策树生成随机森林,通过所述随机森林预判网络数据传输中数据是否丢包,提前重发预判丢包数据。第二方面,本申请实施例提供了一种改进CART决策树生成的系统,所述系统包括样本控制单元、样本统计单元、存储单元、计算单元、比较判断单元和样本分类单元,其中,所述系统具有多个所述样本统计单元;所述样本控制单元用于获取和控制训练决策树所需的预设样本数据集;所述样本统计单元用于分别根据所述预设样本数据集中的若干样本特征,读取和统计所述预设样本数据集;所述存储单元用于接收和存储所述样本统计单元输出的统计结果;所述计算单元用于根据所述统计结果,通过所述预设样本数据集的基尼指数Gini(D)和所述样本特征的基尼指数Gini(D,A)进行简化计算,得到所述样本特征的基尼指数增益,以及计算停止条件;所述比较判断单元用于选出划分基尼指数增益,并判断是否满足划分条件;所述样本分类单元用于根据所述比较判断单元的判断对预设样本数据集进行分类。在其中一些实施例中,所述样本统计单元用于分别根据所述预设样本数据集中的若干样本特征,读取和统计所述预设样本数据集包括:每一个样本统计单元用于根据一个样本特征对所述预设样本数据集进行读取和统计,通过多个样本统计单元根据多个样本特征,并行地对所述预设样本数据集中的进行读取和统计;并将读取统计得到若干统计结果保存在所述存储单元中。在其中一些实施例中,所述样本控制单元用于控制训练决策树所需的预设样本数据集包括:所述样本控制单元用于在存在空闲样本统计单元的情况下,根据样本特征控制所述样本统计单元读取和统计预设样本数据集。第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的改进CART决策树生成的方法。相比于相关技术,本申请实施例提供的一种改进CART决策树生成的方法、系统和设备,通过获取用于训练决策树的预设样本数据集,根据预设样本数据集,对预设阈值进行转换计算得到停止条件,根据预设样本数据集中的每一个样本特征,并行地对预设样本数据集进行读取和统计,并将若干统计结果进行保存;根据统计结果,通过预设样本数据集的基尼指数和样本特征的基尼指数进行简化计算,得到样本特征的基尼指数增益,从若干样本特征的基尼指数增益中选取出划分基尼指数增益,根据划分基尼指数增益和停止条件,判断是否满足划分条件,若不满足,则停止预设样本数据集的计算;若满足,则根据最优特征和最优切分点,将预设样本数据集划分成第一子样本数据集和第二子样本数据集,并分别将第一子样本数据集和第二子样本数据设为预设样本数据集,继续计算,直本文档来自技高网...

【技术保护点】
1.一种改进CART决策树生成的方法,其特征在于,所述方法包括:/n获取用于训练决策树的预设样本数据集,其中,所述预设样本数据集包含若干样本特征;/n重复执行预设步骤,所述预设步骤包括:/n根据所述预设样本数据集,对预设阈值进行转换计算得到停止条件;/n根据所述预设样本数据集中的每一个样本特征,并行地对所述预设样本数据集进行读取和统计,并将若干统计结果进行保存;/n根据所述统计结果,通过所述预设样本数据集的基尼指数Gini(D)和所述样本特征的基尼指数Gini(D,A) 进行简化计算,得到所述样本特征的基尼指数增益;/n从若干所述样本特征的基尼指数增益中选取出划分基尼指数增益;/n根据所述划分基尼指数增益和所述停止条件,判断是否满足划分条件;/n若不满足,则停止所述预设样本数据集的计算,并直到所有预设样本数据集的计算停止后,生成CART决策树;/n若满足,则根据最优特征和最优切分点,将预设样本数据集划分成第一子样本数据集和第二子样本数据集,并分别将所述第一子样本数据集和第二子样本数据设为预设样本数据集。/n

【技术特征摘要】
1.一种改进CART决策树生成的方法,其特征在于,所述方法包括:
获取用于训练决策树的预设样本数据集,其中,所述预设样本数据集包含若干样本特征;
重复执行预设步骤,所述预设步骤包括:
根据所述预设样本数据集,对预设阈值进行转换计算得到停止条件;
根据所述预设样本数据集中的每一个样本特征,并行地对所述预设样本数据集进行读取和统计,并将若干统计结果进行保存;
根据所述统计结果,通过所述预设样本数据集的基尼指数Gini(D)和所述样本特征的基尼指数Gini(D,A)进行简化计算,得到所述样本特征的基尼指数增益;
从若干所述样本特征的基尼指数增益中选取出划分基尼指数增益;
根据所述划分基尼指数增益和所述停止条件,判断是否满足划分条件;
若不满足,则停止所述预设样本数据集的计算,并直到所有预设样本数据集的计算停止后,生成CART决策树;
若满足,则根据最优特征和最优切分点,将预设样本数据集划分成第一子样本数据集和第二子样本数据集,并分别将所述第一子样本数据集和第二子样本数据设为预设样本数据集。


2.根据权利要求1所述的方法,其特征在于,通过所述预设样本数据集的基尼指数Gini(D)和所述样本特征的基尼指数Gini(D,A)进行简化计算,得到基尼指数增益包括:
通过所述预设基尼指数Gini(D)和所述样本特征的基尼指数Gini(D,A)进行计算,得到
所述样本特征的基尼指数增益Gain=Gini(D)-Gini(D,A),即,根据公式化
简得到,根据在每次进行分类前N和S都为常
数,对所述化简得到的公式进行进一步简化,得到基尼指数增益为,其中,N是所述预设样本数据集中的样本数据个数,S是
N中正标签的样本数据个数,Nl是N中切分点左边的样本数据个数,Nr是N中切分点右边的样
本数据个数,Sl是Nl中正标签的样本数据个数,Sr是Nr中正标签的样本数据个数。


3.根据权利要求1所述的方法,其特征在于,所述预设样本数据集的基尼指数Gini(D)包括:
所述预设样本数据集的预设基尼指数Gini(D),根据所述预设样本数据集中正标签的
样本数据个数,通过公式得到,其中,N是所述预设样本数据集中的样
本数据个数,S是N中正标签的样本数据个数。


4.根据权利要求1所述的方法,其特征在于,所述样本特征的基尼指数Gini(D,A)包括:
所述样本特征的基尼指数Gini(D,A),分别选取所述预设样本数据集中的样本特征和
切分点,通过公式得到,其中,N是所述预
设样本数据集...

【专利技术属性】
技术研发人员:苑志超朱剑飞刘奎
申请(专利权)人:灵长智能科技杭州有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1