【技术实现步骤摘要】
一种改进CART决策树生成的方法、系统和设备
本申请涉及通信网络传输领域,特别是涉及一种改进CART决策树生成的方法、系统和设备。
技术介绍
在万物互联的时代,大数据处理需求对传输质量和安全性提出更高要求。目前,一般的TCP/IP协议的互联网数据传输,TCP在发送一个数据包后,即启动一个重传定时器,同时将该包的放入一个重传队列中。如果收到该包的确认信息,即取消该定时器。否则,如果在定时器到时后仍未收到确认信息,则认为该包已经丢失,于是从重传队列中取出该包,再启动一次发送(同样要启动定时器),然而基于重传定时器的互联网数据传输过程中存在的高延时、丢包、拥塞会造成数据的传输质量和传输效率下降,经常性的因为各种网络问题造成数据的丢包,已然成为影响音视频直播、游戏等众多应用客户体验的主要因素。目前针对相关技术中基于TCP/IP协议的网络数据传输存在着高延迟、丢包的问题,尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种改进CART决策树生成的方法、系统和设备,以至少解决相关技术中基于TCP/IP协议的网络数据传输存在着高延迟、丢包的问题。第一方面,本申请实施例提供了一种改进CART决策树生成的方法,所述方法包括:获取用于训练决策树的预设样本数据集,其中,所述预设样本数据集包含若干样本特征;重复执行预设步骤,所述预设步骤包括:根据所述预设样本数据集,对预设阈值进行转换计算得到停止条件;根据所述预设样本数据集中的每一个样本特征,并行地对所述预设样本数 ...
【技术保护点】
1.一种改进CART决策树生成的方法,其特征在于,所述方法包括:/n获取用于训练决策树的预设样本数据集,其中,所述预设样本数据集包含若干样本特征;/n重复执行预设步骤,所述预设步骤包括:/n根据所述预设样本数据集,对预设阈值进行转换计算得到停止条件;/n根据所述预设样本数据集中的每一个样本特征,并行地对所述预设样本数据集进行读取和统计,并将若干统计结果进行保存;/n根据所述统计结果,通过所述预设样本数据集的基尼指数Gini(D)和所述样本特征的基尼指数Gini(D,A) 进行简化计算,得到所述样本特征的基尼指数增益;/n从若干所述样本特征的基尼指数增益中选取出划分基尼指数增益;/n根据所述划分基尼指数增益和所述停止条件,判断是否满足划分条件;/n若不满足,则停止所述预设样本数据集的计算,并直到所有预设样本数据集的计算停止后,生成CART决策树;/n若满足,则根据最优特征和最优切分点,将预设样本数据集划分成第一子样本数据集和第二子样本数据集,并分别将所述第一子样本数据集和第二子样本数据设为预设样本数据集。/n
【技术特征摘要】
1.一种改进CART决策树生成的方法,其特征在于,所述方法包括:
获取用于训练决策树的预设样本数据集,其中,所述预设样本数据集包含若干样本特征;
重复执行预设步骤,所述预设步骤包括:
根据所述预设样本数据集,对预设阈值进行转换计算得到停止条件;
根据所述预设样本数据集中的每一个样本特征,并行地对所述预设样本数据集进行读取和统计,并将若干统计结果进行保存;
根据所述统计结果,通过所述预设样本数据集的基尼指数Gini(D)和所述样本特征的基尼指数Gini(D,A)进行简化计算,得到所述样本特征的基尼指数增益;
从若干所述样本特征的基尼指数增益中选取出划分基尼指数增益;
根据所述划分基尼指数增益和所述停止条件,判断是否满足划分条件;
若不满足,则停止所述预设样本数据集的计算,并直到所有预设样本数据集的计算停止后,生成CART决策树;
若满足,则根据最优特征和最优切分点,将预设样本数据集划分成第一子样本数据集和第二子样本数据集,并分别将所述第一子样本数据集和第二子样本数据设为预设样本数据集。
2.根据权利要求1所述的方法,其特征在于,通过所述预设样本数据集的基尼指数Gini(D)和所述样本特征的基尼指数Gini(D,A)进行简化计算,得到基尼指数增益包括:
通过所述预设基尼指数Gini(D)和所述样本特征的基尼指数Gini(D,A)进行计算,得到
所述样本特征的基尼指数增益Gain=Gini(D)-Gini(D,A),即,根据公式化
简得到,根据在每次进行分类前N和S都为常
数,对所述化简得到的公式进行进一步简化,得到基尼指数增益为,其中,N是所述预设样本数据集中的样本数据个数,S是
N中正标签的样本数据个数,Nl是N中切分点左边的样本数据个数,Nr是N中切分点右边的样
本数据个数,Sl是Nl中正标签的样本数据个数,Sr是Nr中正标签的样本数据个数。
3.根据权利要求1所述的方法,其特征在于,所述预设样本数据集的基尼指数Gini(D)包括:
所述预设样本数据集的预设基尼指数Gini(D),根据所述预设样本数据集中正标签的
样本数据个数,通过公式得到,其中,N是所述预设样本数据集中的样
本数据个数,S是N中正标签的样本数据个数。
4.根据权利要求1所述的方法,其特征在于,所述样本特征的基尼指数Gini(D,A)包括:
所述样本特征的基尼指数Gini(D,A),分别选取所述预设样本数据集中的样本特征和
切分点,通过公式得到,其中,N是所述预
设样本数据集...
【专利技术属性】
技术研发人员:苑志超,朱剑飞,刘奎,
申请(专利权)人:灵长智能科技杭州有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。