【技术实现步骤摘要】
一种基于决策树的行为规则获取方法、装置及设备
本申请涉及人工智能
,特别是涉及一种基于决策树的行为规则获取方法、装置及设备。
技术介绍
各行各业的人的行为都有一定的行为规则,一些公司为了能够更加准确的了解客户的需求,需要对公司客户的行为规则进行研究。目前,根据人的行为形成的规则的提取,通常采用决策树来进行处理。决策树方法人们把决策问题的自然状态或条件出现的概率、行动方案、益损值、预测结果等,用一个树状图表示出来,并利用该图反映出人们思考、预测、决策的全过程。决策树是一种从无次序、无规则的样本数据集中推理出决策树表示形式的分类规则方法。它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较并根据不同的属性值判断从该节点向下的分支,在决策树的叶节点得到结论。因此从根节点到叶节点的一条路径就对应着一条规则。整棵决策树就对应着一组表达式规则。但是,目前训练决策树通常需将样本集随机拆分为训练集和测试集,而模型准确度受样本影响较大,如果训练集中的样本包含的信息少,则会造成模型较大的误差。
技术实现思路
有鉴于此,本申请提供了一种基于决策树的行为规则获取方法、装置及设备。主要目的在于解决目前训练得到的决策树的准确度受训练样本的影响较大,致使决策树获取的行为规则的误差较大的技术问题。依据本申请的第一方面,提供了一种基于决策树的行为规则获取方法,所述方法的步骤包括:将收集的每个测试人员的特征信息和对应的行为标记代码作为样本集;将所述样本集拆分成训练集和测试集;根据所述训练集生成初级决策树;利用所述初级决策树对所述训练集的特征信息进行训练处理,将所述训练集中每个特征信 ...
【技术保护点】
1.一种基于决策树的行为规则获取方法,其特征在于,所述方法的步骤包括:将收集的每个测试人员的特征信息和对应的行为标记代码作为样本集;将所述样本集拆分成训练集和测试集;根据所述训练集生成初级决策树;利用所述初级决策树对所述训练集的特征信息进行训练处理,将所述训练集中每个特征信息对应的训练结果与对应的行为标记代码进行比对,将不匹配的训练结果按照对应行为标记代码进行修改,完成对所述初级决策树的训练过程;将不匹配的训练结果对应的特征信息筛选出来作为不吻合特征信息,利用所述测试集中的特征信息等量替换训练集中不吻合特征信息,利用替换后的训练集对所述初级决策树进行再次训练过程,并重复等量替换和训练过程,直至筛选出来的不吻合特征信息的数量为0,获取每次重复训练后得到的至少一个决策树模型;从至少一个决策树模型中筛选出一个最终决策树模型;提取所述最终决策树模型中的各个支路,得到与每个支路一一对应的行为规则。
【技术特征摘要】
1.一种基于决策树的行为规则获取方法,其特征在于,所述方法的步骤包括:将收集的每个测试人员的特征信息和对应的行为标记代码作为样本集;将所述样本集拆分成训练集和测试集;根据所述训练集生成初级决策树;利用所述初级决策树对所述训练集的特征信息进行训练处理,将所述训练集中每个特征信息对应的训练结果与对应的行为标记代码进行比对,将不匹配的训练结果按照对应行为标记代码进行修改,完成对所述初级决策树的训练过程;将不匹配的训练结果对应的特征信息筛选出来作为不吻合特征信息,利用所述测试集中的特征信息等量替换训练集中不吻合特征信息,利用替换后的训练集对所述初级决策树进行再次训练过程,并重复等量替换和训练过程,直至筛选出来的不吻合特征信息的数量为0,获取每次重复训练后得到的至少一个决策树模型;从至少一个决策树模型中筛选出一个最终决策树模型;提取所述最终决策树模型中的各个支路,得到与每个支路一一对应的行为规则。2.根据权利要求1所述的行为规则获取方法,其特征在于,所述根据所述训练集生成初级决策树,具体包括:从所述训练集中随机选取至少一个特征信息作为决策节点;为该决策节点随机选取除所述决策节点对应的特征信息之外的至少一个特征信息,作为决策节点的状态节点;将状态节点上特征信息能够出现的至少一种行为状态作为该状态节点的概率枝;将所述决策节点作为根节点、所述状态节点作为分支节点、所述概率枝作为叶节点,生成树状图;对所述树状图进行剪枝处理得到初级决策树。3.根据权利要求2所述的行为规则获取方法,其特征在于,对所述树状图进行剪枝处理得到初级决策树,具体包括:从所述训练集中的特征信息中提取相应的行为状态,其中,特征信息中包括:与每个测试人员相对应的行为状态;获取每个概率枝对应的行为状态,并从所述训练集的行为状态中进行搜寻;将搜索结果为空的概率枝剪掉,得到初级决策树。4.根据权利要求3所述的行为规则获取方法,其特征在于,所述将搜索结果为空的概率枝剪掉,得到初级决策树之后,所述方法还包括:将所述训练集中相同的行为状态归结为一类,为训练集的行为状态进行类别划分,并按照行为状态的类别为训练集的特征信息进行分类;将每个概率枝的行为状态的类别作为概率枝类别;从每个概率枝类别对应的至少一个特征信息中,提取收益值{S1,S2,…,SA}和损失值{Z1,Z2,…,ZB},其中,特征信息中还包括:每个测试人员进行投资的收益值和损失值,A为概率枝类别中收益值的数量,B为概率枝类别中损失值的数量,A+B=训练集中对应概率枝类别的行为状态的总数;计算各个概率枝的收益平均值(S1+S2+…+SA)/A、收益概率损失平均值(Z1+Z2+…+ZB)/B和损失概率根据公式:收益平均值*收益概率-损失平均值*损失概率,计算各个概率枝的收益期望值;将初级决策树中所述收益期望值小于预定期望值的概率枝剪掉,对所述初级决策树进行剪枝处理,得到剪枝后的初级决策树;则利用所述初级决策树对所述训练集的特征信息进行训练处理,具体包括:利用剪枝后的初级决策树对所述训练集的特征信息进行训练...
【专利技术属性】
技术研发人员:金戈,徐亮,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。