一种基于决策树的行为规则获取方法、装置及设备制造方法及图纸

技术编号:21035704 阅读:20 留言:0更新日期:2019-05-04 05:55
本申请属于人工智能领域,公开了一种基于决策树的行为规则获取方法、装置及设备,其中方法包括:将收集的测试人员的特征信息和对应的行为标记代码进行拆分,拆分成两组分别作为训练集和测试集,并根据训练集生成与测试人员所属的领域相同的初级决策树,然后再利用训练集对初级决策树进行训练,每完成一次训练,就将训练过程中训练集的所有不吻合特征信息筛选出来,并从测试集中随机等量的特征信息来进行替换,利用替换后的训练集再次对初级决策树进行训练,并迭代这个过程直至得到的不吻合特征信息的数量为0。这样,即使训练集和测试集的数量相对较少,也能够得到精准的最终决策树模型,使得根据最终决策树模型得到的每个行为规则更精准。

【技术实现步骤摘要】
一种基于决策树的行为规则获取方法、装置及设备
本申请涉及人工智能
,特别是涉及一种基于决策树的行为规则获取方法、装置及设备。
技术介绍
各行各业的人的行为都有一定的行为规则,一些公司为了能够更加准确的了解客户的需求,需要对公司客户的行为规则进行研究。目前,根据人的行为形成的规则的提取,通常采用决策树来进行处理。决策树方法人们把决策问题的自然状态或条件出现的概率、行动方案、益损值、预测结果等,用一个树状图表示出来,并利用该图反映出人们思考、预测、决策的全过程。决策树是一种从无次序、无规则的样本数据集中推理出决策树表示形式的分类规则方法。它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较并根据不同的属性值判断从该节点向下的分支,在决策树的叶节点得到结论。因此从根节点到叶节点的一条路径就对应着一条规则。整棵决策树就对应着一组表达式规则。但是,目前训练决策树通常需将样本集随机拆分为训练集和测试集,而模型准确度受样本影响较大,如果训练集中的样本包含的信息少,则会造成模型较大的误差。
技术实现思路
有鉴于此,本申请提供了一种基于决策树的行为规则获取方法、装置及设备。主要目的在于解决目前训练得到的决策树的准确度受训练样本的影响较大,致使决策树获取的行为规则的误差较大的技术问题。依据本申请的第一方面,提供了一种基于决策树的行为规则获取方法,所述方法的步骤包括:将收集的每个测试人员的特征信息和对应的行为标记代码作为样本集;将所述样本集拆分成训练集和测试集;根据所述训练集生成初级决策树;利用所述初级决策树对所述训练集的特征信息进行训练处理,将所述训练集中每个特征信息对应的训练结果与对应的行为标记代码进行比对,将不匹配的训练结果按照对应行为标记代码进行修改,完成对所述初级决策树的训练过程;将不匹配的训练结果对应的特征信息筛选出来作为不吻合特征信息,利用所述测试集中的特征信息等量替换训练集中不吻合特征信息,利用替换后的训练集对所述初级决策树进行再次训练过程,并重复等量替换和训练过程,直至筛选出来的不吻合特征信息的数量为0,获取每次重复训练后得到的至少一个决策树模型;从至少一个决策树模型中筛选出一个最终决策树模型;提取所述最终决策树模型中的各个支路,得到与每个支路一一对应的行为规则。依据本申请的第二方面,提供了一种基于决策树的行为规则获取装置,所述装置包括:收集单元,用于将收集的每个测试人员的特征信息和对应的行为标记代码作为样本集;拆分单元,用于将所述样本集拆分成训练集和测试集;生成单元,用于根据所述训练集生成初级决策树;训练单元,用于利用所述初级决策树对所述训练集的特征信息进行训练处理,将所述训练集中每个特征信息对应的训练结果与对应的行为标记代码进行比对,将不匹配的训练结果按照对应行为标记代码进行修改,完成对所述初级决策树的训练过程;所述训练单元,还用于将不匹配的训练结果对应的特征信息筛选出来作为不吻合特征信息,利用所述测试集中的特征信息等量替换训练集中不吻合特征信息,利用替换后的训练集对所述初级决策树进行再次训练过程,并重复等量替换和训练过程,直至筛选出来的不吻合特征信息的数量为0,获取每次重复训练后得到的至少一个决策树模型;筛选单元,用于从至少一个决策树模型中筛选出一个最终决策树模型;规则提取单元,用于提取所述最终决策树模型中的各个支路,得到与每个支路一一对应的行为规则。依据本申请的第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的基于决策树的行为规则获取方法的步骤。依据本申请的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的基于决策树的行为规则获取方法的步骤。借由上述技术方案,本申请提供的一种基于决策树的行为规则获取方法、装置及设备,将收集的测试人员的特征信息和对应的行为标记代码进行拆分,拆分成两组分别作为训练集和测试集,并根据训练集生成与测试人员所属的领域相同的初级决策树,然后再利用训练集对初级决策树进行训练,每完成一次训练,就将训练过程中训练集的所有不吻合特征信息筛选出来,并从测试集中随机等量的特征信息来进行替换,利用替换后的训练集再次对初级决策树进行训练,并迭代这个过程直至得到的不吻合特征信息的数量为0。这样能够使训练集和测试集的特征信息进行充分利用,即使训练集和测试集的数量相对较少,也能够得到精准的最终决策树模型,同时还能有效提高根据最终决策树模型得到的每个行为规则的准确率。上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本申请的基于决策树的行为规则获取方法的一个实施例的流程图;图2为本申请的基于决策树的行为规则获取装置的一个实施例的结构框图;图3为本申请的计算机设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本申请实施例提供了一种基于决策树的行为规则获取方法,将训练集中经过训练得到的不吻合特征信息利用测试集进行等量替换,然后再利用替换后的训练集进行再次训练,这样迭代这个过程,得到最终决策树模型更加精确,有效提高根据最终决策树模型得到的每个行为规则的准确率。如图1所示,本申请实施例提供了一种基于决策树的行为规则获取方法,步骤包括:步骤101,将收集的每个测试人员的特征信息和对应的行为标记代码作为样本集。步骤102,将样本集拆分成训练集和测试集。在上述步骤中,当某公司(例如,银行、保险公司、金融理财公司、房地产公司、软件开发公司等)想要对客户的行为规则进行研究,分析出客户的需求,并根据客户的需求制定一些发展计划时。需要收集公司客户(即,测试人员)的特征信息,以及对应的行为标记代码,并将客户姓名、特征信息和行为标记代码进行关联,并列表存储。其中,特征信息包括:心理状态、健康状态、消费习惯、兴趣偏好、购买产品,以及得到的收益值和损失值。行为标记代码,是根据每个测试人员的行为得出的行为结论,并将该结论利用代码的形式表示出来。例如,行为结论是高风险大额投保客户对应的行为标记代码为4,低风险大额投保客户对应的行为标记代码为3,高风险小额投保客户对应的行为标记代码为2,低风险小额投保客户对应的行为标记代码为1。另外,测试人员还可以是公司的员工,对应的特征信息包括:教育水平、工资收入、工作岗位、性别、年龄以及对当前岗位的满意度和不满意度(与收益值和损失值等价)等,对应的行为标记代码为:是绩优员工为1,非绩优员工为0。特征信息的选取内容以及行为标记代码的数值可以根据实际情本文档来自技高网...

【技术保护点】
1.一种基于决策树的行为规则获取方法,其特征在于,所述方法的步骤包括:将收集的每个测试人员的特征信息和对应的行为标记代码作为样本集;将所述样本集拆分成训练集和测试集;根据所述训练集生成初级决策树;利用所述初级决策树对所述训练集的特征信息进行训练处理,将所述训练集中每个特征信息对应的训练结果与对应的行为标记代码进行比对,将不匹配的训练结果按照对应行为标记代码进行修改,完成对所述初级决策树的训练过程;将不匹配的训练结果对应的特征信息筛选出来作为不吻合特征信息,利用所述测试集中的特征信息等量替换训练集中不吻合特征信息,利用替换后的训练集对所述初级决策树进行再次训练过程,并重复等量替换和训练过程,直至筛选出来的不吻合特征信息的数量为0,获取每次重复训练后得到的至少一个决策树模型;从至少一个决策树模型中筛选出一个最终决策树模型;提取所述最终决策树模型中的各个支路,得到与每个支路一一对应的行为规则。

【技术特征摘要】
1.一种基于决策树的行为规则获取方法,其特征在于,所述方法的步骤包括:将收集的每个测试人员的特征信息和对应的行为标记代码作为样本集;将所述样本集拆分成训练集和测试集;根据所述训练集生成初级决策树;利用所述初级决策树对所述训练集的特征信息进行训练处理,将所述训练集中每个特征信息对应的训练结果与对应的行为标记代码进行比对,将不匹配的训练结果按照对应行为标记代码进行修改,完成对所述初级决策树的训练过程;将不匹配的训练结果对应的特征信息筛选出来作为不吻合特征信息,利用所述测试集中的特征信息等量替换训练集中不吻合特征信息,利用替换后的训练集对所述初级决策树进行再次训练过程,并重复等量替换和训练过程,直至筛选出来的不吻合特征信息的数量为0,获取每次重复训练后得到的至少一个决策树模型;从至少一个决策树模型中筛选出一个最终决策树模型;提取所述最终决策树模型中的各个支路,得到与每个支路一一对应的行为规则。2.根据权利要求1所述的行为规则获取方法,其特征在于,所述根据所述训练集生成初级决策树,具体包括:从所述训练集中随机选取至少一个特征信息作为决策节点;为该决策节点随机选取除所述决策节点对应的特征信息之外的至少一个特征信息,作为决策节点的状态节点;将状态节点上特征信息能够出现的至少一种行为状态作为该状态节点的概率枝;将所述决策节点作为根节点、所述状态节点作为分支节点、所述概率枝作为叶节点,生成树状图;对所述树状图进行剪枝处理得到初级决策树。3.根据权利要求2所述的行为规则获取方法,其特征在于,对所述树状图进行剪枝处理得到初级决策树,具体包括:从所述训练集中的特征信息中提取相应的行为状态,其中,特征信息中包括:与每个测试人员相对应的行为状态;获取每个概率枝对应的行为状态,并从所述训练集的行为状态中进行搜寻;将搜索结果为空的概率枝剪掉,得到初级决策树。4.根据权利要求3所述的行为规则获取方法,其特征在于,所述将搜索结果为空的概率枝剪掉,得到初级决策树之后,所述方法还包括:将所述训练集中相同的行为状态归结为一类,为训练集的行为状态进行类别划分,并按照行为状态的类别为训练集的特征信息进行分类;将每个概率枝的行为状态的类别作为概率枝类别;从每个概率枝类别对应的至少一个特征信息中,提取收益值{S1,S2,…,SA}和损失值{Z1,Z2,…,ZB},其中,特征信息中还包括:每个测试人员进行投资的收益值和损失值,A为概率枝类别中收益值的数量,B为概率枝类别中损失值的数量,A+B=训练集中对应概率枝类别的行为状态的总数;计算各个概率枝的收益平均值(S1+S2+…+SA)/A、收益概率损失平均值(Z1+Z2+…+ZB)/B和损失概率根据公式:收益平均值*收益概率-损失平均值*损失概率,计算各个概率枝的收益期望值;将初级决策树中所述收益期望值小于预定期望值的概率枝剪掉,对所述初级决策树进行剪枝处理,得到剪枝后的初级决策树;则利用所述初级决策树对所述训练集的特征信息进行训练处理,具体包括:利用剪枝后的初级决策树对所述训练集的特征信息进行训练...

【专利技术属性】
技术研发人员:金戈徐亮肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1