决策树生成装置、决策树生成方法、非暂时性记录介质以及提问系统制造方法及图纸

技术编号：17032819 阅读：21 留言：0更新日期：2018-01-13 19:20

提供一种能够生成即使在用户自身的回答发生错误的情况下也能够削减对用户的必要的提问次数的决策树的决策树生成装置、决策树生成方法、非暂时性记录介质以及提问系统。决策树生成装置具备：信息增益算出部，在以决策树的形式将分类对象数据集合分阶段地分割为部分集合时，基于熵的减少量和可靠度，按每个属性算出利用该属性的属性值将分割前的数据集合分割时的信息增益；决策树制作部，通过递归地反复进行利用具有按每个属性算出的多个信息增益中的最大的信息增益的属性的属性值将分割前的数据集合分割的处理，将具有最大的信息增益的属性依次决定为决策树的节点，并且向该节点的边依次分配该属性的属性值，制作用于决定提问的顺序的决策树。

全部详细技术资料下载

【技术实现步骤摘要】
决策树生成装置、决策树生成方法、非暂时性记录介质以及提问系统
本公开涉及生成决策树的决策树生成装置、决策树生成方法、非暂时性记录介质以及提问系统，所述决策树用于决定通过对话向用户进行提问并根据提问的回答结果对分类结果的候选进行缩减时的提问的顺序，所述提问系统使用由该决策树生成装置生成的决策树进行提问并根据用户对提问的回答生成分类结果。
技术介绍
存在如下现有技术，该现有技术用于构成决策树，以使得：在通过对话向用户进行多次提问并对与用户的回答结果最适合的分类结果进行缩减时，提问次数尽可能变少，或候选缩减的错误尽可能变少(例如专利文献1、专利文献2、专利文献3)。具体而言，在专利文献1中，公开了如下方法：在向决策树的输入包含错误的情况下，生成多个决策树，从利用各个决策树缩减而成的多个结果中，采用被推定为错误最少的缩减结果。在专利文献2中，公开了如下方法：考虑利用决策树的缩减结果为错误的情况下的严重性来生成决策树。在专利文献3中，公开了如下方法：考虑决策树的输入包括由语音识别导致的错误的可能性来生成决策树。然而，根据现有技术，由于无法考虑用户自身对提问的回答发生错误的可能性来生成决策树，所以无法决定适当的提问顺序。因此，现有技术需要进一步的改善。在先技术文献专利文献专利文献1：日本特开2000-112936号公报专利文献2：日本特开2007-334589号公报专利文献3：日本特开2003-255992号公报
技术实现思路
本公开的一个技术方案涉及的决策树生成装置具备：信息增益算出部，在以决策树的形式将包含对相互不同的多个属性中的每一个分配了属性值而成的多个分类对象数...
决策树生成装置、决策树生成方法、非暂时性记录介质以及提问系统

【技术保护点】
一种决策树生成装置，具备：信息增益算出部，在以决策树的形式将包含对相互不同的多个属性中的每一个分配了属性值而成的多个分类对象数据的分类对象数据集合分阶段地分割为部分集合时，按分割前的数据集合所包含的所述分类对象数据的每个所述属性，算出由分割导致的数据集合的熵的减少量，基于所述熵的减少量和可靠度，按每个所述属性算出利用该属性的属性值将所述分割前的数据集合分割时的信息增益，所述可靠度是表示用户对询问所述属性的提问的回答的准确性或不准确性的指标；和决策树制作部，通过递归地反复进行利用具有按每个所述属性算出的多个信息增益中的最大的信息增益的属性的属性值将所述分割前的数据集合分割的处理，从而将具有所述最大的信息增益的属性依次决定为决策树的节点，并且向该节点的边依次分配具有所述最大的信息增益的属性的属性值，制作用于决定提问的顺序的决策树，所述提问是为了将所述多个分类对象数据分类而询问所述多个属性中的每一个的提问。

【技术特征摘要】
2016.07.04 JP 2016-1327071.一种决策树生成装置，具备：信息增益算出部，在以决策树的形式将包含对相互不同的多个属性中的每一个分配了属性值而成的多个分类对象数据的分类对象数据集合分阶段地分割为部分集合时，按分割前的数据集合所包含的所述分类对象数据的每个所述属性，算出由分割导致的数据集合的熵的减少量，基于所述熵的减少量和可靠度，按每个所述属性算出利用该属性的属性值将所述分割前的数据集合分割时的信息增益，所述可靠度是表示用户对询问所述属性的提问的回答的准确性或不准确性的指标；和决策树制作部，通过递归地反复进行利用具有按每个所述属性算出的多个信息增益中的最大的信息增益的属性的属性值将所述分割前的数据集合分割的处理，从而将具有所述最大的信息增益的属性依次决定为决策树的节点，并且向该节点的边依次分配具有所述最大的信息增益的属性的属性值，制作用于决定提问的顺序的决策树，所述提问是为了将所述多个分类对象数据分类而询问所述多个属性中的每一个的提问。2.根据权利要求1所述的决策树生成装置，还具备可靠度算出部，所述可靠度算出部根据用户回答实例数据，按每个所述属性算出所述可靠度，所述用户回答实例数据包括用户对询问所述属性的提问的回答的正确回答和错误回答的实例，所述信息增益算出部基于由所述可靠度算出部算出的可靠度和所述熵的减少量，按每个所述属性算出利用该属性的属性值将所述分割前的数据集合分割时的信息增益。3.根据权利要求1或2所述的决策树生成装置，所述可靠度包含用户对询问所述属性的提问的回答的正确率，所述信息增益算出部通过将所述正确率乘以所述熵的减少量，从而算出所述信息增益。4.根据权利要求3所述的决策树生成装置，所述用户回答实例数据还包含到用户回答提问为止的回答时间，所述正确率包含根据所述回答时间与所述正确率的相关关系求出的用户的相对于平均回答时间的正确率，所述信息增益算出部通过将相对于所述平均回答时间的正确率乘以所述熵的减少量，从而算出所述信息增益。5.根据权利要求1或2所述的决策树生成装置，所述可靠度包含对于询问预定属性的提问得到成为回答的预定属性值时的带条件的熵，所述信息增益算出部通过从所述熵的减少量减去所述带条件的熵，从而算出所述信息增益。6.根据权利要求2～5中任一项所述的决策树生成装置，所述用户回答实例数据还包含表示用户的属性的用户信息，所述可靠度算出部按每个所述用户的属性，根据所述用户回答实例数据按每个所述属性算出所述可靠度，所述信息增益算出部基于所述可靠度和所述熵的减少量，按每个所述用户的属性算出所述信息增益。7.根据权利要求1所述的决策树生成装置，所述决策树制作部根据所述多个分类对象数据制作一个决策树。8.根据权利要求1所述的决策树生成装置，所述决策树制作部进行如下处理：将所述分类对象数据集合设定为所述分割前的数据集合的初始值，使所述信息增益算出部按每个所述属性算出利用该属性的属性值将所述设定的分割前的数据集合分割为多个部分集合时的所述信息增益，将具有所述最大的信息增益的属性决定为将所述设定的分割前的数据集合分割的节点，利用具有所述最大的...

【专利技术属性】
技术研发人员：山上胜义，远藤充，
申请(专利权)人：松下知识产权经营株式会社，
类型：发明
国别省市：日本,JP

全部详细技术资料下载我是这个专利的主人