决策树生成装置、决策树生成方法、非暂时性记录介质以及提问系统制造方法及图纸

技术编号:17032819 阅读:21 留言:0更新日期:2018-01-13 19:20
提供一种能够生成即使在用户自身的回答发生错误的情况下也能够削减对用户的必要的提问次数的决策树的决策树生成装置、决策树生成方法、非暂时性记录介质以及提问系统。决策树生成装置具备:信息增益算出部,在以决策树的形式将分类对象数据集合分阶段地分割为部分集合时,基于熵的减少量和可靠度,按每个属性算出利用该属性的属性值将分割前的数据集合分割时的信息增益;决策树制作部,通过递归地反复进行利用具有按每个属性算出的多个信息增益中的最大的信息增益的属性的属性值将分割前的数据集合分割的处理,将具有最大的信息增益的属性依次决定为决策树的节点,并且向该节点的边依次分配该属性的属性值,制作用于决定提问的顺序的决策树。

【技术实现步骤摘要】
决策树生成装置、决策树生成方法、非暂时性记录介质以及提问系统
本公开涉及生成决策树的决策树生成装置、决策树生成方法、非暂时性记录介质以及提问系统,所述决策树用于决定通过对话向用户进行提问并根据提问的回答结果对分类结果的候选进行缩减时的提问的顺序,所述提问系统使用由该决策树生成装置生成的决策树进行提问并根据用户对提问的回答生成分类结果。
技术介绍
存在如下现有技术,该现有技术用于构成决策树,以使得:在通过对话向用户进行多次提问并对与用户的回答结果最适合的分类结果进行缩减时,提问次数尽可能变少,或候选缩减的错误尽可能变少(例如专利文献1、专利文献2、专利文献3)。具体而言,在专利文献1中,公开了如下方法:在向决策树的输入包含错误的情况下,生成多个决策树,从利用各个决策树缩减而成的多个结果中,采用被推定为错误最少的缩减结果。在专利文献2中,公开了如下方法:考虑利用决策树的缩减结果为错误的情况下的严重性来生成决策树。在专利文献3中,公开了如下方法:考虑决策树的输入包括由语音识别导致的错误的可能性来生成决策树。然而,根据现有技术,由于无法考虑用户自身对提问的回答发生错误的可能性来生成决策树,所以无法决定适当的提问顺序。因此,现有技术需要进一步的改善。在先技术文献专利文献专利文献1:日本特开2000-112936号公报专利文献2:日本特开2007-334589号公报专利文献3:日本特开2003-255992号公报
技术实现思路
本公开的一个技术方案涉及的决策树生成装置具备:信息增益算出部,在以决策树的形式将包含对相互不同的多个属性中的每一个分配了属性值而成的多个分类对象数据的分类对象数据集合分阶段地分割为部分集合时,按分割前的数据集合所包含的所述分类对象数据的每个所述属性,算出由分割导致的数据集合的熵的减少量,基于所述熵的减少量和可靠度,按每个所述属性算出利用该属性的属性值将所述分割前的数据集合分割时的信息增益,所述可靠度是表示用户对询问所述属性的提问的回答的准确性或不准确性的指标;和决策树制作部,通过递归地反复进行利用具有按每个所述属性算出的多个信息增益中的最大的信息增益的属性的属性值将所述分割前的数据集合分割的处理,从而将具有所述最大的信息增益的属性依次决定作为决策树的节点,并且向该节点的边依次分配具有所述最大的信息增益的属性的属性值,制作用于决定提问的顺序的决策树,所述提问是为了将所述多个分类对象数据分类而询问所述多个属性中的每一个的提问。根据本公开,能够生成决策树,所述决策树在通过对话向用户进行提问并根据提问的回答结果缩减分类结果的候选时,即使在用户自身的回答发生错误的情况下也能够削减对用户的必要的提问次数。附图说明图1是表示本公开的一实施方式中的决策树生成装置的构成的一例的框图。图2是表示分类对象数据的一例的图。图3是表示图1所示的决策树生成装置的用户回答可靠度算出部算出的用户回答的可靠度的一例的图。图4是表示由图1所示的决策树生成装置实现的、考虑用户回答的可靠度并生成决策树的处理的一例的流程图。图5是表示在图4所示的决策树的生成处理之中,决定分配给决策树的节点的属性的处理的一例的流程图。图6是表示由图1所示的决策树生成装置生成的决策树的一例的图。图7是表示不使用用户回答的可靠度而仅使用熵减少量算出信息增益而生成的决策树的一例的图。图8是表示使用了由本公开的一实施例的形态中的决策树生成装置生成的决策树的、问诊对话系统的构成的一例的图。图9是表示图8所示的问诊对话系统的提问顺序存储部所存储的决策树的一例的图。图10是表示将图9所示的决策树存储在图8所示的问诊对话系统的提问顺序存储部中时的决策树的数据结构的一例的图。图11是表示图8所示的问诊对话系统的工作的流程的一例的流程图。图12是表示在图8所示的问诊对话系统中进行对话时的显示部的显示内容的一例的图。图13是表示使用了由本公开的一实施例的形态中的决策树生成装置生成的决策树的、其他问诊对话系统的构成的一例的图。图14是表示图13所示的问诊对话系统的决策树节点历史存储部所存储的决策树节点的历史信息的一例的图。图15是表示图13所示的问诊对话系统的工作的流程的一例的一部分的流程图。图16是表示图13所示的问诊对话系统的工作的流程的一例的剩余部分的流程图。标号说明11决策树制作部12信息增益算出部13用户回答可靠度算出部14分类对象数据存储部15用户回答事例数据存储部16提问顺序决定结果存储部501语音输入部502语音识别部503语言理解部504、504A用户回答结果处理部505提问顺序存储部506当前决策树节点存储部507、507A问诊控制部508语言生成部509语音合成部510语音输出部511显示部512决策树节点历史存储部具体实施方式(成为本公开的基础的见解)根据上述现有技术的提问顺序的决定方法均基于利用决策树进行多个数据的分类的思路。决策树用于在多个分类对象数据具有多个属性,且向各个分类对象数据的各属性分配了属性值的情况下,决定以怎样的顺序检查多个属性并利用属性值分类下去的顺序。作为某属性的属性值,通常存在多个不同的值,因此利用上述属性的分类的顺序构成树结构。因此,决定利用属性进行的分类的顺序的结果被称为决策树。因此,通过将检查的属性理解为提问,能够将决策树用于提问顺序的决定。另外,为了决定决策树中的属性检查的顺序,使用了信息增益这一计算量。信息增益定义为:在基于与某属性相关的属性值是什么来将分类对象数据集合分割为部分集合的情况下,从分割前的分类对象数据集合的熵减去分割后的各部分集合的熵之和得到的值。在这里,分类对象数据集合的熵是指,与分类对象数据集合所包含的分类对象数据被分类到哪个类别的概率分布相关的信息熵。作为信息熵的性质,概率分布越接近均匀的分布,信息熵的值就变得越大;概率分布的偏差越大,换句话说,特定的概率事件的概率越大,其他概率事件的概率越小,则信息熵的值就变得越小。因此,分类对象数据集合所包含的数据的分类目的地类别越均匀地分散,分类对象数据集合的熵就变得越大;分类目的地类别越偏向特定的类别,分类对象数据集合的熵就变得越小。这样,通过利用属性值对分类对象数据进行分类,分类对象数据集合向特定的类别缩减的程度越大,相应地,熵就变得越小。因此,通过以最优先检查信息增益最大的属性并进行分类的方式构成决策树,能够以很少的属性的检查次数对分类对象数据进行分类。即,能够决定提问的顺序以使得提问的次数变得最少。例如,针对将0或1这样的属性值分配给后面叙述的图2所示的x1、x2、x3、x4这四个属性而成的、数据数为8个的分类对象数据集合,在基于上述的信息增益生成决策树时,得到后述图7的决策树。图7的用○记号表示的节点N1(用没有标号的○记号表示的节点也同样如此)称为决策树的节点,向各节点分配有要检查的属性(在节点N1的情况下为x1)。图中的用线段表示的边E1、E2(用没有标号的线段表示的边也同样如此)称为决策树的边,与属性值的种类数对应配置,所述属性值是检查与边的上层连接的节点的属性而得到的值。例如,边E1是与属性x1的属性值1对应的边,边E2是与属性x1的属性值0对应的边。另外,在决策树中,位于最上层的节点(根节点)N1的属性是最初被检查的属性,反复本文档来自技高网...
决策树生成装置、决策树生成方法、非暂时性记录介质以及提问系统

【技术保护点】
一种决策树生成装置,具备:信息增益算出部,在以决策树的形式将包含对相互不同的多个属性中的每一个分配了属性值而成的多个分类对象数据的分类对象数据集合分阶段地分割为部分集合时,按分割前的数据集合所包含的所述分类对象数据的每个所述属性,算出由分割导致的数据集合的熵的减少量,基于所述熵的减少量和可靠度,按每个所述属性算出利用该属性的属性值将所述分割前的数据集合分割时的信息增益,所述可靠度是表示用户对询问所述属性的提问的回答的准确性或不准确性的指标;和决策树制作部,通过递归地反复进行利用具有按每个所述属性算出的多个信息增益中的最大的信息增益的属性的属性值将所述分割前的数据集合分割的处理,从而将具有所述最大的信息增益的属性依次决定为决策树的节点,并且向该节点的边依次分配具有所述最大的信息增益的属性的属性值,制作用于决定提问的顺序的决策树,所述提问是为了将所述多个分类对象数据分类而询问所述多个属性中的每一个的提问。

【技术特征摘要】
2016.07.04 JP 2016-1327071.一种决策树生成装置,具备:信息增益算出部,在以决策树的形式将包含对相互不同的多个属性中的每一个分配了属性值而成的多个分类对象数据的分类对象数据集合分阶段地分割为部分集合时,按分割前的数据集合所包含的所述分类对象数据的每个所述属性,算出由分割导致的数据集合的熵的减少量,基于所述熵的减少量和可靠度,按每个所述属性算出利用该属性的属性值将所述分割前的数据集合分割时的信息增益,所述可靠度是表示用户对询问所述属性的提问的回答的准确性或不准确性的指标;和决策树制作部,通过递归地反复进行利用具有按每个所述属性算出的多个信息增益中的最大的信息增益的属性的属性值将所述分割前的数据集合分割的处理,从而将具有所述最大的信息增益的属性依次决定为决策树的节点,并且向该节点的边依次分配具有所述最大的信息增益的属性的属性值,制作用于决定提问的顺序的决策树,所述提问是为了将所述多个分类对象数据分类而询问所述多个属性中的每一个的提问。2.根据权利要求1所述的决策树生成装置,还具备可靠度算出部,所述可靠度算出部根据用户回答实例数据,按每个所述属性算出所述可靠度,所述用户回答实例数据包括用户对询问所述属性的提问的回答的正确回答和错误回答的实例,所述信息增益算出部基于由所述可靠度算出部算出的可靠度和所述熵的减少量,按每个所述属性算出利用该属性的属性值将所述分割前的数据集合分割时的信息增益。3.根据权利要求1或2所述的决策树生成装置,所述可靠度包含用户对询问所述属性的提问的回答的正确率,所述信息增益算出部通过将所述正确率乘以所述熵的减少量,从而算出所述信息增益。4.根据权利要求3所述的决策树生成装置,所述用户回答实例数据还包含到用户回答提问为止的回答时间,所述正确率包含根据所述回答时间与所述正确率的相关关系求出的用户的相对于平均回答时间的正确率,所述信息增益算出部通过将相对于所述平均回答时间的正确率乘以所述熵的减少量,从而算出所述信息增益。5.根据权利要求1或2所述的决策树生成装置,所述可靠度包含对于询问预定属性的提问得到成为回答的预定属性值时的带条件的熵,所述信息增益算出部通过从所述熵的减少量减去所述带条件的熵,从而算出所述信息增益。6.根据权利要求2~5中任一项所述的决策树生成装置,所述用户回答实例数据还包含表示用户的属性的用户信息,所述可靠度算出部按每个所述用户的属性,根据所述用户回答实例数据按每个所述属性算出所述可靠度,所述信息增益算出部基于所述可靠度和所述熵的减少量,按每个所述用户的属性算出所述信息增益。7.根据权利要求1所述的决策树生成装置,所述决策树制作部根据所述多个分类对象数据制作一个决策树。8.根据权利要求1所述的决策树生成装置,所述决策树制作部进行如下处理:将所述分类对象数据集合设定为所述分割前的数据集合的初始值,使所述信息增益算出部按每个所述属性算出利用该属性的属性值将所述设定的分割前的数据集合分割为多个部分集合时的所述信息增益,将具有所述最大的信息增益的属性决定为将所述设定的分割前的数据集合分割的节点,利用具有所述最大的...

【专利技术属性】
技术研发人员:山上胜义远藤充
申请(专利权)人:松下知识产权经营株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1