计算机可读记录介质、信息处理设备和信息处理方法技术

技术编号:37980959 阅读:15 留言:0更新日期:2023-06-30 09:55
一种非暂态计算机可读记录介质,其中存储有信息处理程序,该信息处理程序使计算机执行处理,该处理包括:基于变量的优先级顺序和估计量从多个变量中决定一个或更多个变量是关于重要性程度的问题的目标,所述变量的优先级顺序是基于指示所述多个变量的排名的多个模式确定的,所述估计量指示关于每个模式与预定条件匹配的可能性;以及基于关于所决定的变量的问题的回答结果来更新该估计量。的问题的回答结果来更新该估计量。的问题的回答结果来更新该估计量。

【技术实现步骤摘要】
计算机可读记录介质、信息处理设备和信息处理方法


[0001]本文中所讨论的实施方式涉及信息处理技术。

技术介绍

[0002]随着人工智能(AI)技术的普及,对能够提供解释的机器学习模型的需求已经增加,这是因为在没有询问的情况下黑盒型机器学习模型的确定不能被接受的事实,并且因为希望给出人类可解释的确定的前提。因此,预先使用诸如规则列表、决策树或线性模型的白盒模型。然而,仅使用白盒型机器学习模型不能确保机器学习模型是人类可解释的或能够提供解释。
[0003]因此,近年来,已经实现了一种交互方法,通过该方法重复地执行机器学习模型的生成和对人的反馈,使得生成人可接受的精确的机器学习模型。在该交互方法中,例如,从机器学习模型中的特征中选择被认为是重要特征的特征;向用户询问所选择的特征是否真正重要;并且针对每个这样的特征重复询问直到用户满意。同时,机器学习模型中的特征也被称为解释变量或简称为变量。
[0004]随后,根据反馈,改变优化机器学习模型时使用的参数,并且因此更新机器学习模型。作为重复执行这样的操作的结果,生成了人可接受的精确的机器学习模型。
[0005]机器学习模型具有大量特征。因此,通过考虑用户在中途中断交互的可能性,期望用尽可能少的问题获得被回答为重要特征的最大可能数量的特征。
[0006]在这点上,一些方法是可用的,例如其中按照具有使用可用统计量例如相关性、相互信息内容和卡方值来计算的大的值的特征的顺序执行询问的方法;或者一种方法,其中测量关于机器学习模型的每个特征对预测分布的影响并且选择具有相对较大影响的特征用于询问目的。
[0007][专利文献1]国际专利申请的日本国家公布第2016

536691号
[0008][专利文献2]日本公开特许公报第2017

220238号
[0009][专利文献3]美国未审查的专利申请公开第2018/0336271号
[0010][专利文献4]美国未审查的专利申请公开第2019/0188585号
[0011][专利文献5]日本公开特许公报第2019

169147号
[0012]然而,特定统计不一定与用户满意的现场知识(on

the spot knowledge)一致,并且有时需要询问大量问题直到用户满意。此外,依然在特征由机器学习模型选择的情况下,即使选择依赖于机器学习模型中的问题的特定索引,该索引也不一定与用户的现场知识一致。因此,最终,有时问题的数量变得很大。
[0013]因此,本专利技术的实施方式的一个方面的目的是提供能够以更有效的方式选择与用户的现场知识一致的特征以生成能够提供解释的机器学习模型的信息处理程序、信息处理设备和信息处理方法。

技术实现思路

[0014]根据实施方式的一方面,一种非暂态计算机可读记录介质,其中存储有信息处理程序,该信息处理程序使计算机执行处理,该处理包括:基于变量的优先级顺序和估计量,从多个变量中决定一个或更多个变量是关于重要性程度的问题的目标,所述变量的优先级顺序是基于指示所述多个变量的排名的多个模式确定的,所述估计量指示关于每个模式与预定条件匹配的可能性;以及基于关于所决定的变量的问题的回答结果来更新该估计量。
附图说明
[0015]图1是示出根据实施方式的信息处理设备的示例性配置的框图;
[0016]图2是示出根据本实施方式的索引数据的示例的图;
[0017]图3是示出根据本实施方式的概率数据的示例的图;
[0018]图4是示出根据本实施方式的对应于第一轮询问的特征选择操作的示例的图;
[0019]图5是示出根据本实施方式的对应于第二轮询问的特征选择操作的示例的图;
[0020]图6是示出根据本实施方式的对应于第三轮询问的特征选择操作的示例的图;
[0021]图7是用于说明根据本实施方式的估计量更新操作的示例性流程的流程图;以及
[0022]图8是示出根据本实施方式的信息处理设备的示例性硬件配置的图。
具体实施方式
[0023]将参照附图来说明本专利技术的优选实施方式。然而,本专利技术不限于下述实施方式。同时,可以在不引起矛盾的情况下对实施方式进行组合。
[0024]信息处理设备10的功能配置
[0025]下面参照图1说明根据本实施方式的信息处理设备10的功能配置。图1是示出信息处理设备10的示例性配置的框图。如图1所示,信息处理设备10包括通信单元11、存储器单元12和控制单元13。
[0026]通信单元11是控制与其他信息处理设备执行的通信的处理单元。
[0027]存储器单元12是用于存储各种数据以及存储将由控制单元13执行的计算机程序的存储器设备。存储器单元12用于存储分类模型121、索引数据122和概率数据123。
[0028]分类模型121是例如将输入数据分类为两个值中的一个的机器学习模型。例如,当输入捕获人的图像时,分类模型121确定人是否穿着制服,并且输出指示人是否穿着制服的确定结果。
[0029]索引数据122与表示指示特征的排名(即,机器学习模型中的特征的优先级顺序)的模式的索引相关。图2是示出根据本实施方式的索引数据122的示例的图。在图2所示的示例中,三个索引X、Y和Z包括在索引数据122中,并且五个特征“a”至“e”根据它们的排名在每个索引中列出。
[0030]在图2所示的示例中,在索引X的情况下,特征“a”被认为是机器学习模型中最重要的特征。因此,首先,向用户询问特征“a”是否是重要特征。然后,在索引X的情况下,向用户询问特征“b”是否是被认为是第二最重要的特征的重要特征。以这样的方式,直到用户满意为止,基于特征的优先级顺序重复地询问关于特征的问题。在图2所示的示例中,为了方便起见,示出了总共五个特征“a”至“e”。然而,实际上,机器学习模型包括更多数量的特征例
如几百个特征或几千个特征。
[0031]同时,估计量α表示每个索引的权重系数,并且具有设置为1.0的初始值。信息处理设备10向用户询问每个特征的重要性,并且基于对每个问题的回答更新估计量α。因此,尽管稍后说明细节,但是信息处理设备10将其中重要特征排名高的索引视为与现场知识更一致的索引。因此,可以更容易地从该索引中选择特征。
[0032]通过使用统计量例如相关性、相互信息内容和卡方值或使用现有技术例如关于机器学习模型的每个特征的预测分布对特征进行排名来生成索引数据122中的每个索引。
[0033]概率数据123与关于每个特征估计用户认同的概率相关。即,概率数据123与每个特征概率(feature by feature probabilities)相关,所涉及的特征以该概率被估计为重要特征,并且以该概率估计将从用户获得关于所涉及的特征是否是重要特征的问题的肯定回答(是)。在图3所示的示例中,关于从用户获得肯定回答的概率,特征“a”具有0.66%的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非暂态计算机可读记录介质,其中存储有信息处理程序,所述信息处理程序使计算机执行处理,所述处理包括:基于变量的优先级顺序和估计量从多个变量中决定一个或更多个变量是关于重要性程度的问题的目标,所述变量的优先级顺序是基于指示所述多个变量的排名的多个模式确定的,所述估计量指示关于每个模式与预定条件匹配的可能性;以及基于关于所决定的变量的所述问题的回答结果来更新所述估计量。2.根据权利要求1所述的非暂态计算机可读记录介质,其中,更新所述估计量包括:当所述回答结果指示所决定的变量是重要的时,进行更新以增加其中所决定的变量的优先级顺序等于或高于预定阈值的模式的估计量。3.根据权利要求2所述的非暂态计算机可读记录介质,其中,更新所述估计量包括:当所述回答结果指示所决定的变量是不重要的时,进行更新以增加其中所决定的变量的优先级顺序不等于或高于所述预定阈值的模式的估计量。4.根据权利要求1至3中任一项所述的非暂态计算机...

【专利技术属性】
技术研发人员:铃木浩史后藤启介岩下洋哲高木拓也大堀耕太郎原聪
申请(专利权)人:国立大学法人大阪大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1