机器学习程序、机器学习方法以及机器学习装置制造方法及图纸

技术编号:33617079 阅读:40 留言:0更新日期:2022-06-02 00:33
本发明专利技术涉及机器学习程序、机器学习方法以及机器学习装置。进行训练数据的离散化,以便模型精度提高。关于将标签信息与多个数据项目的数据项目值的组合建立关联的多个学习数据,对每个数据项目将数据项目值转换为基于规定的基准离散化后的离散化数据值。使用转换后的多个学习数据执行学习将离散化数据值作为输入进行关于标签信息的判定的模型的学习处理。从学习处理的执行结果获取示出多个数据项目中的用于判定的两个以上的数据项目的组合的不同的多个特征信息、和示出多个特征信息各自的重要性的指标值。基于指标值选择一个以上的特征信息,基于选择出的一个以上的特征信息来变更用于数据项目值的离散化的基准。变更用于数据项目值的离散化的基准。变更用于数据项目值的离散化的基准。

【技术实现步骤摘要】
【国外来华专利技术】机器学习程序、机器学习方法以及机器学习装置


[0001]本专利技术涉及机器学习程序、机器学习方法以及机器学习装置。

技术介绍

[0002]作为利用计算机的大规模数据分析,存在进行机器学习的情况。在机器学习中,将示出已知的事例的多个样本输入至计算机。计算机分析多个样本,学习将重要因素(存在称为说明变量、独立变量的情况)与结果(存在称为目标变量、从属变量的情况)之间的关系一般化的模型。通过使用学习后的模型,能够预测未知的事例的结果。
[0003]有在机器学习前对训练数据进行前处理以便模型的精度提高的情况。作为一个前处理,存在使说明变量可取的值的个数减少的“离散化”。在离散化中,将具有可取的值较多的“连续值”的说明变量转换为具有可取的值较少的“离散值”的说明变量。在离散化中,例如,将连续值的范围分割为多个区间,对连续值分配与其所属的区间对应的离散值。
[0004]提出了考虑到某说明变量的值与目标变量的值的对应关系来动态地决定用于将该说明变量离散化的多个区间的熵基离散化。在熵基离散化中,从训练数据中包含的说明变量的值的分布中,检测出具有本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种机器学习程序,使计算机执行以下处理:对于分别是将标签信息与多个数据项目的数据项目值的组合建立关联的数据的多个学习数据,对每个数据项目将上述数据项目值转换为基于规定的基准离散化后的离散化数据值;使用转换后的上述多个学习数据执行学习处理,上述学习处理是学习将上述多个数据项目的上述离散化数据值作为输入进行关于上述标签信息的判定的模型的处理;从上述学习处理的执行结果获取不同的多个特征信息和指标值,上述不同的多个特征信息分别示出上述多个数据项目中的用于上述判定的两个以上的数据项目的组合,上述指标值示出上述多个特征信息各自的重要性;基于上述指标值选择上述多个特征信息中的一个以上的特征信息,基于选择出的上述一个以上的特征信息来变更用于上述数据项目值的离散化的基准。2.根据权利要求1所述的机器学习程序,其中,一个数据项目的上述数据项目值的离散化包含将上述一个数据项目可取的上述数据项目值的范围分割为两个以上的区间,在用于离散化的基准的变更中,对选择出的一个特征信息所示的上述两个以上的数据项目的组合计算上述数据项目值的多维分布,基于计算出的上述多维分布来变更上述两个以上的数据项目各自的上述两个以上的区间。3.根据权利要求2所述的机器学习程序,其中,在上述两个以上的区间的变更中,根据上述标签信息为相同的学习数据的密度将上述多维分布分割为多个区域,基于上述多个区域之间的边界来决定对上述两个以上的数据项目各自可取的上述数据项目值的范围的分割点。4.根据权利要求1所述的机器学习程序,其中,上述模型包含:多个判定规则,分别将上述多个数据项目中的一部分的数据项目满足的上述离散化数据值的条件与上述标签信息的推断值建立对应;和上述指标值,示出上述多个判定规则各自的重要性,通过从上述模型中包含的上述多个判定规则提取在上述条件中使用的上述一部分的数据项目来获取上述多个特征信息。5.根据权利要求1所述的机器学习程序,其中,在用于离散化的基准的变更中,选择上述一个以上的特征信息,...

【专利技术属性】
技术研发人员:加藤孝史后藤启介大堀耕太郎
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1