存储介质、模型生成方法和信息处理设备技术

技术编号:36515889 阅读:14 留言:0更新日期:2023-02-01 15:47
本发明专利技术公开了存储介质、模型生成方法和信息处理设备。非暂态计算机可读存储介质存储有模型生成程序,该模型生成程序使计算机执行包括以下的处理:生成通过回归系数表示具有特征的第一观察矩阵与具有多个样本中的每个样本的特征值的特征向量之间的关系的多个第一系数矩阵;生成直方图,在直方图中,通过将针对多个元素中的每个元素的多个第一系数矩阵中包括的回归系数进行合计而获得的多个总回归系数按照第一观察矩阵中的元素的顺序排列;生成第二观察矩阵,该第二观察矩阵包括通过将对应于直方图中相邻总回归系数为非零的多个第一元素组合成一个元素而获取的第二元素;以及生成表示第二观察矩阵与特征向量之间的关系的第二系数矩阵。第二系数矩阵。第二系数矩阵。

【技术实现步骤摘要】
存储介质、模型生成方法和信息处理设备


[0001]本文讨论的实施方式涉及存储介质、模型生成方法和信息处理设备。

技术介绍

[0002]随着测量技术的进步,已经生成了大量与样品(样本)例如物质、材料等相关的复杂分析数据(例如,光谱数据、图像数据等)。随着分析数据的增加,具有专业知识的分析员很难逐一分析所有分析数据。此外,分析员的分析最终基于作为分析员的专家的主观观点和先入之见。因此,由于仅使用大量数据中的小部分进行分析或在超出专家知识的领域中没有找到解决方案而导致的信息缺乏,因此有用的信息可能被忽略。
[0003]作为不依赖于分析员的这样的主观观点和先入之见的方法,存在“稀疏建模”的方法,其从大量数据中仅提取基本元素以创建预测模型。另外,使用“稀疏建模”的方法将样本的分析数据与特征之间的关系相关联的“正则化学习”已经开始被使用。
[0004]用于正则化学习的典型正则化方法是L1正则化。L1正则化减少了所提取的元素的系数的绝对值之和,并且在其优化计算中,当所提取的元素的系数的绝对值之和变大时发生惩罚。通过使用利用L1正则化的正则化学习,从与样本相关的分析数据中客观且自动地提取与特征密切相关的元素变得相对容易。
[0005]例如,作为与稀疏建模相关的技术,已经提出了以高精度和高速执行稀疏估计的优化装置。另外,还提出了图像质量改进装置,其中使用稀疏表示的学习型图像质量改善方法投入实际使用。
[0006]日本公开特许公报第2020

095397号和国际公开第WO2015/064672号被公开作为相关技术。

技术实现思路

[0007]技术问题
[0008]L1正则化简化了用作正则化的严格定义的L0正则化的约束。因此,当使用L1正则化时,可能在从分析数据中提取元素时不能充分地缩小解的范围,或者可能在分析数据包含噪声的情况下不能获得解。因此,L1正则化可能缺乏严谨性。
[0009]正则化的严格定义是使要提取的元素最小化的L0正则化。通过使用L0正则化的正则化学习,可以从与样本相关的分析数据中客观且自动地提取与特征密切相关的元素。在这种情况下,使用正则化本身的定义来执行优化,可以精确地提取元素。
[0010]然而,虽然L0正则化在缩小元素的范围和优化所提取的元素的系数方面优于L1正则化,但是它对数据特征高度敏感。因此,例如,在要输入的分析光谱的分辨率太高的情况下,模型精度可能会降低。例如,当分辨率太高时,所提取的元素跨越多个相邻元素。在这种情况下,在生成具有根据交叉验证等变化的条件的模型时,针对模型生成的每次尝试,所提取的元素的位置和回归系数的大小偏离。因此,最终生成的模型的精度降低。
[0011]在一方面,当前情况旨在提高通过L0正则化生成的模型的精度。
[0012]问题的解决方案
[0013]根据实施方式的一方面,一种存储有模型生成程序的非暂态计算机可读存储介质,所述模型生成程序使计算机执行处理,该处理包括:通过第一L0正则化学习的交叉验证来生成多个第一系数矩阵,所述多个第一系数矩阵通过与多个元素中的每个元素对应的回归系数表示第一观察矩阵与特征向量之间的关系,该第一观察矩阵具有通过观察多个样本中的每个样本的多个元素而获得的特征作为分量,该特征向量具有多个样本中的每个样本的特征值作为分量;生成直方图,在直方图中,通过将针对多个元素中的每个元素的多个第一系数矩阵中包括的回归系数进行合计而获得的多个总回归系数按照第一观察矩阵中的元素的顺序排列;基于第一观察矩阵生成第二观察矩阵,该第二观察矩阵包括通过将对应于直方图中相邻总回归系数为非零的多个第一元素组合成一个元素而获得的第二元素;以及生成表示第二观察矩阵与特征向量之间的关系的第二系数矩阵。
[0014]专利技术的有益效果
[0015]根据一方面,可以提高通过L0正则化生成的模型的精度。
附图说明
[0016]图1是示出根据第一实施方式的示例性模型生成方法的图;
[0017]图2是示出根据第二实施方式的示例性系统配置的图;
[0018]图3是示出服务器的示例性硬件的图;
[0019]图4是示出示例性伊辛机的图;
[0020]图5示出了示例性正则化学习;
[0021]图6是示出基于交叉验证的示例性超参数确定方法的图;
[0022]图7是示出由交叉验证引起的示例性元素偏差的图;
[0023]图8是示出服务器的示例性功能的框图;
[0024]图9是示出涉及元素合成的模型生成处理的概要的图;
[0025]图10是示出基于L0正则化的模型生成处理的示例性过程的流程图(1/2);
[0026]图11是示出用于计算L0正则化的样本的观察光谱的图;
[0027]图12是示出交叉验证处理的示例性过程的流程图;
[0028]图13是示出基于L0正则化的示例性交叉验证的图;
[0029]图14是示出系数矩阵的总回归系数的示例性直方图的图;
[0030]图15是示出基于L0正则化的模型生成处理的示例性过程的流程图(2/2);
[0031]图16是示出示例性元素对应表的图;
[0032]图17是示出生成重建观察矩阵的处理的示例性过程的流程图;
[0033]图18是示出示例性重建观察矩阵的图;
[0034]图19是示出重建观察矩阵中指示的示例性观察光谱的图;
[0035]图20是示出最终模型生成处理的示例性过程的流程图;
[0036]图21是示出取决于观察向量重建的存在或不存在的模型精度的差异的图;
[0037]图22是示出根据第三实施方式的观察矩阵的示例性重建的图;
[0038]图23是示出根据第三实施方式的基于L0正则化的模型生成处理的示例性过程的流程图;
[0039]图24是示出根据第四实施方式的基于L0正则化的模型生成处理的示例性过程的流程图;以及
[0040]图25是示出其中删除所有零分量元素的示例性观察光谱的图。
具体实施方式
[0041]在下文中,将参考附图描述本实施方式。注意,只要不发生矛盾,实施方式中的每一个可以与多个实施方式组合来实现。
[0042][第一实施方式][0043]首先,将描述第一实施方式。
[0044]图1是示出根据第一实施方式的示例性模型生成方法的图。图1示出了实现模型生成方法的信息处理设备10。信息处理设备10能够通过执行模型生成程序来实现模型生成方法。
[0045]信息处理设备10包括存储单元11和处理单元12。存储单元11例如是包括在信息处理设备10中的存储器或存储装置。处理单元12例如是包括在信息处理设备10中的处理器或算术电路。
[0046]存储单元11存储分析数据11a和特征数据11b。分析数据11a是指示通过对多个样本中的每个样本执行多次观察而获得的特征量的数据。对样本的观察表示例如对X射线吸收光谱的观察。在X射线吸收光谱本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种存储有模型生成程序的非暂态计算机可读存储介质,所述模型生成程序使至少一个计算机执行处理,所述处理包括:通过第一L0正则化学习的交叉验证来生成多个第一系数矩阵,所述多个第一系数矩阵通过与多个元素中的每个元素对应的回归系数来表示第一观察矩阵与特征向量之间的关系,所述第一观察矩阵具有通过观察多个样本中的每个样本的所述多个元素而获得的特征作为分量,所述特征向量具有所述多个样本中的每个样本的特征值作为分量;生成直方图,在所述直方图中,通过将针对所述多个元素中的每个元素的所述多个第一系数矩阵中包括的回归系数进行合计而获得的多个总回归系数按照所述第一观察矩阵中的元素的顺序排列;基于所述第一观察矩阵生成第二观察矩阵,所述第二观察矩阵包括通过将对应于所述直方图中相邻总回归系数为非零的多个第一元素组合成一个元素而获得的第二元素;以及生成表示所述第二观察矩阵与所述特征向量之间的关系的第二系数矩阵。2.根据权利要求1所述的非暂态计算机可读存储介质,其中,生成所述第二观察矩阵包括:通过对应的总回归系数对所述多个第一元素的分量中的每个分量进行加权;对所述多个样本中的每个样本的经加权的分量进行合计;以及基于针对所述多个样本中的每个样本的合计值生成所述多个样本的每个样本的所述第二元素的分量。3.根据权利要求1所述的非暂态计算机可读存储介质,其中,生成所述多个第一系数矩阵包括:使用指示在所述第一L0正则化学习中的正则化强度的超参数的多个候选值中的每个候选值来执行所述第一L0正则化学习的所述交叉验证;基于根据所述多个候选值中的每个候选值的所述第一L0正则化学习的解的精度选择所述多个候选值中的一个;以及将通过使用所选择的候选值执行的所述交叉验证生成的多个系数矩阵确定为所述多个第一系数矩阵。4.根据权利要求1所述的非暂态计算机可读存储介质,其中,生成所述第二观察矩阵包括:基于所述第一观察矩阵将所述多个第一元素组合成一个第二元素;以及通过将对应于所述直方图中所述相邻总回归系数为零的多个第三元素组合成一个第四元素来生成所述第二观察矩阵。5.根据权利要求4所述的非暂态计算机可读存储介质,其中,生成所述第二观察矩阵包括:基于组合成所述第二元素的所述多个第一元素的数目来确定要组合成所述第四元素的所述多个第三元素的数目。6.根据权利要求1所述的...

【专利技术属性】
技术研发人员:土井修一
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1