机器学习方法、计算机可读记录介质以及机器学习设备技术

技术编号:25041490 阅读:62 留言:0更新日期:2020-07-29 05:32
提供了机器学习方法、计算机可读记录介质以及机器学习设备。一种计算机实现的机器学习模型的机器学习方法,包括:通过使用与正确标签相关联的多条训练数据执行机器学习模型的第一训练;从多条训练数据确定在基于由所训练的机器学习模型生成的核心张量的特征空间中彼此接近并且具有相同正确标签的多条训练数据集;基于所确定的多条训练数据集生成扩展训练数据;以及通过使用所生成的扩展训练数据执行所训练的机器学习模型的第二训练。

【技术实现步骤摘要】
机器学习方法、计算机可读记录介质以及机器学习设备
本文讨论的实施方式涉及机器学习技术。
技术介绍
常规地,已经通过使用已通过训练数据学习了信息的学习模型例如神经网络执行对各种信息的分类。例如,在信息安全领域的活动分析中,通过使用具有附至其的正确标签的通信日志来执行学习模型的训练,其中正确标签指示训练数据的合法性或非法性。之后,通过将通信日志用作训练之后的学习者,通过网络中的通信日志对网络攻击的有无进行分类。在信息安全领域,很难在受到攻击时收集通信日志。因此,相对于合法通信日志的数量,用作训练数据的非法通信日志的数量非常少。作为解决训练数据中正确标签的这样的偏差的常规技术,已知将适当的变量分配并添加至样本矢量不足的标签的方法。
技术实现思路
在上面描述的传统技术中,不能保证使用添加的训练数据对学习模型进行训练,使得学习模型对未知数据准确地分类。因此,存在以下问题:可能存在预计分类的泛化能力不能提高的情况。因此,本专利技术实施方式的一个方面的目的是提供使得能够改善分类的泛化能力的学习方法、计算机可读记录介质和学习设备。根据实施方式的方面,一种计算机实现的机器学习模型的机器学习方法,包括:通过使用与正确标签相关联的多条训练数据执行机器学习模型的第一训练;从多条训练数据确定在基于由所训练的机器学习模型生成的核心张量的特征空间中彼此接近并且具有相同正确标签的多条训练数据集;基于所确定的多条训练数据集生成扩展训练数据;以及通过使用所生成的扩展训练数据执行所训练的机器学习模型的第二训练。应当理解,前面的一般描述和下面的详细描述二者都是示例性的,并且旨在提供对所要求保护的本专利技术的进一步说明。根据以下描述、附图和权利要求书,本专利技术的其他优点和特征将变得明显。附图说明图1是示出根据实施方式的学习设备的功能配置示例的框图;图2是示出数据分类的示例的说明图;图3是示出在深度张量中学习的示例的说明图;图4是示出根据实施方式的学习设备的操作示例的流程图;图5是说明距离矩阵的生成示例的说明图;图6是例示冗余率的计算和中间数据的生成的说明图;图7是例示冗余率的计算过程的说明图;图8A是示出计算冗余率的具体示例的说明图;图8B是示出计算冗余率的具体示例的说明图;图9是说明根据实施方式的由学习设备形成的分离平面的说明图;以及图10是示出执行学习程序的计算机的示例的框图。具体实施方式将参照附图来说明本专利技术的优选实施方式。在实施方式中,相似的附图标记表示具有相同功能的组成元件,并且将省略其重复说明。实施方式中描述的学习方法、计算机可读记录介质和学习设备仅是其示例,并且不限制实施方式。此外,在不引起任何矛盾的情况下各个实施方式可以在一定范围内适当地彼此组合。图1是示出根据实施方式的学习设备的功能配置示例的框图。图1中示出的学习设备100基于生成在其中的核心张量执行机器学习模型的训练。具体地,学习设备100利用具有附至其的正确标签的多条训练数据来执行机器学习模型的训练。学习设备100从多条训练数据确定在基于由所训练的机器学习模型生成的核心张量的特征空间中彼此接近并且具有相同正确标签的训练数据集。学习设备100基于所确定的训练数据集来生成要新添加到与原始训练数据分开的训练数据组的训练数据(在下文中称为“扩展训练数据”)。学习设备100使用生成的扩展训练数据执行机器学习模型的训练。通过该学习,学习设备100可以改善机器学习模型中的分类的泛化能力。图2是示出数据分类的示例的说明图。图2中示出的数据11和数据12是其中通信日志被编译在每个预定时隙中的图形结构数据。在下面的描述中,数据11和数据12表示每10分钟记录在通信日志中的信息例如通信发送方主机、通信接收方主机、端口号和通信量的关系。存在期望将如数据11和数据12中所示出的图形结构数据分类成例如合法通信(正常通信)和非法通信的情况。在这样的数据分类中,通过使用具有附至其的正确标签的训练数据来执行机器学习模型的训练,其中正确标签指示合法通信或非法通信。此后,可以通过将数据11和数据12应用于所训练的机器学习模型来获取分类结果。在本实施方式中,在信息安全领域的活动分析中,提到了基于通信日志中的数据11和数据12来分类合法通信和非法通信的示例。然而,本实施方式仅是示例,并且要分类的数据类型和分类内容不限于本实施方式的该示例。例如,作为另一示例,可以在发生洗钱或银行转账欺诈时,根据表示在银行交易历史中记录的诸如汇款人账户、受益人账户和分行名称的信息的关系的数据对交易历史进行分类。此外,在图形结构数据的分类中,执行由机器学习模型使用能够执行图形结构数据的深度学习的图形结构学习技术进行的分类(在下文中,将执行这样的图形结构学习的装置的模式称为“深度张量”)。深度张量是其中基于图形信息的张量用作输入的深度学习技术。在深度张量中,执行对用于要输入到神经网络中的核心张量的提取方法的学习,同时执行神经网络的学习。通过响应于更新神经网络的参数来更新输入张量数据的张量分解的参数来实现提取方法的学习。图3是示出在深度张量中学习的示例的图。如图3所示出的,可以将表示特定图形结构数据的整体的图形结构25表示为张量26。根据基于目标核心张量29的结构限制的张量分解,可以将张量26近似为核心张量27与矩阵相乘的乘积。在深度张量中,将核心张量27输入到神经网络28以执行深度学习,并且通过扩展误差反向传播方法执行目标核心张量29的优化。此时,当核心张量27由图表表示时,获得表示其特征被浓缩的局部结构的图表30。即,在深度张量中,神经网络28可以利用核心张量27自动学习来自整个图表的重要的局部结构。在深度张量的局部结构中,保证每条训练数据在张量中的位置关系是用于分类的重要的局部结构。同时,保证通过线性变换的多条训练数据之间的关系。因此,当在基于深度张量中的学习之后的核心张量27的特征空间中彼此接近的多条训练数据的组合具有相同的正确标签时,可以保证位于它们之间的训练数据具有相同的正确标签。在本实施方式中,针对深度张量的这种局部结构,生成扩展训练数据。具体地,将训练数据变换到基于深度张量中的学习之后的核心张量27的特征空间中,并且在多条训练数据中确定在特征空间中彼此接近并且具有相同正确标签的训练数据集。然后基于所确定的训练数据集来生成中间数据,以便生成具有与训练数据集的附至其的正确标签相同的正确标签的扩展训练数据。因此,可以生成用于使得机器学习模型被训练的扩展训练数据,以便正确地分类未知数据。接下来,描述学习设备100的配置。如图1所示出的,学习设备100包括通信单元110、显示单元111、操作单元112、存储单元120和控制单元130。除图1所示出的功能单元之外,学习设备100还可以包括计算机中提供的各种已知功能单元,例如,诸如各种类型的输入装置和语音输出装置的功能单元。通信单元110例如由NIC(网络接口卡)实现。通信单元1本文档来自技高网...

【技术保护点】
1.一种计算机实现的机器学习模型的机器学习方法,包括:/n通过使用与正确标签相关联的多条训练数据执行所述机器学习模型的第一训练;/n从所述多条训练数据确定在基于由所训练的机器学习模型生成的核心张量的特征空间中彼此接近并且具有相同正确标签的多条训练数据集;/n基于所确定的多条训练数据集生成扩展训练数据;以及/n通过使用所生成的扩展训练数据执行所训练的机器学习模型的第二训练。/n

【技术特征摘要】
20190118 JP 2019-0073111.一种计算机实现的机器学习模型的机器学习方法,包括:
通过使用与正确标签相关联的多条训练数据执行所述机器学习模型的第一训练;
从所述多条训练数据确定在基于由所训练的机器学习模型生成的核心张量的特征空间中彼此接近并且具有相同正确标签的多条训练数据集;
基于所确定的多条训练数据集生成扩展训练数据;以及
通过使用所生成的扩展训练数据执行所训练的机器学习模型的第二训练。


2.根据权利要求1所述的学习方法,其中,所述生成包括:基于与所述正确标签相关联的所述多条训练数据集生成与所述正确标签相关联的所述扩展训练数据。


3.根据权利要求1所述的学习方法,其中,所述生成包括:根据基于所确定的多条训练数据集在所述特征空间中的冗余率的范围,生成所述扩展训练数据。


4.一种计算机可读记录介质,其具有存储在其中的机器学习模型的学习程序,所述学习程序使计算机执行包括以下的处理:
通过使用与正确标签相关联的多条训练数据执行所述机器学习模型的第一训练;
从所述多条训练数据确定在基于由所训练的机器学习模型生成的核心张量的特征空间中彼此接近并且具有相同正确标签的多条训练数据集;
基于所确定...

【专利技术属性】
技术研发人员:西野琢也
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1