学习装置、学习方法以及学习程序制造方法及图纸

技术编号:37553341 阅读:18 留言:0更新日期:2023-05-15 07:38
生成部(131)对学习用数据中的被选择为未学习数据的数据进行学习,生成计算异常得分的模型。选择部(133)选择学习用数据中的、利用由生成部(131)生成的模型计算出的异常得分为阈值以上的数据的至少一部分作为未学习数据。值以上的数据的至少一部分作为未学习数据。值以上的数据的至少一部分作为未学习数据。

【技术实现步骤摘要】
【国外来华专利技术】学习装置、学习方法以及学习程序


[0001]本专利技术涉及学习装置、学习方法以及学习程序。

技术介绍

[0002]随着IoT时代的到来,多种设备在多种使用方式下与互联网连接。为了这些IoT设备的安全对策,近来盛行研究面向IoT设备的业务会话异常检测系统、侵入检测系统(IDS)。
[0003]在这样的异常检测系统中,存在使用Variational Auto Encoder(VAE)等基于无教师学习的概率密度估计器的异常检测系统。使用概率密度估计器的异常检测系统根据实际的通信而生成被称为业务特征量的学习用的高维数据,使用该特征量学习正常的业务的特征,由此能够估计正常通信模式的发生概率。另外,在以后的说明中,有时将概率密度估计器简称为模型。
[0004]之后,异常检测系统使用已学习的模型来计算各通信的发生概率,将发生概率小的通信检测为异常。因此,根据使用概率密度估计器的异常检测系统,具有如下优点:即使不知道全部恶性状态也能够进行异常检测,并且还能够应对未知的网络攻击。另外,在异常检测系统中,有时在异常检测中使用异常得分,前述的发生概率越小则该异常得分越大。
[0005]在此,VAE等概率密度估计器的学习大多在学习对象的正常数据间件数存在偏差的状况下无法顺利地进行。特别是,在业务会话数据中,经常发生件数存在偏差的状况。例如,由于经常使用HTTP通信,因此数据在短时间内大量集中。另一方面,难以大量收集仅稀少地进行通信的NTP通信等的数据。若在这样的状况下进行基于VAE等概率密度估计器的学习,则数据的件数少的NTP通信的学习不能顺利地进行,发生概率被估计得低,有时成为误检测的原因。
[0006]作为解决由于这样的数据件数的偏差而产生的问题的方法,已知有以2个阶段进行概率密度估计器的学习的方法(例如,参照专利文献1)。
[0007]现有技术文献
[0008]专利文献
[0009]专利文献1:日本特开2019

101982号公报

技术实现思路

[0010]专利技术所要解决的问题
[0011]然而,在现有技术中,存在处理时间有时会增大的问题。例如,在专利文献1所记载的方法中,概率密度估计器的学习以2个阶段进行,因此与1个阶段的情况相比,学习时间变长2倍左右。
[0012]用于解决问题的手段
[0013]为了解决上述问题,实现目的,学习装置的特征在于,具有:生成部,其对学习用数据中的被选择为未学习数据的数据进行学习,生成计算异常得分的模型;以及选择部,其将所述学习用数据中的、利用由所述生成部生成的模型计算出的异常得分为阈值以上的数据
Interface Card:网络接口卡)。另外,IF部11也可以与鼠标、键盘等输入装置以及显示器等输出装置连接。
[0035]存储部12是HDD(Hard Disk Drive:硬盘驱动器)、SSD(Solid State Drive:固态硬盘驱动器)、光盘等存储装置。此外,存储部12也可以是RAM(Random Access Memory:随机存取存储器)、闪存、NVSRAM(Non Volatile Static Random Access Memory:非易失性静态随机存取存储器)等能够改写数据的半导体存储器。存储部12存储由学习装置10执行的OS(Operating System:操作系统)、各种程序。
[0036]控制部13控制学习装置10整体。控制部13例如是CPU(Central Processing Unit:中央处理单元)、MPU(Micro Processing Unit:微处理单元)、GPU(Graphics Processing Unit:图形处理单元)等电子电路、ASIC(Application Specific Integrated Circuit:专用集成电路)、FPGA(Field Programmable Gate Array:现场可编程门阵列)等集成电路。另外,控制部13具有用于存储规定了各种处理步骤的程序、控制数据的内部存储器,使用内部存储器来执行各处理。另外,控制部13通过各种程序进行工作而作为各种处理部发挥功能。例如,控制部13具有生成部131、计算部132以及选择部133。
[0037]生成部131对学习用数据中的被选择为未学习数据的数据进行学习,生成计算异常得分的模型。生成部131将生成的模型追加到列表中。生成部131能够采用现有的VAE的生成方法。另外,生成部131也可以基于对未学习数据的一部分进行采样而得到的数据来生成模型。
[0038]计算部132根据由生成部131生成的模型,计算未学习数据的异常得分。计算部132可以计算未学习数据全体的异常得分,也可以计算未学习数据中的一部分的异常得分。
[0039]选择部133选择学习用数据中的、利用由生成部131生成的模型计算出的异常得分为阈值以上的数据的至少一部分作为未学习数据。
[0040]使用图3,对由选择部133进行的未学习数据的选择进行说明。图3是对未学习数据的选择进行说明的图。在此,模型是VAE,用于为了检测异常通信而计算通信数据的异常得分。
[0041]如上所述,如果是在数据数量存在偏差的状况下,则发生误检测的情况较多。例如,在将大量的HTTP通信和少量的管理用FTP通信同时作为学习对象的情况下,产生数据数量的偏差。
[0042]如图3中的<第一次>所示,此处假定存在大量的MQTT通信数据、中等数量的DNS通信数据等以及少量的摄像通信数据的状况。图3的图表是横轴描绘了概率密度的负的对数似然度(

log p(x))的近似值即异常得分,纵轴描绘了数据数量的直方图。由于数据点的密度(出现频度)越低,概率密度的负的对数似然度取越高的值,所以能够将其视为异常得分、即异常的程度。
[0043]如图3的<第一次>所示,数据数量多的MQTT通信的异常得分变低,数据数量少的摄像流通信的异常得分变高。因此,认为数据数量少的摄像通信的数据成为误检测的原因。
[0044]因此,选择部133从异常得分为阈值以上的数据中选择未学习数据。然后,使用该选择出的未学习数据的一部分或全部,生成抑制了误检测的模型。换言之,选择部133具有排除掉不需要进一步学习的数据的功能。
[0045]阈值也可以基于在模型的生成时得到的损失(Loss)值来决定。在该情况下,选择
部133选择学习用数据中的、利用由生成部131生成的模型计算出的异常得分为下述阈值以上的数据的至少一部分作为未学习数据:该阈值是基于在模型的生成时得到的各数据的损失值而计算出的阈值。例如,阈值也可以如损失值的平均+0.3σ那样,基于平均值、方差来计算。
[0046]如图3的<第二次>所示,选择部133基于在<第一次>中计算出的异常得分,以DNS通信的数据以及摄像通信的数据为中心进行选择。相反,选择部133几乎不选择数据数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种学习装置,其特征在于,具有:生成部,其对学习用数据中的被选择为未学习数据的数据进行学习,生成计算异常得分的模型;以及选择部,其选择所述学习用数据中的、利用由所述生成部生成的模型计算出的异常得分为阈值以上的数据的至少一部分作为所述未学习数据。2.根据权利要求1所述的学习装置,其特征在于,每当通过所述选择部选择了数据作为所述未学习数据时,所述生成部就对该选择的数据进行学习,生成计算异常得分的模型,每当通过所述生成部生成模型时,所述选择部就选择利用该生成的模型计算出的异常得分为阈值以上的数据的至少一部分作为所述未学习数据。3.根据权利要求1或2所述的学习装置,其特征在于,所述选择部选择所述学习用数据中的、利用由所述生成部生成的模型计算出的异常得分为基于在所述模型的生成时得到的各数据...

【专利技术属性】
技术研发人员:山中友贵
申请(专利权)人:日本电信电话株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1