行为推论模型生成装置及其行为推论模型生成方法制造方法及图纸

技术编号:21432911 阅读:22 留言:0更新日期:2019-06-22 12:08
一种行为推论模型生成装置及其行为推论模型生成方法。行为推论模型生成装置利用词嵌入模型将多个程序操作序列数据的多个程序操作序列转换成多个词向量,并将各程序操作序列数据所对应的词向量中的前M个词向量输入至生成式对抗网络模型,以训练并优化生成式对抗网络模型。行为推论模型生成装置整合词嵌入模型及优化的生成式对抗网络模型的产生器,生成行为推论模型。

【技术实现步骤摘要】
行为推论模型生成装置及其行为推论模型生成方法
本专利技术是关于行为推论模型生成装置及其行为推论模型生成方法。具体而言,本专利技术的行为推论模型生成装置基于词嵌入模型及优化后的生成式对抗网络模型的产生器,生成行为推论模型。
技术介绍
随着科技的发展,用户可自网络获得的应用程序也越来越多样化,某些应用程序于执行时可能会破坏用户的计算机系统,造成计算机中的档案被损毁或用户的个人信息被窃取。目前恶意程序的侦测机制主要是利用规则式特征比对,来判断应用程序是否为恶意程序,并抵御该多个恶意程序的攻击。然而,规则式特征比对的侦测机制仅基于已知样本特征进行侦测,且需在应用程序执行过程中撷取到一定数量的特征才有机会判断出目前被执行的应用程序是否为恶意程序。在此情况下,当恶意程序被侦测到时,此恶意程序可能已经造成计算机中的档案被损毁或用户的个人信息被窃取。有鉴于此,如何建立一种行为推论模型,其在应用程序被执行的初期,即可准确地推论后续的程序操作,以确实地预防计算机中的档案被损毁或用户的个人信息被窃取,乃是业界亟待解决的问题。
技术实现思路
本专利技术的目的在于提供一种行为推论模型(behaviorinferencemodel),其在应用程序被执行的初期,即可准确地推论后续的程序操作,以确实地预防计算机中的档案被损毁或用户的个人信息被窃取。为达上述目的,本专利技术揭露一种行为推论模型生成装置,其包含一存储器及一处理器。该存储器用以存储多个程序操作序列数据。各该程序操作序列数据记载多个程序操作序列。该处理器电性连接至该存储器,并用以执行下列步骤:(a)通过一词嵌入(wordembedding)模型,将各该程序操作序列数据的该多个程序操作序列转换成多个词向量;(b)针对各该程序操作序列数据,撷取该多个词向量的前M个词向量作为一生成式对抗网络(GenerativeAdversarialNetwork;GAN)模型的M个输入向量,M为一正整数;(c)针对各该程序操作序列数据,经由该GAN模型的一产生器(generator)运算该M个输入向量,以产生多个推论词向量;(d)针对各该程序操作序列数据,经由该GAN模型的一判别器(discriminator),对该多个词向量及该多个推论词向量进行一真伪判别;(e)将该真伪判别的一判别结果反馈至该产生器,以调整该产生器的一参数设定;(f)重复该步骤(c)至该步骤(e),训练该GAN模型,以优化该GAN模型;以及(g)整合该词嵌入模型及优化的该GAN模型的该产生器,生成一行为推论模型。此外,本专利技术更揭露一种用于一行为推论模型生成装置的行为推论模型生成方法。该行为推论模型生成装置包含一存储器及一处理器。该存储器存储多个程序操作序列数据。各该程序操作序列数据记载多个程序操作序列。该行为推论模型生成方法由该处理器执行且包含下列步骤:(a)通过一词嵌入模型,将各该程序操作序列数据的该多个程序操作序列转换成多个词向量;(b)针对各该程序操作序列数据,撷取该多个词向量的前M个词向量作为一生成式对抗网络(GAN)模型的M个输入向量,M为一正整数;(c)针对各该程序操作序列数据,经由该GAN模型的一产生器运算该M个输入向量,以产生多个推论词向量;(d)针对各该程序操作序列数据,经由该GAN模型的一判别器,对该多个词向量及该多个推论词向量进行一真伪判别;(e)将该真伪判别的一判别结果反馈至该产生器,以调整该产生器的一参数设定;(f)重复该步骤(c)至该步骤(e),训练该GAN模型,以优化该GAN模型;以及(g)整合该词嵌入模型及优化的该GAN模型的该产生器,生成一行为推论模型。在参阅附图及随后描述的实施方式后,本领域技术人员便可了解本专利技术的其他目的,以及本专利技术的技术手段及实施态样。【附图说明】图1是本专利技术的行为推论模型生成装置1的示意图;图2是一生成式对抗网络的示意图;图3是一程序操作序列数据的示意图;图4是描绘各词向量于一二维空间中的分布;图5是描绘分群后的各词向量群组;图6是本专利技术的行为推论模型生成方法的流程图;以及图7是本专利技术的行为推论模型生成方法中生成异常行为侦测模型的流程图。【符号说明】1:行为推论模型生成装置11:存储器13:处理器POSD:程序操作序列数据GM:生成式对抗网络模型GR:产生器DR:判别器IWV:输入向量PWV:推论词向量RT:判别结果WVD:词向量分布空间G1-G4:词向量群组V1-V11:词向量S601-S613:步骤S701-S707:步骤【具体实施方式】以下将通过实施例来解释本
技术实现思路
,本专利技术的实施例并非用以限制本专利技术须在如实施例所述的任何特定的环境、应用或特殊方式方能实施。因此,关于实施例的说明仅为阐释本专利技术的目的,而非用以限制本专利技术。需说明者,以下实施例及附图中,与本专利技术非直接相关的组件已省略而未绘示,且附图中各组件间的尺寸关系仅为求容易了解,并非用以限制实际比例。本专利技术第一实施例如图1-3所示。图1是本专利技术的行为推论模型生成装置1的示意图。行为推论模型生成装置1包含一存储器11及一处理器13。处理器13电性连接至存储器11。存储器11用以存储多个程序操作序列数据POSD。各程序操作序列数据POSD记载多个程序操作序列。举例而言,该多个程序操作序列可为一动态程序操作序列,例如:一应用程序编程接口(ApplicationProgrammingInterface;API)序列、一系统呼叫(SystemCall)序列,但不限于此。处理器13通过一词嵌入(wordembedding)模型,将各程序操作序列数据POSD的该多个程序操作序列转换成多个词向量WV。词嵌入(wordembedding)模型可例如为一词至向量(Word2Vec)模型或一独热编码(One-HotEncoding)模型。随后,如图2所示,针对各程序操作序列数据POSD,处理器13撷取该多个词向量WV的前M个词向量作为一生成式对抗网络(GenerativeAdversarialNetwork;GAN)模型GM的M个输入向量IWV,其中M为一正整数。须说明者,M的数值可由开发者基于动态程序操作序列的类型所设定,以决定输入至GAN模型GM作为推论基础的词向量个数。举例而言,以API序列作为说明,处理器13可通过一追踪程序撷取一正在执行的应用程序的100个API序列,并将其存储为一程序操作序列数据POSD,如图3所示。须说明者,基于版面的限制,图3中所显示的API序列仅为程序操作序列数据POSD中的一部分。随后,如同前述,针对各程序操作序列数据POSD,处理器13通过词嵌入模型将程序操作序列数据POSD中的100个API序列转换成100词向量WV。接着,针对各程序操作序列数据POSD,处理器13将100词向量WV中的前20个词向量作为GAN模型GM的输入向量IWV。请参考图2,处理器13针对各程序操作序列数据POSD,经由GAN模型GM的一产生器(generator)GR运算该M个输入向量IWV,以产生多个推论词向量PWV。推论词向量PWV的数量与词向量WV的数量相同(例如:100个),然而,此数量同样地可由开发者基于动态程序操作序列的类型所设定。处理器13针对各程序操作序列数据POSD,经由GAN模型GM的一判别本文档来自技高网
...

【技术保护点】
1.一种行为推论模型生成装置,其特征在于,包含:一存储器,用以存储多个程序操作序列数据,各该程序操作序列数据记载多个程序操作序列;以及一处理器,电性连接至该存储器,并用以执行下列步骤:(a)通过一词嵌入(word embedding)模型,将各该程序操作序列数据的该多个程序操作序列转换成多个词向量,(b)针对各该程序操作序列数据,撷取该多个词向量的前M个词向量作为一生成式对抗网络(Generative Adversarial Network;GAN)模型的M个输入向量,M为一正整数;(c)针对各该程序操作序列数据,经由该GAN模型的一产生器(generator)运算该M个输入向量,以产生多个推论词向量;(d)针对各该程序操作序列数据,经由该GAN模型的一判别器(discriminator),对该多个词向量及该多个推论词向量进行一真伪判别;(e)将该真伪判别的一判别结果反馈至该产生器,以调整该产生器的一参数设定;(f)重复该步骤(c)至该步骤(e),训练该GAN模型,以优化该GAN模型;以及(g)整合该词嵌入模型及优化的该GAN模型的该产生器,生成一行为推论模型。

【技术特征摘要】
1.一种行为推论模型生成装置,其特征在于,包含:一存储器,用以存储多个程序操作序列数据,各该程序操作序列数据记载多个程序操作序列;以及一处理器,电性连接至该存储器,并用以执行下列步骤:(a)通过一词嵌入(wordembedding)模型,将各该程序操作序列数据的该多个程序操作序列转换成多个词向量,(b)针对各该程序操作序列数据,撷取该多个词向量的前M个词向量作为一生成式对抗网络(GenerativeAdversarialNetwork;GAN)模型的M个输入向量,M为一正整数;(c)针对各该程序操作序列数据,经由该GAN模型的一产生器(generator)运算该M个输入向量,以产生多个推论词向量;(d)针对各该程序操作序列数据,经由该GAN模型的一判别器(discriminator),对该多个词向量及该多个推论词向量进行一真伪判别;(e)将该真伪判别的一判别结果反馈至该产生器,以调整该产生器的一参数设定;(f)重复该步骤(c)至该步骤(e),训练该GAN模型,以优化该GAN模型;以及(g)整合该词嵌入模型及优化的该GAN模型的该产生器,生成一行为推论模型。2.如权利要求1所述的行为推论模型生成装置,其特征在于,该多个程序操作序列是一动态程序操作序列。3.如权利要求2所述的行为推论模型生成装置,其特征在于,该动态程序操作序列为一应用程序编程接口(ApplicationProgrammingInterface;API)序列。4.如权利要求2所述的行为推论模型生成装置,其特征在于,该动态程序操作序列为一系统呼叫(SystemCall)序列。5.如权利要求2所述的行为推论模型生成装置,其特征在于,该动态程序操作序列是通过一追踪程序撷取。6.如权利要求1所述的行为推论模型生成装置,其特征在于,该词嵌入模型是一词至向量(Word2Vec)模型及一独热编码(One-HotEncoding)模型其中之一。7.如权利要求1所述的行为推论模型生成装置,其特征在于,该多个程序操作序列数据中包含多个异常程序操作序列数据,以及各该异常程序操作序列数据与一恶意程序相关联。8.如权利要求1所述的行为推论模型生成装置,其特征在于,该处理器更整合一异常行为侦测模型、该词嵌入模型及优化的该GAN模型的该产生器,以生成该行为推论模型。9.如权利要求8所述的行为推论模型生成装置,其特征在于,该存储器更存储多个行为标签,各该程序操作序列数据对应至该多个行为标签其中之一,以及该处理器更执行下列步骤:基于一聚类算法,将该多个程序操作序列数据的该多个词向量分群为多个词向量群组;将各该程序操作序列数据的该多个程序操作序列分别与各该词向量群组所包含的该多个词向量中至少一者所对应的该多个程序操作序列中至少一者进行一比对,以产生各该程序操作序列数据的一特征向量;基于该多个特征向量及该多个行为标签,进行一分类算法的一监督式学习,以生成一分类器,该分类器是用以将该多个特征向量分类以对应至该多个行为标签;以及基于该多个词向量群组及该分类器,生成该异常行为侦测模型。10.如权利要求9所述的行为推论模型生成装置,其特征在于,该聚类算法是一近邻传播(AffinityPropagation;AP)聚类算法、一谱(Spectral)聚类算法、一模糊均值(FuzzyC-means;FCM)聚类算法、一迭代自组织数据分析技术算法(IterativeSelf-OrganizingDataAnalysisTechniqueAlgorithm;ISODATA)聚类算法、一K平均值(K-means)聚类算法、一完整链接(Complete-linkage;CL)聚类算法、一单一链接(Single-Linkage;SL)聚类算法及一华德法(Ward’smethod)聚类算法其中之一,以及该分类算法是一支持向量机(supportvectormachine;SVM)算法、一决策树(DecisionTree;DT)算法、一贝叶斯(Bayes)算法及一邻近(NearestNeighbors;NN)算法其中之一。11.一种用于一行为推论模型生成装置的行为推论模型生成方法,该行...

【专利技术属性】
技术研发人员:赖家民卢嘉昱
申请(专利权)人:财团法人资讯工业策进会
类型:发明
国别省市:中国台湾,71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1