【技术实现步骤摘要】
一种预训练语言模型的生成、检测方法及装置
本专利技术涉及网络安全领域,尤其涉及一种预训练语言模型的生成、检测方法及装置。
技术介绍
近些年来,在大量不法资金的助力下,黑灰产业蓬勃发展,市值已高达千亿元规模。在此基础上,黑客根据现有反病毒软件存在的漏洞,研发出各种逃避反病毒软件的工具。而如果不能正确识别恶意软件,就可能会导致恶意软件大肆传播,就会给整个社会和国家带来非常巨大的危害。所以,检测恶意软件就显得至关重要。在检测恶意软件的应用中,早期通过特征码和人工规则的方法对软件进行静态检测。随着技术的发展,动态检测方法也开始崭露头角,它的本质是把软件放置沙箱中模拟运行,得到运行后的API指令序列(文本信息),然后通过一定的方法对API指令序列进行分析和检测。一些技术中,通过传统机器学习的方法来进行动态检测,即需要人工进行提取特征,然后使用SVM分类器进行分类。该方法存在着几个弊端,如人工提取特征不仅费时费力,很难满足模型快速迭代的需求,而且手动的特征工程很难提取到有效的组合特征;另外,上述方法仅仅利用了高质量的标注数据,而未对海量的无标注数据进行挖掘。
技术实现思路
为了解决上述技术问题,本公开提供了一种预训练语言模型的生成及装置,可以通过对API指令序列进行编码,以用于预训练语言模型。本公开提供了一种检测方法及装置,可以利用预训练语言模型对恶意软件进行检测,提高网络安全能力。本公开提供了一种预训练语言模型的生成方法,包括:获取多个训练用的动态API指令序列;分别 ...
【技术保护点】
1.一种预训练语言模型的生成方法,其特征在于,包括:/n获取多个训练用的动态API指令序列;/n分别对所获取的每个API指令序列按照预定的编码规则进行编码,得到多个API指令编码序列;/n根据所述多个API指令编码序列对预设的语言模型进行训练,得到预训练语言模型。/n
【技术特征摘要】
1.一种预训练语言模型的生成方法,其特征在于,包括:
获取多个训练用的动态API指令序列;
分别对所获取的每个API指令序列按照预定的编码规则进行编码,得到多个API指令编码序列;
根据所述多个API指令编码序列对预设的语言模型进行训练,得到预训练语言模型。
2.根据权利要求1所述的预训练语言模型的生成方法,其特征在于,所述分别对所获取的每个API指令序列按照预定的编码规则进行编码,包括:
将所获取的每个API指令序列进行分段;其中,每段API指令序列中所含的API指令序列为单个相同的API连续序列;
分别将每段API指令序列按照预定的编码规则编码。
3.根据权利要求2所述的预训练语言模型的生成方法,其特征在于,所述分别将每段API指令序列按照预定的编码规则编码,包括:
对于每段API指令序列分别按照如下规则编码:
当该段中API指令出现1次时,将该段API指令序列编码为API_0;
当该段中API指令连续出现2至i次时,将该段API指令序列编码为API_1;
当该段中API连续出现i至j次时,将该段API指令序列编码为API_2;
当该段中API连续出现大于等于j时,将该段API指令序列编码为API_3;其中,i和j为正整数,i<j。
4.根据权利要求1所述的预训练语言模型的生成方法,其特征在于,所述预设的语言模型为BERT模型;
所述根据所述多个API指令编码序列对预设的语言模型进行训练,包括:
分别对每个API指令编码序列中预定比例的API指令编码进行遮蔽后输入BERT模型,通过BERT模型对遮蔽的API指令编码进行预测,以训练BERT模型;其中,对一个API指令编码序列中预定比例的API指令编码进行遮蔽包括:
在该API指令编码序列中,随机选择API指令编码序列中预定比例的API指令编码;
对于所选择的API指令编码,按照n-gram模型进行随机动态遮蔽:
n=1时,对于所选择的API指令编码进行随机动态遮蔽;
n大于1时,对于所选择的API指令编码及其相邻的n-1个API指令编码进行随机动态遮蔽;
n为1到5中任一个正整数,包括1和5;
其中,随机动态遮蔽是指随机按照多种预定模式中的一种进行遮蔽。
5.一种检测方法,其特征在于,包括:
获取待检测软件的动态API指令序列;
对所获取的动态API指令序列编码,得到待检测的API指令编码序列;
根据待检测的API指令编码序列和如权利要求1-4中任一项所述的方法所得到的预训练语言模型,得到检测结果。
6.根据权利...
【专利技术属性】
技术研发人员:刘洋,
申请(专利权)人:北京启明星辰信息安全技术有限公司,启明星辰信息技术集团股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。