【技术实现步骤摘要】
基于机器学习的大规模嵌入式设备在线固件智能识别方法
本专利技术涉及固件URL识别与嵌入式软件安全
,更具体地,涉及一种基于机器学习的大规模嵌入式设备在线固件智能识别方法。
技术介绍
随着互联网时代的变革,物联网产业飞速发展,工业4.0的稳步推进,智能嵌入式设备网络化程度越来越高,信息化融入工业设备的浪潮已经势不可挡。智能嵌入式设备在给人们带来方便的同时,也使嵌入式设备系统甚至是整个网络空间安全面临着巨大挑战。因此,针对嵌入式设备的研究也已经成为信息安全领域的研究重点和热点问题。固件是运行在嵌入式设备中的二进制程序,用于初始化硬件、启动操作系统和管理计算机平台资源,它应用在非常广泛的智能设备中,如路由器、交换机、打印机、网络摄像头、无人机、工业机器人、工控设备PLC和RTU等,甚至许多嵌入式设备硬件除了固件之外没有其他相关软件组成。因此,固件可以说是硬件设备的灵魂,并对硬件设备的功能和性能起着决定性作用。近年来,固件漏洞频频爆出,如OWASP调查显示,2014年在针对物联网设备的攻击和漏洞威胁中,对嵌入式设备固件的攻击名列第九;2017年11月英特尔对外表示其近年来售出的几乎所有PC芯片都存在多个严重的软件安全漏洞,并在英特尔管理引擎(ME)、英特尔服务器平台服务(SPS)以及英特尔可信执行引擎(TXE)固件产品中发现了一些安全漏洞;2018年8月出现过20万台MikroTik路由器固件由于存在Vault漏洞,遭到数字货币挖矿恶意软件攻击。固件安全攻击事件地频频发生,导致嵌入式设备系统甚至整个网络空间安全将面临严峻的挑战。嵌入式设备固件存在的安全漏洞已 ...
【技术保护点】
1.一种基于机器学习的大规模嵌入式设备在线固件智能识别方法,其特征在于,包括:获取待识别的嵌入式设备厂商的网站域内的所有统一资源定位符URL;提取每个所述URL的多维特征,并将所述多维特征转化为数值特征,并利用文本挖掘加权技术的词频‑逆向文件频率TF‑IDF算法对每个所述URL进行特征提取,获得每个所述URL的文本特征;将所有所述URL对应的数值特征输入至预先训练好的第一嵌入式设备固件URL识别模型中进行预测,获得第一嵌入式设备固件URL集合,将所有所述URL的文本特征输入至预先训练好的第二嵌入式设备固件URL识别模型中进行预测,获得第二嵌入式设备固件URL集合,取所述第一嵌入式设备固件URL集合与第二嵌入式设备固件URL集合的交集作为所述待识别的嵌入式设备厂商对应的嵌入式设备固件URL集合进行输出;其中,所述第一嵌入式设备固件URL识别模型是利用机器学习方法根据经过多维特征提取和数值特征转化的URL样本进行训练后获得的,所述第二嵌入式设备固件URL识别模型是利用机器学习方法根据经过文本特征提取的带有标签的URL样本进行训练获得的。
【技术特征摘要】
1.一种基于机器学习的大规模嵌入式设备在线固件智能识别方法,其特征在于,包括:获取待识别的嵌入式设备厂商的网站域内的所有统一资源定位符URL;提取每个所述URL的多维特征,并将所述多维特征转化为数值特征,并利用文本挖掘加权技术的词频-逆向文件频率TF-IDF算法对每个所述URL进行特征提取,获得每个所述URL的文本特征;将所有所述URL对应的数值特征输入至预先训练好的第一嵌入式设备固件URL识别模型中进行预测,获得第一嵌入式设备固件URL集合,将所有所述URL的文本特征输入至预先训练好的第二嵌入式设备固件URL识别模型中进行预测,获得第二嵌入式设备固件URL集合,取所述第一嵌入式设备固件URL集合与第二嵌入式设备固件URL集合的交集作为所述待识别的嵌入式设备厂商对应的嵌入式设备固件URL集合进行输出;其中,所述第一嵌入式设备固件URL识别模型是利用机器学习方法根据经过多维特征提取和数值特征转化的URL样本进行训练后获得的,所述第二嵌入式设备固件URL识别模型是利用机器学习方法根据经过文本特征提取的带有标签的URL样本进行训练获得的。2.根据权利要求1所述的方法,其特征在于,所述获取待识别的多个嵌入式设备厂商的网站域内的所有统一资源定位符URL的步骤之前,还包括:构建URL样本集,所述URL样本集中包括嵌入式设备固件URL样本和其他类型URL样本;提取所述URL样本集中每个URL样本的多维特征,并将所述URL样本集中每个URL样本的多维特征转化为数值特征;利用TF-IDF算法对所述URL样本集中每个URL样本进行特征提取,获得所述URL样本集中每个URL样本的文本特征;基于所述URL样本集中每个URL样本的数值特征,使用机器学习的二分类算法和K折交叉验证方法进行重复训练和测试,构建第一嵌入式设备固件URL识别模型;基于所述URL样本集中每个URL样本的文本特征以及每个所述URL样本对应的标签,使用机器学习的二分类算法和K折交叉验证方法进行重复训练和测试,构建第二嵌入式设备固件URL识别模型。3.根据权利要求1或2所述的方法,其特征在于,所述多维特征包括:区分嵌入式设备固件URL和其他类型URL的字符串特征,区分嵌入式设备固件URL和其他类型URL的模拟请求特征,以及区分嵌入式设备固件URL和其他类型URL的网页信息特征,其中,所述字符串特征包括:URL长度、URL目录路径深度、URL是否含有预设的关键词、URL是否以预设的扩展名结尾、URL是否含有日期、URL是否含有版本号和URL字符串中点的个数;所述模拟请求特征包括:URL请求的内容类型、URL请求的文件大小、URL请求的文件名长度和URL请求的文件名长度占实际请求链接长度的百分比;所述网页信息特征具体为:URL请求页面内容中是否含有预设的关键字符串。4.根据权利要求2所述的方法,其特征在于,所述构建URL样本集的步骤,具体为:针对预选的多个特定的嵌入式设备厂商,利用预先开发的嵌入式设备固件URL爬虫,收集相应嵌入式设备厂商网站域内的嵌入式设备固件URL和固件描述信息,并标记为正样本;利用预先开发的URL爬虫收集所述嵌入式设备厂商网站内的所有URL,过滤所述嵌入式设备固件URL,获得其他类型URL,并将所述其他类型URL标记为负样本;收集所述正样本和负...
【专利技术属性】
技术研发人员:石志强,张国栋,杨寿国,刘明东,马原,孙利民,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。