The invention discloses a method and a system for detecting malware malicious network traffic based on the word; includes the steps of establishing a malicious network traffic base; training model for malware detection; to stream content of HTTP network traffic detection segmentation, split into a set of words; to the quantization of a set of words: words will be set into a word vector the use of the word thesaurus transformation; vector input to the trained malware detection model, if the model checking of word vector results for malicious, find app source word vector corresponding to the network flow, and marked as malicious app. The use of this malicious network traffic thesaurus, we do not need to manually select the features, only need to get the results with the words in the thesaurus, and then build a detection model, it can be used for the detection of malicious traffic, which can distinguish the malicious traffic generated app malware.
【技术实现步骤摘要】
基于恶意网络流量词库的恶意软件检测方法及系统
本专利技术涉及一种基于恶意网络流量词库的恶意软件检测方法及系统。
技术介绍
随着移动终端的广泛使用,尤其是智能手机的迅速普及,移动智能终端带给现代社会巨大的变革,进入21世纪以来,我们已经迅速步入了移动时代。而手机已不再局限于传统意义上的通信业务,已经成为集电子商务、个人支付、社交娱乐等功能于一体的强大终端。通过网络流量来发现移动终端的恶意软件网络行为是近年新兴的一种恶意软件检测技术,并取得了一些初步的研究成果。通过网络流量来检测恶意软件不需要用户在终端设备上安装检测程序,极大地降低了用户终端设备的计算资源,但是,现有的基于移动终端网络流量的检测技术存在以下几个缺点:(1)现有的基于移动终端的网络流量检测恶意软件的方法也仅仅局限于某一类统计特征,如包长,包大小分布等等,或者是局限于某些特殊字段,如HTTP的host字段,request-uri字段等。这些方法都缺乏对移动终端网络流量特征进行系统性的总结和针对不同类型的网络流量特征的检测方法。(2)现在的网络流量特征的选择十分困难,它需要专家对移动应用的运行机制十分了解,还要清楚正常应用和恶意应用的网络流量的差别才能选择出有识别恶意流量价值的特征。
技术实现思路
本专利技术的目的就是为了解决上述问题,提供一种基于恶意网络流量词库的恶意软件检测方法及系统,使用这个恶意网络流量词库,我们不需要手动选择特征,只需要获取与词库中的单词的对比结果,然后建立出一个检测模型,就可以用于对恶意流量的检测,从而能够判别产生该恶意流量的app是恶意软件。为了实现上述目的,本专利技术采用如 ...
【技术保护点】
一种基于恶意网络流量词库的恶意软件检测方法,其特征是,包括如下步骤:步骤(1):建立恶意网络流量词库;步骤(2):训练恶意软件检测模型;步骤(3):对待检测HTTP网络流量的流内容进行分割,分割成单词集合;步骤(4):对单词集合进行向量化:将步骤(3)得到的单词集合利用步骤(1)得到的词库转变成词向量;步骤(5):将步骤(4)的词向量输入到步骤(2)训练出的恶意软件检测模型中,若模型对词向量的检测结果为恶意,则找到词向量对应的网络流的源头app,并标记为恶意app。
【技术特征摘要】
1.一种基于恶意网络流量词库的恶意软件检测方法,其特征是,包括如下步骤:步骤(1):建立恶意网络流量词库;步骤(2):训练恶意软件检测模型;步骤(3):对待检测HTTP网络流量的流内容进行分割,分割成单词集合;步骤(4):对单词集合进行向量化:将步骤(3)得到的单词集合利用步骤(1)得到的词库转变成词向量;步骤(5):将步骤(4)的词向量输入到步骤(2)训练出的恶意软件检测模型中,若模型对词向量的检测结果为恶意,则找到词向量对应的网络流的源头app,并标记为恶意app。2.如权利要求1所述的一种基于恶意网络流量词库的恶意软件检测方法,其特征是,所述步骤(1)的步骤为:步骤(1-1):获取正常的HTTP网络流量的内容,对获取到的正常的HTTP网络流量的内容进行分词,得到正常的HTTP网络流量的正常词集;进入步骤(1-3);步骤(1-2):获取恶意的HTTP网络流量的内容,对获取到的恶意的HTTP网络流量的内容进行分词,得到恶意的HTTP网络流量的恶意词集;进入步骤(1-4);步骤(1-3):对正常的HTTP网络流量的正常词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入步骤(1-5);步骤(1-4):对恶意的HTTP网络流量的恶意词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入步骤(1-5);步骤(1-5):将步骤(1-3)过滤后得到的正常词集和步骤(1-4)过滤后得到的恶意词集进行汇总得到第一汇总词集,利用每个单词在步骤(1-3)过滤后得到的正常词集和步骤(1-4)过滤后得到的恶意词集中出现频率,计算卡方值;步骤(1-6):利用卡方检验对第一汇总词集进行细粒度地单词过滤,利用卡方值从第一汇总词集中挑选出恶意单词,组成恶意网络流量词库。3.如权利要求2所述的一种基于恶意网络流量词库的恶意软件检测方法,其特征是,所述步骤(1-1)的步骤为:步骤(1-1-1):正常流内容获取,使用T-shark命令将正常网络流量文件中的每一条HTTP网络流的流内容写入到对应的文本文档中;步骤(1-1-2):利用特殊符号对文本文档中的内容进行分词处理,得到HTTP网络流量的正常词集;所述步骤(1-2)的步骤为:步骤(1-2-1):恶意流内容获取,使用T-shark命令将恶意网络流量文件中的每一条HTTP网络流的流内容写入到对应的文本文档中;步骤(1-2-2):利用特殊符号将每个保存恶意流内容的文本文件进行分词处理,得到恶意的HTTP网络流量的恶意词集;所述步骤(1-3)的步骤为:步骤(1-3-1):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉全部是数字的单词;步骤(1-3-2):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉在每条流中出现频率超过设定阈值的单词;步骤(1-3-3):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉停用词;所述步骤(1-4)的步骤为:步骤(1-4-1):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉全部是数字的单词;步骤(1-4-2):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉在每条流中出现频率超过设定阈值的单词;步骤(1-4-3):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉停用词。4.如权利要求2所述的一种基于恶意网络流量词库的恶意软件检测方法,其特征是,所述步骤(1-5)的步骤为:步骤(1-5-1):将正常的HTTP网络流量的正常词集和恶意的HTTP网络流量的恶意词集进行整合,组合成第一汇总词集;步骤(1-5-2):计算第一汇总词集中每个单词的词频:统计第一汇总词集中每个单词分别在恶意词集中出现的次数和在正常词集中出现的次数;步骤(1-5-3):归一化:对步骤(1-5-2)得到的统计次数进行归一化处理;步骤(1-5-4):卡方检验:利用每个单词在不同类别的单词集中出现的归一化之后的数值,根据卡方公式计算每个单词的得分,卡方公式如下:
【专利技术属性】
技术研发人员:王闪闪,陈贞翔,孙润元,杨波,彭立志,刘鹍,
申请(专利权)人:济南大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。