当前位置: 首页 > 专利查询>济南大学专利>正文

基于恶意网络流量词库的恶意软件检测方法及系统技术方案

技术编号:15395177 阅读:89 留言:0更新日期:2017-05-19 06:45
本发明专利技术公开了基于恶意网络流量词库的恶意软件检测方法及系统;包括如下步骤:建立恶意网络流量词库;训练恶意软件检测模型;对待检测HTTP网络流量的流内容进行分割,分割成单词集合;对单词集合进行向量化:将得到的单词集合利用得到的词库转变成词向量;将词向量输入到训练出的恶意软件检测模型中,若模型对词向量的检测结果为恶意,则找到词向量对应的网络流的源头app,并标记为恶意app。使用这个恶意网络流量词库,我们不需要手动选择特征,只需要获取与词库中的单词的对比结果,然后建立出一个检测模型,就可以用于对恶意流量的检测,从而能够判别产生该恶意流量的app是恶意软件。

Malware detection method and system based on malicious network flow Thesaurus

The invention discloses a method and a system for detecting malware malicious network traffic based on the word; includes the steps of establishing a malicious network traffic base; training model for malware detection; to stream content of HTTP network traffic detection segmentation, split into a set of words; to the quantization of a set of words: words will be set into a word vector the use of the word thesaurus transformation; vector input to the trained malware detection model, if the model checking of word vector results for malicious, find app source word vector corresponding to the network flow, and marked as malicious app. The use of this malicious network traffic thesaurus, we do not need to manually select the features, only need to get the results with the words in the thesaurus, and then build a detection model, it can be used for the detection of malicious traffic, which can distinguish the malicious traffic generated app malware.

【技术实现步骤摘要】
基于恶意网络流量词库的恶意软件检测方法及系统
本专利技术涉及一种基于恶意网络流量词库的恶意软件检测方法及系统。
技术介绍
随着移动终端的广泛使用,尤其是智能手机的迅速普及,移动智能终端带给现代社会巨大的变革,进入21世纪以来,我们已经迅速步入了移动时代。而手机已不再局限于传统意义上的通信业务,已经成为集电子商务、个人支付、社交娱乐等功能于一体的强大终端。通过网络流量来发现移动终端的恶意软件网络行为是近年新兴的一种恶意软件检测技术,并取得了一些初步的研究成果。通过网络流量来检测恶意软件不需要用户在终端设备上安装检测程序,极大地降低了用户终端设备的计算资源,但是,现有的基于移动终端网络流量的检测技术存在以下几个缺点:(1)现有的基于移动终端的网络流量检测恶意软件的方法也仅仅局限于某一类统计特征,如包长,包大小分布等等,或者是局限于某些特殊字段,如HTTP的host字段,request-uri字段等。这些方法都缺乏对移动终端网络流量特征进行系统性的总结和针对不同类型的网络流量特征的检测方法。(2)现在的网络流量特征的选择十分困难,它需要专家对移动应用的运行机制十分了解,还要清楚正常应用和恶意应用的网络流量的差别才能选择出有识别恶意流量价值的特征。
技术实现思路
本专利技术的目的就是为了解决上述问题,提供一种基于恶意网络流量词库的恶意软件检测方法及系统,使用这个恶意网络流量词库,我们不需要手动选择特征,只需要获取与词库中的单词的对比结果,然后建立出一个检测模型,就可以用于对恶意流量的检测,从而能够判别产生该恶意流量的app是恶意软件。为了实现上述目的,本专利技术采用如下技术方案:一种基于恶意网络流量词库的恶意软件检测方法,包括如下步骤:步骤(1):建立恶意网络流量词库;步骤(2):训练恶意软件检测模型;步骤(3):对待检测HTTP网络流量的流内容进行分割,分割成单词集合;步骤(4):对单词集合进行向量化:将步骤(3)得到的单词集合利用步骤(1)得到的词库转变成词向量;步骤(5):将步骤(4)的词向量输入到步骤(2)训练出的恶意软件检测模型中,若模型对词向量的检测结果为恶意,则找到词向量对应的网络流的源头app,并标记为恶意app。所述步骤(1)的步骤为:步骤(1-1):获取正常的HTTP网络流量的内容,对获取到的正常的HTTP网络流量的内容进行分词,得到正常的HTTP网络流量的正常词集;进入步骤(1-3);步骤(1-2):获取恶意的HTTP网络流量的内容,对获取到的恶意的HTTP网络流量的内容进行分词,得到恶意的HTTP网络流量的恶意词集;进入步骤(1-4);步骤(1-3):对正常的HTTP网络流量的正常词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入步骤(1-5);步骤(1-4):对恶意的HTTP网络流量的恶意词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入步骤(1-5);步骤(1-5):将步骤(1-3)过滤后得到的正常词集和步骤(1-4)过滤后得到的恶意词集进行汇总得到第一汇总词集,利用每个单词在步骤(1-3)过滤后得到的正常词集和步骤(1-4)过滤后得到的恶意词集中出现频率,计算卡方值;步骤(1-6):利用卡方检验对第一汇总词集进行细粒度地单词过滤,利用卡方值从第一汇总词集中挑选出恶意单词,组成恶意网络流量词库。所述步骤(1-1)的步骤为:步骤(1-1-1):正常流内容获取,使用T-shark命令将正常网络流量文件中的每一条HTTP网络流的流内容写入到对应的文本文档中;步骤(1-1-2):利用特殊符号对文本文档中的内容进行分词处理,得到HTTP网络流量的正常词集。所述特殊符号,包括:逗号、冒号、分号、&、百分号、等号和空格。所述T-shark命令是:“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”。所述正常网络流量文件是:正常app因为连接网络而产生的网络流量文件。所述步骤(1-2)的步骤为:步骤(1-2-1):恶意流内容获取,使用T-shark命令将恶意网络流量文件中的每一条HTTP网络流的流内容写入到对应的文本文档中;步骤(1-2-2):利用特殊符号将每个保存恶意流内容的文本文件进行分词处理,得到恶意的HTTP网络流量的恶意词集。所述特殊符号,包括:逗号、冒号、分号、&、百分号、等号和空格。所述T-shark命令是:tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名。所述恶意网络流量文件是:一个恶意app因为连接网络而产生的网络流量文件。所述步骤(1-3)的步骤为:步骤(1-3-1):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉全部是数字的单词;步骤(1-3-2):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉在每条流中出现频率超过设定阈值的单词;步骤(1-3-3):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉停用词。所述步骤(1-3-2)中出现频率超过设定阈值的单词包括:host、request-method和request-encoding;所述步骤(1-3-3)中停用词包括:the,a,is和this。所述步骤(1-4)的步骤为:步骤(1-4-1):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉全部是数字的单词;步骤(1-4-2):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉在每条流中出现频率超过设定阈值的单词;步骤(1-4-3):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉停用词。所述步骤(1-4-2)中出现频率超过设定阈值的单词包括:host、request-method和request-encoding;所述步骤(1-4-3)中停用词包括:the、a、is和this。所述步骤(1-5)的步骤为:步骤(1-5-1):将正常的HTTP网络流量的正常词集和恶意的HTTP网络流量的恶意词集进行整合,组合成第一汇总词集;步骤(1-5-2):计算第一汇总词集中每个单词的词频:统计第一汇总词集中每个单词分别在恶意词集中出现的次数和在正常词集中出现的次数;步骤(1-5-3):归一化:对步骤(1-5-2)得到的统计次数进行归一化处理;步骤(1-5-4):卡方检验:利用每个单词在不同类别的单词集中出现的归一化之后的数值,根据卡方检验公式计算每个单词的得分,卡方检验公式如下:其中,χ2(t,c)指的是特征t(一个单词)和类别c(恶意)之间的卡方值,χ2(t,c)值越大,说明特征t对类别c的表征程度就越大,特征t在类别c中就越有意义。是指特征t和类别c共同出现的次数,是指假设特征t和类别c相互独立时,两者共同出现的期望次数,et和ec的值都属于(0,1)的集合中,即如果类别c或者特征t出现记作1,如果类别c或特征t没有出现记作0。所述步骤(1-6)的步骤为:步骤(1-6-1):设定分数的阈值或者是设定得分排序排在前K位的K值;步骤(1-6-2):遍历总单词集合中的每个单词,判断单词遍历是否结束;若是,就结束;若否,就进入步骤(1-6-3);步骤(1-6-3本文档来自技高网...
基于恶意网络流量词库的恶意软件检测方法及系统

【技术保护点】
一种基于恶意网络流量词库的恶意软件检测方法,其特征是,包括如下步骤:步骤(1):建立恶意网络流量词库;步骤(2):训练恶意软件检测模型;步骤(3):对待检测HTTP网络流量的流内容进行分割,分割成单词集合;步骤(4):对单词集合进行向量化:将步骤(3)得到的单词集合利用步骤(1)得到的词库转变成词向量;步骤(5):将步骤(4)的词向量输入到步骤(2)训练出的恶意软件检测模型中,若模型对词向量的检测结果为恶意,则找到词向量对应的网络流的源头app,并标记为恶意app。

【技术特征摘要】
1.一种基于恶意网络流量词库的恶意软件检测方法,其特征是,包括如下步骤:步骤(1):建立恶意网络流量词库;步骤(2):训练恶意软件检测模型;步骤(3):对待检测HTTP网络流量的流内容进行分割,分割成单词集合;步骤(4):对单词集合进行向量化:将步骤(3)得到的单词集合利用步骤(1)得到的词库转变成词向量;步骤(5):将步骤(4)的词向量输入到步骤(2)训练出的恶意软件检测模型中,若模型对词向量的检测结果为恶意,则找到词向量对应的网络流的源头app,并标记为恶意app。2.如权利要求1所述的一种基于恶意网络流量词库的恶意软件检测方法,其特征是,所述步骤(1)的步骤为:步骤(1-1):获取正常的HTTP网络流量的内容,对获取到的正常的HTTP网络流量的内容进行分词,得到正常的HTTP网络流量的正常词集;进入步骤(1-3);步骤(1-2):获取恶意的HTTP网络流量的内容,对获取到的恶意的HTTP网络流量的内容进行分词,得到恶意的HTTP网络流量的恶意词集;进入步骤(1-4);步骤(1-3):对正常的HTTP网络流量的正常词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入步骤(1-5);步骤(1-4):对恶意的HTTP网络流量的恶意词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入步骤(1-5);步骤(1-5):将步骤(1-3)过滤后得到的正常词集和步骤(1-4)过滤后得到的恶意词集进行汇总得到第一汇总词集,利用每个单词在步骤(1-3)过滤后得到的正常词集和步骤(1-4)过滤后得到的恶意词集中出现频率,计算卡方值;步骤(1-6):利用卡方检验对第一汇总词集进行细粒度地单词过滤,利用卡方值从第一汇总词集中挑选出恶意单词,组成恶意网络流量词库。3.如权利要求2所述的一种基于恶意网络流量词库的恶意软件检测方法,其特征是,所述步骤(1-1)的步骤为:步骤(1-1-1):正常流内容获取,使用T-shark命令将正常网络流量文件中的每一条HTTP网络流的流内容写入到对应的文本文档中;步骤(1-1-2):利用特殊符号对文本文档中的内容进行分词处理,得到HTTP网络流量的正常词集;所述步骤(1-2)的步骤为:步骤(1-2-1):恶意流内容获取,使用T-shark命令将恶意网络流量文件中的每一条HTTP网络流的流内容写入到对应的文本文档中;步骤(1-2-2):利用特殊符号将每个保存恶意流内容的文本文件进行分词处理,得到恶意的HTTP网络流量的恶意词集;所述步骤(1-3)的步骤为:步骤(1-3-1):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉全部是数字的单词;步骤(1-3-2):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉在每条流中出现频率超过设定阈值的单词;步骤(1-3-3):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉停用词;所述步骤(1-4)的步骤为:步骤(1-4-1):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉全部是数字的单词;步骤(1-4-2):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉在每条流中出现频率超过设定阈值的单词;步骤(1-4-3):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉停用词。4.如权利要求2所述的一种基于恶意网络流量词库的恶意软件检测方法,其特征是,所述步骤(1-5)的步骤为:步骤(1-5-1):将正常的HTTP网络流量的正常词集和恶意的HTTP网络流量的恶意词集进行整合,组合成第一汇总词集;步骤(1-5-2):计算第一汇总词集中每个单词的词频:统计第一汇总词集中每个单词分别在恶意词集中出现的次数和在正常词集中出现的次数;步骤(1-5-3):归一化:对步骤(1-5-2)得到的统计次数进行归一化处理;步骤(1-5-4):卡方检验:利用每个单词在不同类别的单词集中出现的归一化之后的数值,根据卡方公式计算每个单词的得分,卡方公式如下:

【专利技术属性】
技术研发人员:王闪闪陈贞翔孙润元杨波彭立志刘鹍
申请(专利权)人:济南大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1