一种文件风险检测方法和装置制造方法及图纸

技术编号:22056116 阅读:18 留言:0更新日期:2019-09-07 15:33
本发明专利技术实施例公开了一种文件风险检测方法和装置,该文件风险检测方法包括:在检测到网页文件异常时,获取网页文件;对网页文件进行文件标签分析,得到网页文件的多维文件特征数据;根据预先获取的全网文件特征统计信息,对网页文件的多维文件特征数据进行全局信息整合,得到多维文件风险信息;当多维文件风险信息达到预设要求时,确定网页文件为恶意网页文件。本发明专利技术实施例中实现不依赖文件内容即可分析文件恶意程度,有效确认是否恶意网页文件,避免了网页文件的漏检情况,提升了检测准确度的同时具备更好的实时性。

A Document Risk Detection Method and Device

【技术实现步骤摘要】
一种文件风险检测方法和装置
本专利技术涉及通信
,具体涉及一种文件风险检测方法和装置。
技术介绍
Webshell指的是以动态服务器页面(ActiveServerPages,ASP)、超文本预处理器(HypertextPreprocessor,PHP)、java服务器页面(JavaServerPages,JSP)或者公共网关接口(CommonGatewayInterface,CGI)等网页文件形式存在的一种命令执行环境,也可以将其称作为一种网页后门。入侵者在入侵了一个网站后,通常会将ASP或PHP等后门文件与网站服务器的目录下正常的网页文件混在一起,然后就可以使用浏览器来访问ASP或者PHP等后门文件,得到一个命令执行环境,通过Webshell取得对网站服务器在某种程度上的操作权限,从而达到控制网站服务器的目的。现有技术中,对Webshell文件的检测主要采用文本内容匹配的检测方法,通过对站点目录的遍历发现现存的网页文件,并对其中的ASP、PHP、JSP等可解析执行的动态脚本文件进行内容分析,采用基于文本静态内容进行特征匹配,并将命中的文本段上报后台,每个文件对应的一个或多个文本段在后台整合重组,得到整体特征模式,随后与全局知识库进行特征匹配对比,当全局出现大量同类相同特征,则认为不是离群点并标记为安全文件,或当特征对应文件已被运营人员处理并标记为安全,则此类文件会被认为具有同质内容而不是Webshell文件。现有技术存在的一个较大问题是,需要对文本静态特征进行特征匹配,当命中相应特征才会进入后台检测分析流程,当入侵者刻意绕过检测,使用变形或更隐蔽的控制函数,使恶意网页文件不具备对应的检测特征,则系统感知不到目标机器上存在这个文件,存在漏过检测的风险,检测的准确性低,无法有效保障网站服务器安全。
技术实现思路
本专利技术实施例提供一种文件风险检测方法和装置,有效避免了网页文件的漏检情况,提升了检测准确度,具备更好的实时性。第一方面,本申请提供一种文件风险检测方法,所述方法包括:在检测到网页文件异常时,获取所述网页文件;对所述网页文件进行文件标签分析,得到所述网页文件的多维文件特征数据;根据预先获取的全网文件特征统计信息,对所述网页文件的多维文件特征数据进行全局信息整合,得到多维文件风险信息;当所述多维文件风险信息达到预设要求时,确定所述网页文件为恶意网页文件。可选的,所述当所述多维文件风险信息达到预设要求时,确定所述网页文件为恶意网页文件,包括:根据所述多维文件风险信息对所述网页文件进行评分;当所述评分达到第一预设阈值时,确定所述网页文件为恶意网页文件。可选的,所述根据所述多维文件风险信息对所述网页文件进行评分,包括:获取预置的每种文件风险信息权重值;根据所述每种文件风险信息权重值及所述多维文件风险信息中每种文件风险信息,计算每种文件风险信息的有效风险数值;对每种文件风险信息的有效风险数值进行求和运算,得到所述网页文件的评分。可选的,所述方法还包括:当所述评分达到第二预设阈值,且未达到所述第一预设阈值时,对所述网页文件进行标记;按预设的第一时间周期,对本地标记的网页文件进行风险检测。可选的,所述方法还包括:当所述评分达到第二预设阈值,且未达到所述第一预设阈值时,获取用户对所述网页文件的判断指令,所述判断指令用于判断所述网页文件是否为恶意网页文件;在所述判断指令为确定指令时,确定所述网页文件为恶意网页文件。第二方面,本申请提供一种文件风险检测装置,所述装置包括:第一获取单元,用于在检测到网页文件异常时,获取所述网页文件;分析单元,用于对所述网页文件进行文件标签分析,得到所述网页文件的多维文件特征数据;信息整合单元,用于根据预先获取的全网文件特征统计信息,对所述网页文件的多维文件特征数据进行全局信息整合,得到多维文件风险信息;第一确定单元,用于当所述多维文件风险信息达到预设要求时,确定所述网页文件为恶意网页文件。可选的,所述多维文件特征数据包括所述文件时间特征数据,所述多维文件风险信息包括文件时间风险信息;所述第三提取子单元具体用于:根据所述全网文件特征统计信息中的文件时间特征信息,统计全网与所述文件时间特征数据中目标时间特征相同的目标文件数量;根据预设的文件数量与文件时间风险数值对应关系及所述目标文件数量,确定所述文件时间特征数据的文件时间风险数值;其中,所述文件时间风险信息包括所述文件时间风险数值。可选的,所述多维文件特征数据包括所述文件内容特征数据,所述多维文件风险信息包括文件内容风险信息;所述第四提取子单元具体用于:根据所述全网文件特征统计信息中的文件内容特征信息,统计全网与所述网页文件存在相同文件内容的第一文件数量;根据所述第一文件数量及预设的文件数量与文件内容风险数值的第一对应关系,确定所述文件内容特征数据对应的第一文件内容风险数值;其中,所述文件内容风险信息包括所述第一文件内容风险数值。可选的,所述第四提取子单元具体用于:统计本地与所述网页文件存在相同文件内容的第二文件数量;根据所述第二文件数量及预设的文件数量与文件内容风险数值的第二对应关系,确定所述文件内容特征数据对应的第二文件内容风险数值;其中,所述文件内容风险信息还包括所述第二文件内容风险数值。可选的,所述第一确定单元包括:评分子单元,用于根据所述多维文件风险信息对所述网页文件进行评分;确定子单元,用于当所述评分达到第一预设阈值时,确定所述网页文件为恶意网页文件。可选的,所述评分子单元具体用于:获取预置的每种文件风险信息权重值;根据所述每种文件风险信息权重值及所述多维文件风险信息中每种文件风险信息,计算每种文件风险信息的有效风险数值;对每种文件风险信息的有效风险数值进行求和运算,得到所述网页文件的评分。可选的,所述装置还包括:标记单元,用于当所述评分达到第二预设阈值,且未达到所述第一预设阈值时,对所述网页文件进行标记;检测单元,用于按预设的第一时间周期,对本地标记的网页文件进行风险检测。可选的,所述装置还包括:第二获取单元,用于当所述评分达到第二预设阈值,且未达到所述第一预设阈值时,获取用户对所述网页文件的判断指令,所述判断指令用于判断所述网页文件是否为恶意网页文件;第二确定单元,用于在所述判断指令为确定指令时,确定所述网页文件为恶意网页文件。可选的,所述装置还包括:第一发送单元,用于在所述根据预先获取的全网文件特征统计信息,对所述网页文件的多维文件特征数据进行全局信息整合,得到多维文件风险信息之前,向统计全网文件特征的统计服务器发送统计信息请求,以使得所述统计服务器根据所述统计信息请求发送全网文件特征统计信息;接收单元,用于接收所述统计服务器发送的所述全网文件特征统计信息。可选的,所述装置还包括:统计单元,用于按预设的第二时间周期,统计本地文件特征信息;第二发送单元,用于向所述统计服务器发送所述本地文件特征信息,以便所述统计服务器定期更新全网文件特征统计信息。第三方面,本申请提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行第一方面中任一项所述的文件风险检测方法中的步骤。本专利技术实施例通过在检测到网页文件异常时,获取网页文件;对网页文件进行文件标签分析,得到网页文件的多维文件特征数据;根据预先获取本文档来自技高网
...

【技术保护点】
1.一种文件风险检测方法,其特征在于,所述方法包括:在检测到网页文件异常时,获取所述网页文件;对所述网页文件进行文件标签分析,得到所述网页文件的多维文件特征数据;根据预先获取的全网文件特征统计信息,对所述网页文件的多维文件特征数据进行全局信息整合,得到多维文件风险信息;当所述多维文件风险信息达到预设要求时,确定所述网页文件为恶意网页文件。

【技术特征摘要】
1.一种文件风险检测方法,其特征在于,所述方法包括:在检测到网页文件异常时,获取所述网页文件;对所述网页文件进行文件标签分析,得到所述网页文件的多维文件特征数据;根据预先获取的全网文件特征统计信息,对所述网页文件的多维文件特征数据进行全局信息整合,得到多维文件风险信息;当所述多维文件风险信息达到预设要求时,确定所述网页文件为恶意网页文件。2.根据权利要求1所述的文件风险检测方法,其特征在于,所述对所述网页文件进行文件标签分析,得到所述网页文件的多维文件特征数据的步骤,包括如下至少两个步骤:对所述网页文件进行文件名特征提取,得到文件名特征数据;对所述网页文件进行文件路径特征提取,得到文件路径特征数据;对所述网页文件进行文件时间特征提取,得到文件时间特征数据;对所述网页文件进行文件内容特征提取,得到文件内容特征数据。3.根据权利要求2所述的文件风险检测方法,其特征在于,所述多维文件特征数据包括所述文件名特征数据,所述多维文件风险信息包括文件名风险信息;所述根据预先获取的全网文件特征统计信息,对所述网页文件的多维文件特征数据进行全局信息整合,得到多维文件风险信息,包括:根据所述全网文件特征统计信息,获取所述文件名特征数据中各文件名词语全网出现的频次;根据所述频次及预设的频次与文件名风险数值对应关系,确定所述文件名特征数据对应的第一文件名风险数值;检测所述文件名特征数据中是否出现预设类型词语,以确定所述文件名特征数据对应的第二文件名风险数值;其中,所述文件名风险信息包括所述第一文件名风险数值和所述第二文件名风险数值。4.根据权利要求3所述的文件风险检测方法,其特征在于,所述检测所述文件名特征数据中是否出现预设类型词语,以确定所述文件名特征数据对应的第二文件名风险数值,包括:检测所述文件名特征数据中是否出现预设类型词语;若出现预设类型词语,以预设的第一数值作为所述第二文件名风险数值;若未出现预设类型词语,以预设的第二数值作为所述第二文件名风险数值。5.根据权利要求2所述的文件风险检测方法,其特征在于,所述多维文件特征数据包括所述文件路径特征数据,所述文件路径特征数据包括文件路径深度数据和文件路径安全标签数据,所述多维文件风险信息包括文件路径风险信息;所述根据预先获取的全网文件特征统计信息,对所述网页文件的多维文件特征数据进行全局信息整合,得到多维文件风险信息,包括:根据预设的文件路径深度与文件路径风险数值对应关系,确定所述文件路径深度数据对应的第一文件路径风险数值;检测所述文件路径安全标签数据中是否存在所述目标文件路径关键词,以确定所述文件路径安全标签数据对应的第二文件路径风险数值,其中,所述目标文件路径关键词为所述全网文件特征统计信息中包括的不安全文件路径关键词;其中,所述文件路径风险信息包括第一文件路径风险数值和所述第二文件路径风险数值。6.根据权利要求2所述的文件风险检测方法,其特征在于,所述多维文件特征数据包括所述文件时间特征数据,所述多维文件风险信息包括文件时间风险信息;所述根据预先获取的全网文件特征统计信息,对所述网页文件的多维文件特征数据进行全局信息整合,得到多维文件风险信息,包括:根据所述全网文件特征统计信息中的文件时间特征信息,统计全网与所述文件时间特征数据中目标时间特征相同的目标文件数量;根据预设的文件数量与文件时间风险数值对应关系及所述目标文件数量,确定所述文件时间特征数据的文件时间风险数值;其中,所述文件时间风险信息包括所述文件时间风险数值。7.根据权利要求2所述的文件风险检测方法,其特征在于,所述多维文件特征数据包括所述文件内容特征数据,所述多维文件风险信息包括文件内容风险信息;所述根据预先获取的全网文件特征统计信息,对所述网页文件的多维文件特征数据进行全局信息整合,得到多维文件风险信息,包括:根据所述全网文件特征统计信息中的文件内容特征信息,统计全网与所述网页文件存在相同文件内容的第一文件数量;根据所述第一文件数量及预设的文件数量与文件内...

【专利技术属性】
技术研发人员:李俊波杜海章朱海星刘宁
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1