识别官方网站的方法和系统技术方案

技术编号:8517365 阅读:245 留言:0更新日期:2013-03-30 21:13
本发明专利技术实施例公开了一种识别官方网站的方法和系统,以解决由于人工识别或者通过搜索引擎识别而导致的识别准确率和效率低的问题。其中,识别官方网站的方法包括:获取软件的下载日志;对所述下载日志进行分析,从所述下载日志中提取候选网站;将所述候选网站中符合预设条件的网站进行过滤;从过滤之后的候选网站中确认出软件的官方网站。本发明专利技术实施例提高了识别软件官方网站的准确率和效率,提高了监控的召回率和收集文件的效率。

【技术实现步骤摘要】

本专利技术实施例涉及互联网
,具体涉及识别官方网站的方法和系统
技术介绍
互联网,即广域网、局域网及单机按照一定的通讯协议组成的国际计算机网络。互联网是指将两台计算机或者是两台以上的计算机终端、客户端、服务端通过计算机信息技术的手段互相联系起来的结果,人们可以与远在千里之外的朋友相互发送邮件、共同完成一项工作、共同娱乐。互联网上每天会产生大量的新的文件,其中大部分是新的软件和升级补丁包,这些新的软件和升级补丁包可以作为白名单数据库中的文件。为了及时将这些新的软件和升级补丁包收录进入白名单数据库中,首先要查看这些软件的发布渠道,通常可以通过查看这些软件的官方网站来确定发布渠道,然后对这些官方网站进行监控。传统的识别软件官方网站的方法包括以下两种(I)通过人工识别软件的官方网站。(2)通过搜索引擎对一些已知软件名称的软件进行半自动抓取,并分析软件的页面样式,来识别软件的官方网站。上述第一种方法的识别准确率较高,但是召回率较低,并且,通过人工识别每天处理的软件数量很有限,识别效率低、成本高,该方法对于解决少量的重要软件比较适用,但是对整个互联网的所有软件来说,这个方法是不可行的。上述第二种方法只能针对软件名称已知的一些软件进行识别,并且识别过程依赖于搜索引擎质量的好坏,识别的准确率和监控的召回率很难保证。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的识别官方网站的方法和系统。根据本专利技术的一个方面,提供了一种识别官方网站的方法,包括获取软件的下载日志;对所述下载日志进行分析,从所述下载日志中提取候选网站;将所述候选网站中符合预设条件的网站进行过滤;从过滤之后的候选网站中确认出软件的官方网站。本专利技术实施例中,下载日志包括软件下载的网站信息,所述对所述下载日志进行分析,从所述下载日志中提取候选网站,包括从所述下载日志中解析出所述软件下载的网站信息;从所述软件下载的网站信息中提取候选网站标识信息。本专利技术实施例中,符合预设条件的网站包括下载网站,将所述候选网站中符合预设条件的网站进行过滤,包括 统计每个候选网站下下载的软件的个数FCOUNT和软件下载的总次数DCOUNT ;将所述候选网站下软件下载的总次数DCOUNT与下载的软件的个数FCOUNT的比值DC0UNT/FC0UNT与预设的第一阈值进行比较;当所述比值DC0UNT/FC0UNT大于所述第一阈值时,确定所述候选网站为下载网站;将所述下载网站过滤。本专利技术实施例中,当所述比值DC0UNT/FC0UNT小于或等于所述第一阈值时,还包括将所述候选网站下下载的软件的个数FCOUNT与预设的第二阈值进行比较;当下载的软件的个数FCOUNT大于或等于所述第二阈值时,确定所述网站为下载网站;将所述下载网站过滤。本专利技术实施例中,符合预设条件的网站包括非可执行文件的下载网站,所述软件的下载日志包括下载的软件文件名,将所述候选网站中的符合预设条件的网站进行过滤,包括从所述软件的下载日志中解析出所述候选网站下下载的软件文件名;判断所述软件文件名中是否存在非可执行文件的名称;若存在,则确定所述候选网站为非可执行文件的下载网站;将所述非可执行文件的下载网站过滤。本专利技术实施例中,符合预设条件的网站还包括游戏网站,将所述候选网站中的符合预设条件的网站进行过滤,还包括抓取所述候选网站的页面内容;将所述页面内容输入到预先设置的网站分类器中,通过所述网站分类器过滤所述候选网站中的游戏网站。本专利技术实施例中,网站分类器通过以下步骤获得分别获取多个官方网站样本和游戏网站样本;提取所述官方网站样本的页面内容,以及所述游戏网站样本的页面内容,并对所述页面内容进行分词处理;统计分词之后的官方网站样本的页面内容对应的词频,生成向量V-S0FT,统计分词之后的游戏网站样本的页面内容对应的词频,生成向量V-GAME ;根据所述向量V-SOFT和向量V-GAME生成网站分类器。本专利技术实施例中,通过所述网站分类器过滤所述候选网站中的游戏网站,包括提取所述候选网站的页面内容,对所述候选网站的页面内容进行分词处理;统计分词之后的候选网站的页面内容对应的词频,生成向量V-UNKN0WN ;分别计算向量V-UNKN0WN和向量V-SOFT的距离,以及向量V-UNKN0WN和向量V-GAME的距离;当向量V-UNKN0WN和向量V-GAME的距离在预设范围内时,确定所述候选网站为官方游戏网站或私服网站;将所述官方游戏网站或私服网站过滤。本专利技术实施例中,在抓取所述候选网站的页面内容之前,还包括对所述候选网站按照软件下载的总次数DCOUNT从大到小进行排序;获取处理网站的个数K,从排序后的候选网站中抽取前K个候选网站;所述抓取所述候选网站的页面内容,包括抓取所述前K个候选网站的页面内容。根据本专利技术的另一方面、提供了一种识别官方网站的系统,包括日志获取模块,适于获取软件的下载日志;网站提取模块,适于对所述下载日志进行分析,从所述下载日志中提取候选网站;网站过滤模块,适于将所述候选网站中符合预设条件的网站进行过滤;网站确认模块,适于从过滤之后的候选网站中确认出软件的官方网站。本专利技术实施例中,下载日志包括软件下载的网站信息,所述网站提取模块包括网站信息解析子模块,适于从所述下载日志中解析出所述软件下载的网站信息;标识提取子模块,适于从所述软件下载的网站信息中提取候选网站标识信息。本专利技术实施例中,符合预设条件的网站包括下载网站,网站过滤模块包括统计子模块,适于统计每个候选网站下下载的软件的个数FCOUNT和软件下载的总次数DCOUNT ;第一比较子模块,适于将所述候选网站下软件下载的总次数DCOUNT与下载的软件的个数FCOUNT的比值DC0UNT/FC0UNT与预设的第一阈值进行比较;第一下载网站确定子模块,适于当所述比值DC0UNT/FC0UNT大于所述第一阈值时,确定所述候选网站为下载网站;下载网站过滤子模块,适于将所述下载网站过滤。本专利技术实施例中,网站过滤模块还包括第二比较子模块,适于当所述第一比较子模块的比较结果为所述比值DCOUNT/FCOUNT小于或等于所述第一阈值时,将所述候选网站下下载的软件的个数FCOUNT与预设的第二阈值进行比较;第二下载网站确定子模块,适于当下载的软件的个数FCOUNT大于或等于所述第二阈值时,确定所述网站为下载网站。本专利技术实施例中,符合预设条件的网站包括非可执行文件的下载网站,所述软件的下载日志包括下载的软件文件名,网站过滤模块包括文件名解析子模块,适于从所述软件的下载日志中解析出在所述候选网站下下载的软件文件名;判断子模块,适于判断所述软件文件名中是否存在非可执行文件的名称;文件下载网站确定子模块,适于当判断子模块的判断结果为存在时,确定所述候选网站为非可执行文件的下载网站;文件下载网站过滤子模块,适于将所述非可执行文件的下载网站过滤。本专利技术实施例中,符合预设条件的网站还包括游戏网站,网站过滤模块还包括抓取子模块,适于抓取所述候选网站的页面内容;游戏网站过滤子模块,适于将所述页面内容输入到预先设置的网站分类器中,通过所述网站分类器过滤所述候选网站中的游戏网站。本专利技术实施例中,识别官方网站的系统还包括样本获取模块,适于分别获取多个官方本文档来自技高网...

【技术保护点】
一种识别官方网站的方法,包括:获取软件的下载日志;对所述下载日志进行分析,从所述下载日志中提取候选网站;将所述候选网站中符合预设条件的网站进行过滤;从过滤之后的候选网站中确认出软件的官方网站。

【技术特征摘要】

【专利技术属性】
技术研发人员:于春功张超旭
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1