网页识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:18086998 阅读:41 留言:0更新日期:2018-05-31 16:13
本发明专利技术涉及一种网页识别方法、装置、计算机设备及存储介质。该方法包括获取已识别的风险等级大于预设等级的网页,提取网页对应的网站域名;根据网站域名获取网站对应的网络地址;查找与网络地址关联的域名,当查找到与网络地址关联的域名时,则将关联的域名作为待识别域名;获取待识别域名对应的网站中的网页数据;根据所获取的网页数据得到与待识别域名对应的风险等级大于预设等级的网页。上述网页识别方法、装置、计算机设备及存储介质,可以通过一个风险等级大于预设等级的网页查询到相关联的多个风险等级大于预设等级的网页,查询效率高。

【技术实现步骤摘要】
网页识别方法、装置、计算机设备及存储介质
本专利技术涉及网络安全领域,特别是涉及一种网页识别方法、装置、计算机设备及存储介质。
技术介绍
随着互联网科技的发展,人们越来越多的活动在网络上进行,例如在网络上进行交易,在网络上办理相应的银行业务等,由此会出现一些伪装成银行的网站,在用户访问时会窃取用户在使用该类网站时提交的银行账号、密码等私密信息,若不及时发现该类具有威胁性的网站,会威胁用户的财产安全,危害用户的利益。传统地,由于每天会产生大量的网页,则需要从互联网上产生的大量的网页中选取可能具有威胁性的目标网页,进而对选取到的目标网页进行繁琐的分析,使得识别目标网页为风险等级是否大于预设等级的效率不高。
技术实现思路
基于此,有必要针对识别目标网页的风险等级是否大于预设等级的效率不高的问题,提供一种网页识别方法、装置、计算机设备及存储介质。一种网站识别方法,包括:获取已识别的风险等级大于预设等级的网页,提取所述网页对应的网站域名;根据所述网站域名获取所述网站对应的网络地址;查找与所述网络地址关联的域名,当查找到与所述网络地址关联的域名时,则将所述关联的域名作为待识别域名;获取所述待识别域名对应的网站中的网页数据;根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页。在其中一个实施例中,所述查找与所述网络地址关联的域名的步骤,包括:将所述网络地址与地址关联库中预存储的网络地址进行匹配;当所述网络地址与所述地址关联库中预存储的网络地址匹配成功时,获取与所述预存储的网络地址关联的待匹配关联域名;获取所述待匹配关联域名的有效截止时间;若当前时间小于等于所述有效截止时间时,则提取所述待匹配关联域名作为待识别域名。在其中一个实施例中,所述方法还包括:当未查找到与所述网络地址关联的域名时,则获取所述网站的域名对应的注册数据,根据所述注册数据查询对应的域名作为待识别域名。在其中一个实施例中,所述获取所述网站的域名对应的注册数据,根据所述注册数据查询对应的域名作为待识别域名的步骤,包括:获取所述网站的域名对应的注册数据,从转换逻辑库中选取所述注册数据对应的转换逻辑;根据所述转换逻辑将所述注册数据进行转换得到转换后的注册数据;将所述转换后的注册数据与信息存储库中存储的信息数据进行匹配;当转换后的注册数据与信息存储库中存储的信息数据匹配成功时,则获取匹配成功的所述信息数据关联的域名作为待识别域名。在其中一个实施例中,所述根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页的步骤,包括:将所述网页数据与预设的黑名单中存储的第一过滤数据进行匹配,当所述网站数据与所述第一过滤数据匹配成功时,则对所述待识别域名添加可疑标签;将添加可疑标签的所述待识别域名对应的网站中的网页数据与预设的白名单中存储的第二过滤数据进行匹配;当所述网页数据与所述第二过滤数据未匹配成功时,则提取携带有可疑标签的待识别域名,获取所述待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。在其中一个实施例中,所述方法还包括:当经过所述预设的黑名单与所述预设的白名单进行数据识别后未存在携带有可疑标签的待识别域名时,则获取所述待识别域名对应的标识符;将所述标识符与预先存储在安全标识存储库中的安全标识符进行匹配;当所述安全标识符与所述待识别域名对应的标识符匹配成功时,则获取匹配成功的存储在所述安全标识存储库中的所述安全标识符关联的安全域名,将所述安全域名与所述待识别域名匹配;当所述安全域名与所述待识别域名匹配不成功时,则所述待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。在其中一个实施例中,所述根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页的步骤之后,还包括:提取所述风险等级大于预设等级的网页的网页数据的关键字,根据所述关键字对所述风险等级大于预设等级的网页对应的待识别域名添加对应的类别标签;将所述风险等级大于预设等级的待识别域名的类别标签与已存储的类别标签进行匹配;当未匹配成功时,则添加所述风险等级大于预设等级的待识别域名的类别标签,并将所述风险等级大于预设等级的网页存储至所述类别标签下。一种网页识别装置,所述装置包括:第一获取模块,用于获取已识别的风险等级大于预设等级的网页,提取所述网页对应的网站域名;第二获取模块,用于根据所述网站域名获取所述网站对应的网络地址;查找模块,用于查找与所述网络地址关联的域名,当查找到与所述网络地址关联的域名时,则将所述关联的域名作为待识别域名;第三获取模块,用于获取所述待识别域名对应的网站中的网页数据;识别模块,用于根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页。一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法中的步骤。一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。上述网页识别的方法、装置、计算机设备及存储介质,获取已识别的风险等级大于预设等级的网页,进而根据网页获取到该网页对应的网站的域名,根据该网站的域名获取该网站对应的网络地址,进而查找与该网络地址关联的域名作为待识别域名,当查询到待识别域名时,获取待识别域名对应的网站中的网页数据,根据网页数据的查询,得到风险等级大于预设等级的网页。可以通过一个风险等级大于预设等级的网页查询到相关联的多个风险等级大于预设等级的网页,查询效率高。附图说明图1为一实施例中网页识别方法的应用场景图;图2为一实施例中网页识别方法流程图;图3为一实施例中网页识装置的结构示意图;图4为一实施例中计算机设备结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本专利技术,并不用于限定本专利技术。在详细说明根据本专利技术的实施例前,应该注意到的是,所述的实施例主要在于与网页识别方法、装置、计算机设备及存储介质相关的步骤和装置组件的组合。因此,所述装置组件和方法步骤已经在附图中通过常规符号在适当的位置表示出来了,并且只示出了与理解本专利技术的实施例有关的细节,以免因对于得益于本专利技术的本领域普通技术人员而言显而易见的那些细节模糊了本专利技术的公开内容。在本文中,诸如左和右,上和下,前和后,第一和第二之类的关系术语仅仅用来区分一个实体或动作与另一个实体或动作,而不一定要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、物品或者设备所固有的要素。请参照图1,图1为一实施例中网页识别方法的应用场景图,其中包括网页识别平台和服务器,网页识别平台从服务器获取存储的已识别出的风险等级大于预设等级的网页,从获取到的风险等级大于预设等级的网页上获取网页地址,进而从网页地址中提取该网页对应的网站域名,网页识别平台根据网站域名获取网站对应的网络地址,网页识别平台根据网络地址,从存储在网页识别平台的地址关联库中查找与该网络地址关联的域名本文档来自技高网...
网页识别方法、装置、计算机设备及存储介质

【技术保护点】
一种网页识别方法,其特征在于,包括:获取已识别的风险等级大于预设等级的网页,提取所述网页对应的网站域名;根据所述网站域名获取所述网站对应的网络地址;查找与所述网络地址关联的域名,当查找到与所述网络地址关联的域名时,则将所述关联的域名作为待识别域名;获取所述待识别域名对应的网站中的网页数据;根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页。

【技术特征摘要】
1.一种网页识别方法,其特征在于,包括:获取已识别的风险等级大于预设等级的网页,提取所述网页对应的网站域名;根据所述网站域名获取所述网站对应的网络地址;查找与所述网络地址关联的域名,当查找到与所述网络地址关联的域名时,则将所述关联的域名作为待识别域名;获取所述待识别域名对应的网站中的网页数据;根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页。2.根据权利要求1所述的方法,其特征在于,所述查找与所述网络地址关联的域名的步骤,包括:将所述网络地址与地址关联库中预存储的网络地址进行匹配;当所述网络地址与所述地址关联库中预存储的网络地址匹配成功时,获取与所述预存储的网络地址关联的待匹配关联域名;获取所述待匹配关联域名的有效截止时间;若当前时间小于等于所述有效截止时间时,则提取所述待匹配关联域名作为待识别域名。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:当未查找到与所述网络地址关联的域名时,则获取所述网站的域名对应的注册数据,根据所述注册数据查询对应的域名作为待识别域名。4.根据权利要求3所述的方法,其特征在于,所述获取所述网站的域名对应的注册数据,根据所述注册数据查询对应的域名作为待识别域名的步骤,包括:获取所述网站的域名对应的注册数据,从转换逻辑库中选取所述注册数据对应的转换逻辑;根据所述转换逻辑将所述注册数据进行转换得到转换后的注册数据;将所述转换后的注册数据与信息存储库中存储的信息数据进行匹配;当转换后的注册数据与信息存储库中存储的信息数据匹配成功时,则获取匹配成功的所述信息数据关联的域名作为待识别域名。5.根据权利要求1所述的方法,其特征在于,所述根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页的步骤,包括:将所述网页数据与预设的黑名单中存储的第一过滤数据进行匹配,当所述网站数据与所述第一过滤数据匹配成功时,则对所述待识别域名添加可疑标签;将添加可疑标签的所述待识别域名对应的网站中的网页数据与预设的白名单中存储的第二过滤数据进行匹配;当所述网页数据与所述第二过滤数据未匹配成功时,则提取携带有可疑标签的待识别域名,获取所述待识别...

【专利技术属性】
技术研发人员:王元铭
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1