本发明专利技术涉及数据安全技术领域,公开了一种恶意网址的识别方法、装置、设备及存储介质,所述方法包括:根据待识别网址得到标识地址位置、网址域名信息以及网页正文内容;通过预设白名单网址列表对待识别网址进行过滤,得到若干数量待识别网址;根据标识地址位置和所述网址域名信息对若干数量待识别网址进行评分,得到若干数量网址评分;通过目标多维度指纹模型和若干数量网址评分对网页正文内容进行识别,并根据识别结果判断若干数量待识别网址是否为恶意网址;通过上述方式,对待识别网址进行过滤,再对若干数量待识别网址进行评分,最后根据识别结果和评分判断出待识别网址是否为恶意网址,从而能够有效提高识别是否为恶意网址的准确性和效率。址的准确性和效率。址的准确性和效率。
【技术实现步骤摘要】
恶意网址的识别方法、装置、设备及存储介质
[0001]本专利技术涉及数据安全
,尤其涉及恶意网址的识别方法、装置、设备及存储介质。
技术介绍
[0002]互联网为人们带来便捷的同时也带来了危害,例如,诈骗,且诈骗方式也跟随着的互联网技术不断变化,使得越来越多行接触网络的老年用户或者长期使用网络的青少年因诈骗受到了财产损失和精神损失,而诈骗的途径之一就是通过恶意网址对用户实施诈骗,例如,贷款、刷单、杀猪盘以及公检法诈骗等,因此,如何高效、准确地识别出恶意网址并进行阻止访问就显得尤为重要,而目前用于识别恶意网址的相关技术是一维向量空间模型,但是恶意网址的类型多种多样,而模型的迭代又需要大量的样本数据作为支撑,在迭代过程中极为繁琐和复杂,而不及时迭代又会造成识别是否为恶意网址的准确性和效率较低。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
[0004]本专利技术的主要目的在于提供一种恶意网址的识别方法、装置、设备及存储介质,旨在解决现有技术识别是否为恶意网址的准确性和效率较低的技术问题。
[0005]为实现上述目的,本专利技术提供了一种恶意网址的识别方法,所述恶意网址的识别方法包括以下步骤:
[0006]获取待识别网址,根据所述待识别网址得到标识地址位置、网址域名信息以及网页正文内容;
[0007]通过预设白名单网址列表对所述待识别网址进行过滤,得到若干数量待识别网址;
[0008]根据所述标识地址位置和所述网址域名信息对所述若干数量待识别网址进行评分,得到若干数量网址评分;
[0009]通过目标多维度指纹模型和所述若干数量网址评分对所述网页正文内容进行识别,并根据识别结果判断若干数量待识别网址是否为恶意网址。
[0010]可选地,所述获取待识别网址,根据所述待识别网址得到标识地址位置、网址域名信息以及网页正文内容,包括:
[0011]获取待识别网址,在目标命令行界面根据目标网址PING策略对所述待识别网址进行运行,得到网址标识地址;
[0012]通过GeoLite2离线库对所述网址标识地址进行查询,得到标识地址位置;
[0013]通过Whois数据库对所述待识别网址进行查询,得到网址域名信息;
[0014]通过目标HTTP Get命令对所述待识别网址进行访问,得到网页源码;
[0015]对所述网页源码进行解析,得到网页正文内容。
[0016]可选地,所述通过预设白名单网址列表对所述待识别网址进行过滤,得到若干数量待识别网址,包括:
[0017]通过预设白名单网址列表对所述待识别网址进行过滤;
[0018]对过滤后的待识别网络地址进行解析,得到当前网络地址解析信息;
[0019]在所述当前网络地址解析信息中不存在NS记录信息时,将所述当前网络地址解析信息对应的待识别网络地址进行筛除,得到若干数量待识别网址。
[0020]可选地,所述根据所述标识地址位置和所述网址域名信息对所述若干数量待识别网址进行评分,得到若干数量网址评分,包括:
[0021]对所述网址域名信息对应的域名进行识别,得到域名英文字符、域名中文字符以及域名数字字符;
[0022]根据所述域名英文字符、所述域名中文字符以及所述域名数字字符得到域名字符串组合;
[0023]根据所述域名字符串组合和所述标识地址位置对所述干数量待识别网址进行评分,得到若干数量网址评分。
[0024]可选地,所述根据所述域名字符串组合和所述标识地址位置对所述干数量待识别网址进行评分,得到若干数量网址评分,包括:
[0025]根据IP地址分析策略和预设国内标识位置范围对所述标识地址位置进行评分,得到标识地址位置得分;
[0026]通过目标二元语言模型对所述域名字符串组合进行计算,得到域名规则性得分;
[0027]通过目标网址接口调用域名的备案信息,根据所述备案信息得到域名备案得分;
[0028]根据网址域名信息得到域名注册时间,根据所述域名注册时间和预设期限阈值得到域名注册得分;
[0029]根据预设蜘蛛策略采集所述域名在搜索引擎的收录数量,根据所述收录数量和域名收录数量阈值得到收录得分;
[0030]通过BI
‑
Gram语言模型对所述域名后缀信息进行分析,得到后缀得分;
[0031]按照预设参数权重对所述标识地址位置得分、域名规则性得分、域名备案得分、域名注册得分、收录得分以及后缀得分进行计算,得到若干数量网址评分。
[0032]可选地,所述通过目标多维度指纹模型和所述若干数量网址评分对所述网页正文内容进行识别,并根据识别结果判断若干数量待识别网址是否为恶意网址,包括:
[0033]根据所述若干数量网址评分对所述若干数量待识别网址进行筛选,得到目标待识别网址;
[0034]通过Selenium操作策略对所述网页正文内容进行截取,得到网页正文内容图像;
[0035]通过目标OCR识别策略对所述网页正文内容图像进行识别,得到网页正文文本内容和网页正文图片内容;
[0036]分别提取所述网页正文文本内容的文本指纹信息和所述网页正文图片内容的图像指纹信息;
[0037]通过目标多维度指纹模型对所述文本指纹信息进行识别,得到文本识别结果,以及通过所述目标多维度指纹模型对所述图像指纹信息进行识别,得到图像识别结果;
[0038]在所述文本识别结果和/或图像识别结果中存在预设恶意网址信息时,判定所述
目标待识别网址为恶意网址。
[0039]可选地,所述根据所述若干数量网址评分对所述若干数量待识别网址进行筛选,得到目标待识别网址,包括:
[0040]按照目标顺序和所述若干数量网址评分对所述若干数量待识别网址进行排序,得到网址评分排序结果;
[0041]根据预设评分范围在所述网址评分排序结果中选取前N个待识别网址,并将所述前N个待识别网址作为目标待识别网址。
[0042]此外,为实现上述目的,本专利技术还提出一种恶意网址的识别装置,所述恶意网址的识别装置包括:
[0043]获取模块,用于获取待识别网址,根据所述待识别网址得到标识地址位置、网址域名信息以及网页正文内容;
[0044]过滤模块,用于通过预设白名单网址列表对所述待识别网址进行过滤,得到若干数量待识别网址;
[0045]评分模块,用于根据所述标识地址位置和所述网址域名信息对所述若干数量待识别网址进行评分,得到若干数量网址评分;
[0046]识别模块,用于通过目标多维度指纹模型和所述若干数量网址评分对所述网页正文内容进行识别,并根据识别结果判断若干数量待识别网址是否为恶意网址。
[0047]此外,为实现上述目的,本专利技术还提出一种恶意网址的识别设备,所述恶意网址的识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的恶意网址的识别本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种恶意网址的识别方法,其特征在于,所述恶意网址的识别方法包括以下步骤:获取待识别网址,根据所述待识别网址得到标识地址位置、网址域名信息以及网页正文内容;通过预设白名单网址列表对所述待识别网址进行过滤,得到若干数量待识别网址;根据所述标识地址位置和所述网址域名信息对所述若干数量待识别网址进行评分,得到若干数量网址评分;通过目标多维度指纹模型和所述若干数量网址评分对所述网页正文内容进行识别,并根据识别结果判断若干数量待识别网址是否为恶意网址。2.如权利要求1所述的恶意网址的识别方法,其特征在于,所述获取待识别网址,根据所述待识别网址得到标识地址位置、网址域名信息以及网页正文内容,包括:获取待识别网址,在目标命令行界面根据目标网址PING策略对所述待识别网址进行运行,得到网址标识地址;通过GeoLite2离线库对所述网址标识地址进行查询,得到标识地址位置;通过Whois数据库对所述待识别网址进行查询,得到网址域名信息;通过目标HTTP Get命令对所述待识别网址进行访问,得到网页源码;对所述网页源码进行解析,得到网页正文内容。3.如权利要求1所述的恶意网址的识别方法,其特征在于,所述通过预设白名单网址列表对所述待识别网址进行过滤,得到若干数量待识别网址,包括:通过预设白名单网址列表对所述待识别网址进行过滤;对过滤后的待识别网络地址进行解析,得到当前网络地址解析信息;在所述当前网络地址解析信息中不存在NS记录信息时,将所述当前网络地址解析信息对应的待识别网络地址进行筛除,得到若干数量待识别网址。4.如权利要求1所述的恶意网址的识别方法,其特征在于,所述根据所述标识地址位置和所述网址域名信息对所述若干数量待识别网址进行评分,得到若干数量网址评分,包括:对所述网址域名信息对应的域名进行识别,得到域名英文字符、域名中文字符以及域名数字字符;根据所述域名英文字符、所述域名中文字符以及所述域名数字字符得到域名字符串组合;根据所述域名字符串组合和所述标识地址位置对所述干数量待识别网址进行评分,得到若干数量网址评分。5.如权利要求4所述的恶意网址的识别方法,其特征在于,所述根据所述域名字符串组合和所述标识地址位置对所述干数量待识别网址进行评分,得到若干数量网址评分,包括:根据IP地址分析策略和预设国内标识位置范围对所述标识地址位置进行评分,得到标识地址位置得分;通过目标二元语言模型对所述域名字符串组合进行计算,得到域名规则性得分;通过目标网址接口调用域名的备案信息,根据所述备案信息得到域名备案得分;根据网址域名信息得到域名注册时间,根据所述域名注册时间和预设期限阈值得到域名注册得分;根据预设蜘蛛策略采集所述域名在搜索引擎的收录数量,根据所述收录数量...
【专利技术属性】
技术研发人员:王晓伟,马庆贺,高磊,杨真,
申请(专利权)人:深圳安巽科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。